31 files changed, 447 insertions, 448 deletions
diff --git a/training/dtrain/examples/parallelized/work/out.0.0 b/training/dtrain/examples/parallelized/work/out.0.0
index f394a9b0..9154c906 100644
--- a/training/dtrain/examples/parallelized/work/out.0.0
+++ b/training/dtrain/examples/parallelized/work/out.0.0
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 2577966319
+Seeding random number sequence to 4087834873
 
 dtrain
 Parameters:
@@ -33,33 +33,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = -0.0358
-       WordPenalty = +0.099236
-     LanguageModel = +0.51874
- LanguageModel_OOV = -0.1512
-     PhraseModel_0 = -0.10121
-     PhraseModel_1 = -0.25462
-     PhraseModel_2 = -0.14282
-     PhraseModel_3 = +0.068512
-     PhraseModel_4 = -0.78139
-     PhraseModel_5 = +0
-     PhraseModel_6 = +0.1547
-       PassThrough = -0.075
+              Glue = +0.257
+       WordPenalty = +0.026926
+     LanguageModel = +0.67342
+ LanguageModel_OOV = -0.046
+     PhraseModel_0 = +0.25329
+     PhraseModel_1 = +0.20036
+     PhraseModel_2 = +0.00060731
+     PhraseModel_3 = +0.65578
+     PhraseModel_4 = +0.47916
+     PhraseModel_5 = +0.004
+     PhraseModel_6 = +0.1829
+       PassThrough = -0.082
         ---
-       1best avg score: 0.080513 (+0.080513)
- 1best avg model score: 6.1321 (+6.1321)
-           avg # pairs: 1848.3
-        avg # rank err: 1096.7
-     avg # margin viol: 751.67
+       1best avg score: 0.04518 (+0.04518)
+ 1best avg model score: 32.803 (+32.803)
+           avg # pairs: 1266.3
+        avg # rank err: 857
+     avg # margin viol: 386.67
        k-best loss imp: 100%
-    non0 feature count: 11
+    non0 feature count: 12
            avg list sz: 100
-           avg f count: 10.6
-(time 0.23 min, 4.7 s/S)
+           avg f count: 10.853
+(time 0.47 min, 9.3 s/S)
 
 Writing weights file to 'work/weights.0.0' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.080513].
-This took 0.23333 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.04518].
+This took 0.46667 min.
diff --git a/training/dtrain/examples/parallelized/work/out.0.1 b/training/dtrain/examples/parallelized/work/out.0.1
index d0819a5a..0dbc7bd3 100644
--- a/training/dtrain/examples/parallelized/work/out.0.1
+++ b/training/dtrain/examples/parallelized/work/out.0.1
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 3555678516
+Seeding random number sequence to 2283043509
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = +0.19265
-       WordPenalty = +0.0064601
-     LanguageModel = +0.63102
- LanguageModel_OOV = -0.58027
-     PhraseModel_0 = -0.71998
-     PhraseModel_1 = +0.67713
-     PhraseModel_2 = +1.2848
-     PhraseModel_3 = -0.30726
-     PhraseModel_4 = -0.91479
-     PhraseModel_5 = +0.026825
-     PhraseModel_6 = -0.31892
-       PassThrough = -0.51565
+              Glue = -0.17905
+       WordPenalty = +0.062126
+     LanguageModel = +0.66825
+ LanguageModel_OOV = -0.15248
+     PhraseModel_0 = -0.55811
+     PhraseModel_1 = +0.12741
+     PhraseModel_2 = +0.60388
+     PhraseModel_3 = -0.44464
+     PhraseModel_4 = -0.63137
+     PhraseModel_5 = -0.0084
+     PhraseModel_6 = -0.20165
+       PassThrough = -0.23468
         ---
-       1best avg score: 0.12642 (+0.12642)
- 1best avg model score: -30.689 (-30.689)
-           avg # pairs: 1682.7
-        avg # rank err: 807
-     avg # margin viol: 872
+       1best avg score: 0.14066 (+0.14066)
+ 1best avg model score: -37.614 (-37.614)
+           avg # pairs: 1244.7
+        avg # rank err: 728
+     avg # margin viol: 516.67
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
-           avg f count: 12
-(time 0.27 min, 5.3 s/S)
+           avg f count: 11.507
+(time 0.45 min, 9 s/S)
 
 Writing weights file to 'work/weights.0.1' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.12642].
-This took 0.26667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.14066].
+This took 0.45 min.
diff --git a/training/dtrain/examples/parallelized/work/out.0.2 b/training/dtrain/examples/parallelized/work/out.0.2
index 62bf8bb9..fcecc7e1 100644
--- a/training/dtrain/examples/parallelized/work/out.0.2
+++ b/training/dtrain/examples/parallelized/work/out.0.2
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 2696902705
+Seeding random number sequence to 3693132895
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = -0.2741
-       WordPenalty = +0.1227
-     LanguageModel = +0.82597
- LanguageModel_OOV = -0.52135
-     PhraseModel_0 = -0.68526
-     PhraseModel_1 = +0.27265
-     PhraseModel_2 = +0.87438
-     PhraseModel_3 = -0.00012234
-     PhraseModel_4 = -1.0912
-     PhraseModel_5 = +0.0371
-     PhraseModel_6 = -0.2855
-       PassThrough = -0.4831
+              Glue = -0.019275
+       WordPenalty = +0.022192
+     LanguageModel = +0.40688
+ LanguageModel_OOV = -0.36397
+     PhraseModel_0 = -0.36273
+     PhraseModel_1 = +0.56432
+     PhraseModel_2 = +0.85638
+     PhraseModel_3 = -0.20222
+     PhraseModel_4 = -0.48295
+     PhraseModel_5 = +0.03145
+     PhraseModel_6 = -0.26092
+       PassThrough = -0.38122
         ---
-       1best avg score: 0.12697 (+0.12697)
- 1best avg model score: -1.7396 (-1.7396)
-           avg # pairs: 1280.3
-        avg # rank err: 764.33
-     avg # margin viol: 507
+       1best avg score: 0.18982 (+0.18982)
+ 1best avg model score: 1.7096 (+1.7096)
+           avg # pairs: 1524.3
+        avg # rank err: 813.33
+     avg # margin viol: 702.67
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
-           avg f count: 10.727
-(time 0.28 min, 5.7 s/S)
+           avg f count: 11.32
+(time 0.53 min, 11 s/S)
 
 Writing weights file to 'work/weights.0.2' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.12697].
-This took 0.28333 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.18982].
+This took 0.53333 min.
diff --git a/training/dtrain/examples/parallelized/work/out.1.0 b/training/dtrain/examples/parallelized/work/out.1.0
index cc35e676..595dfc94 100644
--- a/training/dtrain/examples/parallelized/work/out.1.0
+++ b/training/dtrain/examples/parallelized/work/out.1.0
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 1336015864
+Seeding random number sequence to 859043351
 
 dtrain
 Parameters:
@@ -33,33 +33,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = -0.2015
-       WordPenalty = +0.078303
-     LanguageModel = +0.90323
- LanguageModel_OOV = -0.1378
-     PhraseModel_0 = -1.3044
-     PhraseModel_1 = -0.88246
-     PhraseModel_2 = +0.26379
-     PhraseModel_3 = -0.79106
-     PhraseModel_4 = -1.4702
-     PhraseModel_5 = +0.0218
-     PhraseModel_6 = -0.5283
-       PassThrough = -0.2531
+              Glue = -0.3229
+       WordPenalty = +0.27969
+     LanguageModel = +1.3645
+ LanguageModel_OOV = -0.0443
+     PhraseModel_0 = -0.19049
+     PhraseModel_1 = -0.077698
+     PhraseModel_2 = +0.058898
+     PhraseModel_3 = +0.017251
+     PhraseModel_4 = -1.5474
+     PhraseModel_5 = +0
+     PhraseModel_6 = -0.1818
+       PassThrough = -0.193
         ---
-       1best avg score: 0.062351 (+0.062351)
- 1best avg model score: -47.109 (-47.109)
-           avg # pairs: 1284
-        avg # rank err: 844.33
-     avg # margin viol: 216.33
+       1best avg score: 0.070229 (+0.070229)
+ 1best avg model score: -44.01 (-44.01)
+           avg # pairs: 1294
+        avg # rank err: 878.67
+     avg # margin viol: 350.67
        k-best loss imp: 100%
-    non0 feature count: 12
+    non0 feature count: 11
            avg list sz: 100
-           avg f count: 11.883
-(time 0.42 min, 8.3 s/S)
+           avg f count: 11.487
+(time 0.28 min, 5.7 s/S)
 
 Writing weights file to 'work/weights.1.0' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.062351].
-This took 0.41667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.070229].
+This took 0.28333 min.
diff --git a/training/dtrain/examples/parallelized/work/out.1.1 b/training/dtrain/examples/parallelized/work/out.1.1
index 3d7a7e66..9346fc82 100644
--- a/training/dtrain/examples/parallelized/work/out.1.1
+++ b/training/dtrain/examples/parallelized/work/out.1.1
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 1673913538
+Seeding random number sequence to 3557309480
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = -0.15575
-       WordPenalty = +0.14939
-     LanguageModel = +0.95915
- LanguageModel_OOV = -0.42267
-     PhraseModel_0 = -0.46337
-     PhraseModel_1 = +0.36682
-     PhraseModel_2 = +0.79339
-     PhraseModel_3 = +0.27497
-     PhraseModel_4 = -1.2038
-     PhraseModel_5 = +0.061325
-     PhraseModel_6 = -0.11143
-       PassThrough = -0.45405
+              Glue = -0.26425
+       WordPenalty = +0.047881
+     LanguageModel = +0.78496
+ LanguageModel_OOV = -0.49307
+     PhraseModel_0 = -0.58703
+     PhraseModel_1 = -0.33425
+     PhraseModel_2 = +0.20834
+     PhraseModel_3 = -0.043346
+     PhraseModel_4 = -0.60761
+     PhraseModel_5 = +0.123
+     PhraseModel_6 = -0.05415
+       PassThrough = -0.42167
         ---
-       1best avg score: 0.057772 (+0.057772)
- 1best avg model score: -59.945 (-59.945)
-           avg # pairs: 1647
-        avg # rank err: 878
-     avg # margin viol: 564.67
+       1best avg score: 0.085952 (+0.085952)
+ 1best avg model score: -45.175 (-45.175)
+           avg # pairs: 1180.7
+        avg # rank err: 668.33
+     avg # margin viol: 512.33
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
-           avg f count: 11.973
-(time 0.42 min, 8.3 s/S)
+           avg f count: 12
+(time 0.27 min, 5.3 s/S)
 
 Writing weights file to 'work/weights.1.1' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.057772].
-This took 0.41667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.085952].
+This took 0.26667 min.
diff --git a/training/dtrain/examples/parallelized/work/out.1.2 b/training/dtrain/examples/parallelized/work/out.1.2
index ba603651..08f07a75 100644
--- a/training/dtrain/examples/parallelized/work/out.1.2
+++ b/training/dtrain/examples/parallelized/work/out.1.2
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 785956183
+Seeding random number sequence to 56743915
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = -0.2323
-       WordPenalty = +0.11501
-     LanguageModel = +0.76484
- LanguageModel_OOV = -0.57495
-     PhraseModel_0 = -0.64111
-     PhraseModel_1 = +0.44772
-     PhraseModel_2 = +0.98529
-     PhraseModel_3 = +0.022939
-     PhraseModel_4 = -1.1029
-     PhraseModel_5 = +0.0491
-     PhraseModel_6 = -0.315
-       PassThrough = -0.5367
+              Glue = -0.23608
+       WordPenalty = +0.10931
+     LanguageModel = +0.81339
+ LanguageModel_OOV = -0.33238
+     PhraseModel_0 = -0.53685
+     PhraseModel_1 = -0.049658
+     PhraseModel_2 = +0.40277
+     PhraseModel_3 = +0.14601
+     PhraseModel_4 = -0.72851
+     PhraseModel_5 = +0.03475
+     PhraseModel_6 = -0.27192
+       PassThrough = -0.34763
         ---
-       1best avg score: 0.24871 (+0.24871)
- 1best avg model score: -3.0138 (-3.0138)
-           avg # pairs: 1489.7
-        avg # rank err: 644.67
-     avg # margin viol: 549
+       1best avg score: 0.10073 (+0.10073)
+ 1best avg model score: -38.422 (-38.422)
+           avg # pairs: 1505.3
+        avg # rank err: 777
+     avg # margin viol: 691.67
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
-           avg f count: 11.187
-(time 0.43 min, 8.7 s/S)
+           avg f count: 12
+(time 0.35 min, 7 s/S)
 
 Writing weights file to 'work/weights.1.2' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.24871].
-This took 0.43333 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.10073].
+This took 0.35 min.
diff --git a/training/dtrain/examples/parallelized/work/out.2.0 b/training/dtrain/examples/parallelized/work/out.2.0
index ab38c637..25ef6d4e 100644
--- a/training/dtrain/examples/parallelized/work/out.2.0
+++ b/training/dtrain/examples/parallelized/work/out.2.0
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 3274281797
+Seeding random number sequence to 2662215673
 
 dtrain
 Parameters:
@@ -33,33 +33,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = +0.1295
-       WordPenalty = +0.12781
-     LanguageModel = +1.1825
- LanguageModel_OOV = -0.1667
-     PhraseModel_0 = -0.65167
-     PhraseModel_1 = -0.044563
-     PhraseModel_2 = +0.49706
-     PhraseModel_3 = -0.40367
-     PhraseModel_4 = -1.3438
-     PhraseModel_5 = +0.0435
-     PhraseModel_6 = -0.3743
-       PassThrough = -0.0307
+              Glue = -0.1259
+       WordPenalty = +0.048294
+     LanguageModel = +0.36254
+ LanguageModel_OOV = -0.1228
+     PhraseModel_0 = +0.26357
+     PhraseModel_1 = +0.24793
+     PhraseModel_2 = +0.0063763
+     PhraseModel_3 = -0.18966
+     PhraseModel_4 = -0.226
+     PhraseModel_5 = +0
+     PhraseModel_6 = +0.0743
+       PassThrough = -0.1335
         ---
-       1best avg score: 0.08637 (+0.08637)
- 1best avg model score: -42.175 (-42.175)
-           avg # pairs: 1136.3
-        avg # rank err: 720.67
-     avg # margin viol: 399.67
+       1best avg score: 0.072836 (+0.072836)
+ 1best avg model score: -0.56296 (-0.56296)
+           avg # pairs: 1094.7
+        avg # rank err: 658
+     avg # margin viol: 436.67
        k-best loss imp: 100%
-    non0 feature count: 12
+    non0 feature count: 11
            avg list sz: 100
-           avg f count: 11.487
-(time 0.22 min, 4.3 s/S)
+           avg f count: 10.813
+(time 0.13 min, 2.7 s/S)
 
 Writing weights file to 'work/weights.2.0' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.08637].
-This took 0.21667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.072836].
+This took 0.13333 min.
diff --git a/training/dtrain/examples/parallelized/work/out.2.1 b/training/dtrain/examples/parallelized/work/out.2.1
index f86ec520..8e4efde9 100644
--- a/training/dtrain/examples/parallelized/work/out.2.1
+++ b/training/dtrain/examples/parallelized/work/out.2.1
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 3424877412
+Seeding random number sequence to 3092904479
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = -0.33455
-       WordPenalty = +0.10696
-     LanguageModel = +1.0621
- LanguageModel_OOV = -0.46617
-     PhraseModel_0 = -0.63382
-     PhraseModel_1 = +0.33225
-     PhraseModel_2 = +0.8501
-     PhraseModel_3 = -0.29374
-     PhraseModel_4 = -1.0908
-     PhraseModel_5 = +0.033425
-     PhraseModel_6 = -0.38922
-       PassThrough = -0.36385
+              Glue = -0.10385
+       WordPenalty = +0.038717
+     LanguageModel = +0.49413
+ LanguageModel_OOV = -0.24887
+     PhraseModel_0 = -0.32102
+     PhraseModel_1 = +0.34413
+     PhraseModel_2 = +0.62366
+     PhraseModel_3 = -0.49337
+     PhraseModel_4 = -0.77005
+     PhraseModel_5 = +0.007
+     PhraseModel_6 = -0.05055
+       PassThrough = -0.23928
         ---
-       1best avg score: 0.12089 (+0.12089)
- 1best avg model score: -30.902 (-30.902)
-           avg # pairs: 1852
-        avg # rank err: 870.33
-     avg # margin viol: 898.67
+       1best avg score: 0.10245 (+0.10245)
+ 1best avg model score: -20.384 (-20.384)
+           avg # pairs: 1741.7
+        avg # rank err: 953.67
+     avg # margin viol: 585.33
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
-           avg f count: 12
-(time 0.22 min, 4.3 s/S)
+           avg f count: 11.977
+(time 0.12 min, 2.3 s/S)
 
 Writing weights file to 'work/weights.2.1' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.12089].
-This took 0.21667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.10245].
+This took 0.11667 min.
diff --git a/training/dtrain/examples/parallelized/work/out.2.2 b/training/dtrain/examples/parallelized/work/out.2.2
index 823129c0..e0ca2110 100644
--- a/training/dtrain/examples/parallelized/work/out.2.2
+++ b/training/dtrain/examples/parallelized/work/out.2.2
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 3087490723
+Seeding random number sequence to 2803362953
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   3
 WEIGHTS
-              Glue = -0.3464
-       WordPenalty = +0.18737
-     LanguageModel = +1.5794
- LanguageModel_OOV = -0.48725
-     PhraseModel_0 = -1.0015
-     PhraseModel_1 = -0.51734
-     PhraseModel_2 = +0.40486
-     PhraseModel_3 = -0.013031
-     PhraseModel_4 = -1.1546
-     PhraseModel_5 = +0.0371
-     PhraseModel_6 = -0.1892
-       PassThrough = -0.449
+              Glue = -0.32907
+       WordPenalty = +0.049596
+     LanguageModel = +0.33496
+ LanguageModel_OOV = -0.44357
+     PhraseModel_0 = -0.3068
+     PhraseModel_1 = +0.59376
+     PhraseModel_2 = +0.86416
+     PhraseModel_3 = -0.21072
+     PhraseModel_4 = -0.65734
+     PhraseModel_5 = +0.03475
+     PhraseModel_6 = -0.10653
+       PassThrough = -0.46082
         ---
-       1best avg score: 0.17557 (+0.17557)
- 1best avg model score: -15.133 (-15.133)
-           avg # pairs: 1644.7
-        avg # rank err: 830.33
-     avg # margin viol: 766.33
+       1best avg score: 0.25055 (+0.25055)
+ 1best avg model score: -1.4459 (-1.4459)
+           avg # pairs: 1689
+        avg # rank err: 755.67
+     avg # margin viol: 829.33
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
-           avg f count: 11.267
-(time 0.23 min, 4.7 s/S)
+           avg f count: 10.53
+(time 0.13 min, 2.7 s/S)
 
 Writing weights file to 'work/weights.2.2' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.17557].
-This took 0.23333 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.25055].
+This took 0.13333 min.
diff --git a/training/dtrain/examples/parallelized/work/out.3.0 b/training/dtrain/examples/parallelized/work/out.3.0
index 2d8dea27..3c074f04 100644
--- a/training/dtrain/examples/parallelized/work/out.3.0
+++ b/training/dtrain/examples/parallelized/work/out.3.0
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 164953210
+Seeding random number sequence to 316107185
 
 dtrain
 Parameters:
@@ -33,20 +33,20 @@ Parameters:
 Iteration #1 of 1.
   1
 WEIGHTS
-              Glue = -0.11
-       WordPenalty = +0.21975
-     LanguageModel = +1.7397
- LanguageModel_OOV = -0.037
-     PhraseModel_0 = -0.34702
-     PhraseModel_1 = +0.11602
-     PhraseModel_2 = +0.3951
-     PhraseModel_3 = +0.37857
-     PhraseModel_4 = -1.0319
-     PhraseModel_5 = +0.042
-     PhraseModel_6 = -0.253
-       PassThrough = -0.111
+              Glue = +0.046
+       WordPenalty = +0.17328
+     LanguageModel = +1.1667
+ LanguageModel_OOV = +0.066
+     PhraseModel_0 = -1.1694
+     PhraseModel_1 = -0.9883
+     PhraseModel_2 = +0.036205
+     PhraseModel_3 = -0.77387
+     PhraseModel_4 = -1.5019
+     PhraseModel_5 = +0.024
+     PhraseModel_6 = -0.514
+       PassThrough = +0.031
         ---
-       1best avg score: 0.034204 (+0.034204)
+       1best avg score: 0.032916 (+0.032916)
  1best avg model score: 0 (+0)
            avg # pairs: 900
         avg # rank err: 900
@@ -54,12 +54,12 @@ WEIGHTS
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
-           avg f count: 10.8
-(time 0.12 min, 7 s/S)
+           avg f count: 11.72
+(time 0.23 min, 14 s/S)
 
 Writing weights file to 'work/weights.3.0' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.034204].
-This took 0.11667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.032916].
+This took 0.23333 min.
diff --git a/training/dtrain/examples/parallelized/work/out.3.1 b/training/dtrain/examples/parallelized/work/out.3.1
index a1eeb64b..241d3455 100644
--- a/training/dtrain/examples/parallelized/work/out.3.1
+++ b/training/dtrain/examples/parallelized/work/out.3.1
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 2079701870
+Seeding random number sequence to 353677750
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   1
 WEIGHTS
-              Glue = -0.63235
-       WordPenalty = +0.10761
-     LanguageModel = +1.4703
- LanguageModel_OOV = -0.45548
-     PhraseModel_0 = -0.34858
-     PhraseModel_1 = +0.050651
-     PhraseModel_2 = +0.32137
-     PhraseModel_3 = +0.31848
-     PhraseModel_4 = -0.96702
-     PhraseModel_5 = +0.026825
-     PhraseModel_6 = -0.30802
-       PassThrough = -0.43805
+              Glue = -0.08475
+       WordPenalty = +0.11151
+     LanguageModel = +1.0635
+ LanguageModel_OOV = -0.11468
+     PhraseModel_0 = -0.062922
+     PhraseModel_1 = +0.0035552
+     PhraseModel_2 = +0.039692
+     PhraseModel_3 = +0.080265
+     PhraseModel_4 = -0.57787
+     PhraseModel_5 = +0.0174
+     PhraseModel_6 = -0.17095
+       PassThrough = -0.18248
         ---
-       1best avg score: 0.078383 (+0.078383)
- 1best avg model score: -68.182 (-68.182)
+       1best avg score: 0.16117 (+0.16117)
+ 1best avg model score: -67.89 (-67.89)
            avg # pairs: 1411
-        avg # rank err: 599
-     avg # margin viol: 801
+        avg # rank err: 460
+     avg # margin viol: 951
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
            avg f count: 12
-(time 0.12 min, 7 s/S)
+(time 0.22 min, 13 s/S)
 
 Writing weights file to 'work/weights.3.1' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.078383].
-This took 0.11667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.16117].
+This took 0.21667 min.
diff --git a/training/dtrain/examples/parallelized/work/out.3.2 b/training/dtrain/examples/parallelized/work/out.3.2
index a0c0e509..b995daf5 100644
--- a/training/dtrain/examples/parallelized/work/out.3.2
+++ b/training/dtrain/examples/parallelized/work/out.3.2
@@ -3,7 +3,7 @@ Loading the LM will be faster if you build a binary file.
 Reading ../standard/nc-wmt11.en.srilm.gz
 ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
 ****************************************************************************************************
-Seeding random number sequence to 3524794953
+Seeding random number sequence to 3001145976
 
 dtrain
 Parameters:
@@ -34,33 +34,33 @@ Parameters:
 Iteration #1 of 1.
   1
 WEIGHTS
-              Glue = -0.2581
-       WordPenalty = +0.091647
-     LanguageModel = +0.77537
- LanguageModel_OOV = -0.57165
-     PhraseModel_0 = -0.5794
-     PhraseModel_1 = +0.46929
-     PhraseModel_2 = +0.95471
-     PhraseModel_3 = +0.12107
-     PhraseModel_4 = -1.0053
-     PhraseModel_5 = +0.0371
-     PhraseModel_6 = -0.3253
-       PassThrough = -0.5334
+              Glue = -0.13247
+       WordPenalty = +0.053592
+     LanguageModel = +0.72105
+ LanguageModel_OOV = -0.30827
+     PhraseModel_0 = -0.37053
+     PhraseModel_1 = +0.17551
+     PhraseModel_2 = +0.5
+     PhraseModel_3 = -0.1459
+     PhraseModel_4 = -0.59563
+     PhraseModel_5 = +0.03475
+     PhraseModel_6 = -0.11143
+       PassThrough = -0.32553
         ---
-       1best avg score: 0.10945 (+0.10945)
- 1best avg model score: -23.077 (-23.077)
-           avg # pairs: 1545
-        avg # rank err: 987
-     avg # margin viol: 558
+       1best avg score: 0.12501 (+0.12501)
+ 1best avg model score: -62.128 (-62.128)
+           avg # pairs: 979
+        avg # rank err: 539
+     avg # margin viol: 440
        k-best loss imp: 100%
     non0 feature count: 12
            avg list sz: 100
            avg f count: 12
-(time 0.12 min, 7 s/S)
+(time 0.22 min, 13 s/S)
 
 Writing weights file to 'work/weights.3.2' ...
 done
 
 ---
-Best iteration: 1 [SCORE 'stupid_bleu'=0.10945].
-This took 0.11667 min.
+Best iteration: 1 [SCORE 'stupid_bleu'=0.12501].
+This took 0.21667 min.
diff --git a/training/dtrain/examples/parallelized/work/shard.0.0.in b/training/dtrain/examples/parallelized/work/shard.0.0.in
index fb8c2cd6..d1b48321 100644
--- a/training/dtrain/examples/parallelized/work/shard.0.0.in
+++ b/training/dtrain/examples/parallelized/work/shard.0.0.in
@@ -1,3 +1,3 @@
-<seg grammar="grammar/grammar.out.1.gz" id="1">ein gemeinsames merkmal aller extremen rechten in europa ist ihr rassismus und die tatsache , daß sie das einwanderungsproblem als politischen hebel benutzen .</seg> ||| a common feature of europe 's extreme right is its racism and use of the immigration issue as a political wedge .
-<seg grammar="grammar/grammar.out.6.gz" id="6">das aber wird es nicht , wie die geschichte des rassismus in amerika deutlich zeigt .</seg> ||| it will not , as america 's racial history clearly shows .
+<seg grammar="grammar/grammar.out.8.gz" id="8">der erste schritt , um mit der rassenfrage umzugehen ist , ursache und folgen rassistischer feindseligkeiten zu verstehen , auch dann , wenn das bedeutet , unangenehme tatsachen aufzudecken .</seg> ||| the first step to address racial politics is to understand the origin and consequences of racial animosity , even if it means uncovering unpleasant truths .
 <seg grammar="grammar/grammar.out.5.gz" id="5">die großen parteien der rechten und der linken mitte haben sich dem problem gestellt , in dem sie den kopf in den sand gesteckt und allen aussichten zuwider gehofft haben , es möge bald verschwinden .</seg> ||| mainstream parties of the center left and center right have confronted this prospect by hiding their heads in the ground , hoping against hope that the problem will disappear .
+<seg grammar="grammar/grammar.out.2.gz" id="2">der lega nord in italien , der vlaams block in den niederlanden , die anhänger von le pens nationaler front in frankreich , sind beispiele für parteien oder bewegungen , die sich um das gemeinsame thema : ablehnung der zuwanderung gebildet haben und um forderung nach einer vereinfachten politik , um sie zu regeln .</seg> ||| the lega nord in italy , the vlaams blok in the netherlands , the supporters of le pen 's national front in france , are all examples of parties or movements formed on the common theme of aversion to immigrants and promotion of simplistic policies to control them .
diff --git a/training/dtrain/examples/parallelized/work/shard.1.0.in b/training/dtrain/examples/parallelized/work/shard.1.0.in
index c28d1502..a63f05bd 100644
--- a/training/dtrain/examples/parallelized/work/shard.1.0.in
+++ b/training/dtrain/examples/parallelized/work/shard.1.0.in
@@ -1,3 +1,3 @@
-<seg grammar="grammar/grammar.out.7.gz" id="7">die beziehungen zwischen den rassen standen in den usa über jahrzehnte - und tun das noch heute - im zentrum der politischen debatte . das ging so weit , daß rassentrennung genauso wichtig wie das einkommen wurde , - wenn nicht sogar noch wichtiger - um politische zuneigungen und einstellungen zu bestimmen .</seg> ||| race relations in the us have been for decades - and remain - at the center of political debate , to the point that racial cleavages are as important as income , if not more , as determinants of political preferences and attitudes .
-<seg grammar="grammar/grammar.out.0.gz" id="0">europas nach rassen geteiltes haus</seg> ||| europe 's divided racial house
-<seg grammar="grammar/grammar.out.2.gz" id="2">der lega nord in italien , der vlaams block in den niederlanden , die anhänger von le pens nationaler front in frankreich , sind beispiele für parteien oder bewegungen , die sich um das gemeinsame thema : ablehnung der zuwanderung gebildet haben und um forderung nach einer vereinfachten politik , um sie zu regeln .</seg> ||| the lega nord in italy , the vlaams blok in the netherlands , the supporters of le pen 's national front in france , are all examples of parties or movements formed on the common theme of aversion to immigrants and promotion of simplistic policies to control them .
+<seg grammar="grammar/grammar.out.4.gz" id="4">eine alternde einheimische bevölkerung und immer offenere grenzen vermehren die rassistische zersplitterung in den europäischen ländern .</seg> ||| an aging population at home and ever more open borders imply increasing racial fragmentation in european countries .
+<seg grammar="grammar/grammar.out.9.gz" id="9">genau das haben in den usa eine große anzahl an forschungsvorhaben in wirtschaft , soziologie , psychologie und politikwissenschaft geleistet . diese forschungen zeigten , daß menschen unterschiedlicher rasse einander deutlich weniger vertrauen .</seg> ||| this is precisely what a large amount of research in economics , sociology , psychology and political science has done for the us .
+<seg grammar="grammar/grammar.out.3.gz" id="3">während individuen wie jörg haidar und jean @-@ marie le pen kommen und ( leider nicht zu bald ) wieder gehen mögen , wird die rassenfrage aus der europäischer politik nicht so bald verschwinden .</seg> ||| while individuals like jorg haidar and jean @-@ marie le pen may come and ( never to soon ) go , the race question will not disappear from european politics anytime soon .
diff --git a/training/dtrain/examples/parallelized/work/shard.2.0.in b/training/dtrain/examples/parallelized/work/shard.2.0.in
index 85f68e20..fe542b40 100644
--- a/training/dtrain/examples/parallelized/work/shard.2.0.in
+++ b/training/dtrain/examples/parallelized/work/shard.2.0.in
@@ -1,3 +1,3 @@
-<seg grammar="grammar/grammar.out.4.gz" id="4">eine alternde einheimische bevölkerung und immer offenere grenzen vermehren die rassistische zersplitterung in den europäischen ländern .</seg> ||| an aging population at home and ever more open borders imply increasing racial fragmentation in european countries .
-<seg grammar="grammar/grammar.out.3.gz" id="3">während individuen wie jörg haidar und jean @-@ marie le pen kommen und ( leider nicht zu bald ) wieder gehen mögen , wird die rassenfrage aus der europäischer politik nicht so bald verschwinden .</seg> ||| while individuals like jorg haidar and jean @-@ marie le pen may come and ( never to soon ) go , the race question will not disappear from european politics anytime soon .
-<seg grammar="grammar/grammar.out.8.gz" id="8">der erste schritt , um mit der rassenfrage umzugehen ist , ursache und folgen rassistischer feindseligkeiten zu verstehen , auch dann , wenn das bedeutet , unangenehme tatsachen aufzudecken .</seg> ||| the first step to address racial politics is to understand the origin and consequences of racial animosity , even if it means uncovering unpleasant truths .
+<seg grammar="grammar/grammar.out.1.gz" id="1">ein gemeinsames merkmal aller extremen rechten in europa ist ihr rassismus und die tatsache , daß sie das einwanderungsproblem als politischen hebel benutzen .</seg> ||| a common feature of europe 's extreme right is its racism and use of the immigration issue as a political wedge .
+<seg grammar="grammar/grammar.out.0.gz" id="0">europas nach rassen geteiltes haus</seg> ||| europe 's divided racial house
+<seg grammar="grammar/grammar.out.6.gz" id="6">das aber wird es nicht , wie die geschichte des rassismus in amerika deutlich zeigt .</seg> ||| it will not , as america 's racial history clearly shows .
diff --git a/training/dtrain/examples/parallelized/work/shard.3.0.in b/training/dtrain/examples/parallelized/work/shard.3.0.in
index f7cbb3e3..4a8fa5b1 100644
--- a/training/dtrain/examples/parallelized/work/shard.3.0.in
+++ b/training/dtrain/examples/parallelized/work/shard.3.0.in
@@ -1 +1 @@
-<seg grammar="grammar/grammar.out.9.gz" id="9">genau das haben in den usa eine große anzahl an forschungsvorhaben in wirtschaft , soziologie , psychologie und politikwissenschaft geleistet . diese forschungen zeigten , daß menschen unterschiedlicher rasse einander deutlich weniger vertrauen .</seg> ||| this is precisely what a large amount of research in economics , sociology , psychology and political science has done for the us .
+<seg grammar="grammar/grammar.out.7.gz" id="7">die beziehungen zwischen den rassen standen in den usa über jahrzehnte - und tun das noch heute - im zentrum der politischen debatte . das ging so weit , daß rassentrennung genauso wichtig wie das einkommen wurde , - wenn nicht sogar noch wichtiger - um politische zuneigungen und einstellungen zu bestimmen .</seg> ||| race relations in the us have been for decades - and remain - at the center of political debate , to the point that racial cleavages are as important as income , if not more , as determinants of political preferences and attitudes .
diff --git a/training/dtrain/examples/parallelized/work/weights.0 b/training/dtrain/examples/parallelized/work/weights.0
index aa494afb..c560fdbd 100644
--- a/training/dtrain/examples/parallelized/work/weights.0
+++ b/training/dtrain/examples/parallelized/work/weights.0
@@ -1,12 +1,12 @@
-PhraseModel_4	-1.1568444011426948
-LanguageModel	1.0860459962466693
-PhraseModel_0	-0.6010837860294569
-PhraseModel_3	-0.18690910705225725
-PhraseModel_1	-0.26640412994377044
-PhraseModel_6	-0.25022499999999803
-PhraseModel_2	0.2532838373219909
-PassThrough	-0.1174500000000002
-WordPenalty	0.1312763645173042
-LanguageModel_OOV	-0.12317500000000006
-Glue	-0.05444999999999971
-PhraseModel_5	0.026825000000000078
+PhraseModel_4	-0.6990170657294328
+LanguageModel	0.891784887346263
+PhraseModel_0	-0.2107507586515428
+PhraseModel_1	-0.15442709655871997
+PhraseModel_3	-0.07262514338204715
+PhraseModel_6	-0.10965000000000148
+Glue	-0.03644999999999783
+WordPenalty	0.13204723722268177
+PassThrough	-0.09437500000000089
+LanguageModel_OOV	-0.036775000000000564
+PhraseModel_2	0.025521702385571707
+PhraseModel_5	0.006999999999999977
diff --git a/training/dtrain/examples/parallelized/work/weights.0.0 b/training/dtrain/examples/parallelized/work/weights.0.0
index 541321af..91eedc7b 100644
--- a/training/dtrain/examples/parallelized/work/weights.0.0
+++ b/training/dtrain/examples/parallelized/work/weights.0.0
@@ -1,11 +1,12 @@
-LanguageModel_OOV	-0.15119999999999936
-PassThrough	-0.075000000000000872
-Glue	-0.035799999999999721
-PhraseModel_1	-0.25461850237866285
-WordPenalty	0.099236289114895807
-PhraseModel_0	-0.101213892033636
-PhraseModel_2	-0.14281771543359051
-PhraseModel_3	0.068512482804492139
-PhraseModel_4	-0.78138944075452532
-PhraseModel_6	0.15469999999999931
-LanguageModel	0.51873837981298221
+PassThrough	-0.082000000000001058
+Glue	0.25700000000000267
+LanguageModel_OOV	-0.046000000000000034
+LanguageModel	0.67341721152744249
+PhraseModel_6	0.18290000000000028
+PhraseModel_5	0.0039999999999999975
+PhraseModel_4	0.47916377173928498
+PhraseModel_3	0.65577926367715722
+PhraseModel_2	0.00060731048591637909
+PhraseModel_0	0.25329462707903372
+WordPenalty	0.026926257878001431
+PhraseModel_1	0.20035945197369062
diff --git a/training/dtrain/examples/parallelized/work/weights.0.1 b/training/dtrain/examples/parallelized/work/weights.0.1
index c983747e..6fcc9999 100644
--- a/training/dtrain/examples/parallelized/work/weights.0.1
+++ b/training/dtrain/examples/parallelized/work/weights.0.1
@@ -1,12 +1,12 @@
-PassThrough	-0.51564999999999106
-Glue	0.19265000000000118
-WordPenalty	0.0064601304183101293
-LanguageModel	0.63101690103206198
-LanguageModel_OOV	-0.58027499999998244
-PhraseModel_0	-0.7199776484358319
-PhraseModel_1	0.67713208716270057
-PhraseModel_2	1.2847869050798759
-PhraseModel_3	-0.30726076030314797
-PhraseModel_4	-0.9147907962255597
-PhraseModel_5	0.026825000000000078
-PhraseModel_6	-0.31892499999999002
+PassThrough	-0.2346750000000028
+Glue	-0.17904999999999763
+WordPenalty	0.062125825636256168
+LanguageModel	0.66824625053667575
+LanguageModel_OOV	-0.15247500000000355
+PhraseModel_0	-0.5581144363944085
+PhraseModel_1	0.12740874153205478
+PhraseModel_2	0.6038779278708799
+PhraseModel_3	-0.44463820299544454
+PhraseModel_4	-0.63136538282212662
+PhraseModel_5	-0.0084000000000000324
+PhraseModel_6	-0.20164999999999911
diff --git a/training/dtrain/examples/parallelized/work/weights.0.2 b/training/dtrain/examples/parallelized/work/weights.0.2
index 86795230..5668915d 100644
--- a/training/dtrain/examples/parallelized/work/weights.0.2
+++ b/training/dtrain/examples/parallelized/work/weights.0.2
@@ -1,12 +1,12 @@
-PassThrough	-0.48309999999998859
-Glue	-0.27409999999999729
-WordPenalty	0.12269904849971774
-LanguageModel	0.82596659132167016
-LanguageModel_OOV	-0.5213499999999861
-PhraseModel_0	-0.68525899286050596
-PhraseModel_1	0.27265146052517253
-PhraseModel_2	0.87438450673072043
-PhraseModel_3	-0.00012233626643227101
-PhraseModel_4	-1.0911805651205244
-PhraseModel_5	0.037100000000000292
-PhraseModel_6	-0.28549999999999121
+PassThrough	-0.38122499999999337
+Glue	-0.019274999999998679
+WordPenalty	0.022192448025253487
+LanguageModel	0.4068780855136106
+LanguageModel_OOV	-0.363974999999992
+PhraseModel_0	-0.36273429313029715
+PhraseModel_1	0.56431752511029298
+PhraseModel_2	0.85638010019687694
+PhraseModel_3	-0.20222345248738063
+PhraseModel_4	-0.48295466434310252
+PhraseModel_5	0.031450000000000339
+PhraseModel_6	-0.26092499999998625
diff --git a/training/dtrain/examples/parallelized/work/weights.1 b/training/dtrain/examples/parallelized/work/weights.1
index 520b575e..f52e07b8 100644
--- a/training/dtrain/examples/parallelized/work/weights.1
+++ b/training/dtrain/examples/parallelized/work/weights.1
@@ -1,12 +1,12 @@
-LanguageModel	1.0306413574382605
-PhraseModel_4	-1.0441183310270499
-PhraseModel_2	0.8124104300969892
-PhraseModel_0	-0.5414354190041899
-LanguageModel_OOV	-0.48114999999999053
-PassThrough	-0.442899999999993
-PhraseModel_1	0.3567134472577971
-Glue	-0.2324999999999999
-PhraseModel_6	-0.2818999999999916
-PhraseModel_3	-0.001886958694580998
-WordPenalty	0.09260244090382065
-PhraseModel_5	0.03710000000000029
+LanguageModel	0.7527067666152598
+PhraseModel_4	-0.6467221787583058
+PhraseModel_2	0.36889175522051015
+PhraseModel_0	-0.38227173053779245
+PhraseModel_3	-0.2252732111174934
+LanguageModel_OOV	-0.25227499999999975
+PassThrough	-0.2695250000000011
+PhraseModel_1	0.03521067244127414
+Glue	-0.1579749999999981
+PhraseModel_6	-0.11932500000000047
+WordPenalty	0.0650573133891042
+PhraseModel_5	0.03475000000000043
diff --git a/training/dtrain/examples/parallelized/work/weights.1.0 b/training/dtrain/examples/parallelized/work/weights.1.0
index 68f4eaf2..31e08d81 100644
--- a/training/dtrain/examples/parallelized/work/weights.1.0
+++ b/training/dtrain/examples/parallelized/work/weights.1.0
@@ -1,12 +1,11 @@
-PhraseModel_4	-1.4702479045005545
-PhraseModel_3	-0.79105519577534078
-PhraseModel_6	-0.52829999999999666
-PhraseModel_5	0.021799999999999924
-LanguageModel	0.90323355461358656
-PhraseModel_2	0.26378844109522476
-PassThrough	-0.25310000000000021
-Glue	-0.20149999999999982
-PhraseModel_1	-0.88245610760574056
-WordPenalty	0.078303295087152405
-PhraseModel_0	-1.3044311246859424
-LanguageModel_OOV	-0.13780000000000128
+LanguageModel_OOV	-0.044300000000000235
+PassThrough	-0.19300000000000087
+PhraseModel_6	-0.18180000000000701
+LanguageModel	1.3644969337716422
+PhraseModel_3	0.017250706134911725
+PhraseModel_4	-1.5473728273858063
+Glue	-0.32289999999999447
+PhraseModel_1	-0.077697953502182365
+WordPenalty	0.27968564634568688
+PhraseModel_0	-0.19048660891012237
+PhraseModel_2	0.05889844333199834
diff --git a/training/dtrain/examples/parallelized/work/weights.1.1 b/training/dtrain/examples/parallelized/work/weights.1.1
index 02926c54..544ff462 100644
--- a/training/dtrain/examples/parallelized/work/weights.1.1
+++ b/training/dtrain/examples/parallelized/work/weights.1.1
@@ -1,12 +1,12 @@
-PassThrough	-0.45404999999998186
-Glue	-0.15574999999999967
-WordPenalty	0.14938644441267146
-LanguageModel	0.95914771145227362
-LanguageModel_OOV	-0.42267499999998259
-PhraseModel_0	-0.4633667196239511
-PhraseModel_1	0.36681570131202201
-PhraseModel_2	0.7933894810149833
-PhraseModel_3	0.27497076611523918
-PhraseModel_4	-1.2038459762138427
-PhraseModel_5	0.061325000000000914
-PhraseModel_6	-0.11142500000000027
+PassThrough	-0.42167499999999858
+Glue	-0.26424999999999721
+WordPenalty	0.04788096662983269
+LanguageModel	0.78495517342352483
+LanguageModel_OOV	-0.49307499999999477
+PhraseModel_0	-0.58703462849498356
+PhraseModel_1	-0.33425278954714266
+PhraseModel_2	0.20834221229630179
+PhraseModel_3	-0.043345645640208569
+PhraseModel_4	-0.60760531115816907
+PhraseModel_5	0.12300000000000186
+PhraseModel_6	-0.054150000000001031
diff --git a/training/dtrain/examples/parallelized/work/weights.1.2 b/training/dtrain/examples/parallelized/work/weights.1.2
index 79a104b3..ac3284b9 100644
--- a/training/dtrain/examples/parallelized/work/weights.1.2
+++ b/training/dtrain/examples/parallelized/work/weights.1.2
@@ -1,12 +1,12 @@
-PassThrough	-0.53669999999998386
-Glue	-0.23230000000000336
-WordPenalty	0.1150120361700277
-LanguageModel	0.76483587762340066
-LanguageModel_OOV	-0.57494999999998042
-PhraseModel_0	-0.64110548780098009
-PhraseModel_1	0.44772095653729937
-PhraseModel_2	0.98529136452571298
-PhraseModel_3	0.022939428768845804
-PhraseModel_4	-1.1028511897295128
-PhraseModel_5	0.049100000000000636
-PhraseModel_6	-0.31499999999998796
+PassThrough	-0.34762500000000224
+Glue	-0.23607500000000026
+WordPenalty	0.10931192109504413
+LanguageModel	0.81339027211983694
+LanguageModel_OOV	-0.33237500000000098
+PhraseModel_0	-0.53685104648974269
+PhraseModel_1	-0.049657790506137042
+PhraseModel_2	0.40277066454544108
+PhraseModel_3	0.14600791389785803
+PhraseModel_4	-0.72850673041349101
+PhraseModel_5	0.034750000000000433
+PhraseModel_6	-0.27192499999999448
diff --git a/training/dtrain/examples/parallelized/work/weights.2 b/training/dtrain/examples/parallelized/work/weights.2
index 9c7f5f2a..dedaf165 100644
--- a/training/dtrain/examples/parallelized/work/weights.2
+++ b/training/dtrain/examples/parallelized/work/weights.2
@@ -1,12 +1,12 @@
-PhraseModel_4	-1.0884784363200164
-LanguageModel	0.9863954661653327
-PhraseModel_2	0.8048100209655031
-PhraseModel_0	-0.7268058343336511
-LanguageModel_OOV	-0.5387999999999846
-PassThrough	-0.5005499999999877
-PhraseModel_1	0.16807904188863734
-PhraseModel_6	-0.2787499999999906
-Glue	-0.2777249999999977
-WordPenalty	0.12918089364212418
-PhraseModel_3	0.03271485277712574
-PhraseModel_5	0.04010000000000038
+PhraseModel_2	0.6558266927225778
+PhraseModel_4	-0.6161090299356294
+LanguageModel	0.5690697644415413
+PhraseModel_1	0.32098232482479416
+PhraseModel_0	-0.39422813904895143
+PassThrough	-0.37879999999999764
+LanguageModel_OOV	-0.3620499999999963
+Glue	-0.1792249999999967
+PhraseModel_6	-0.18769999999999526
+PhraseModel_3	-0.10321074877850786
+WordPenalty	0.05867318450512617
+PhraseModel_5	0.03392500000000041
diff --git a/training/dtrain/examples/parallelized/work/weights.2.0 b/training/dtrain/examples/parallelized/work/weights.2.0
index 7c7e097d..f7ece54d 100644
--- a/training/dtrain/examples/parallelized/work/weights.2.0
+++ b/training/dtrain/examples/parallelized/work/weights.2.0
@@ -1,12 +1,11 @@
-LanguageModel_OOV	-0.16669999999999968
-PassThrough	-0.030699999999999096
-PhraseModel_5	0.043500000000000219
-PhraseModel_6	-0.37429999999999497
-LanguageModel	1.1825232395261447
-PhraseModel_3	-0.40366624719458399
-PhraseModel_4	-1.3438482384390973
-Glue	0.12950000000000114
-PhraseModel_1	-0.044563165462829533
-WordPenalty	0.12781286602412198
-PhraseModel_0	-0.65166852874668157
-PhraseModel_2	0.49706380871834238
+LanguageModel_OOV	-0.12280000000000209
+PassThrough	-0.13350000000000165
+Glue	-0.1259000000000001
+PhraseModel_1	0.24792740418949952
+WordPenalty	0.048293546387642321
+PhraseModel_0	0.26356693580129958
+PhraseModel_2	0.0063762787517740458
+PhraseModel_3	-0.18966358382769741
+PhraseModel_4	-0.22599681869670471
+PhraseModel_6	0.074299999999999047
+LanguageModel	0.3625416478537038
diff --git a/training/dtrain/examples/parallelized/work/weights.2.1 b/training/dtrain/examples/parallelized/work/weights.2.1
index 11714ec1..0946609d 100644
--- a/training/dtrain/examples/parallelized/work/weights.2.1
+++ b/training/dtrain/examples/parallelized/work/weights.2.1
@@ -1,12 +1,12 @@
-PassThrough	-0.36384999999999734
-Glue	-0.33455000000000329
-WordPenalty	0.10695587353072468
-LanguageModel	1.0621291481802193
-LanguageModel_OOV	-0.46617499999999584
-PhraseModel_0	-0.63382056132769171
-PhraseModel_1	0.33225469649984996
-PhraseModel_2	0.85009991348010649
-PhraseModel_3	-0.29374143412758763
-PhraseModel_4	-1.0908181449386518
-PhraseModel_5	0.033425000000000114
-PhraseModel_6	-0.38922499999998272
+PassThrough	-0.23927500000000015
+Glue	-0.10384999999999919
+WordPenalty	0.038717353061671053
+LanguageModel	0.49412782572695274
+LanguageModel_OOV	-0.24887499999999915
+PhraseModel_0	-0.32101572713801541
+PhraseModel_1	0.34413149733472631
+PhraseModel_2	0.62365535622061474
+PhraseModel_3	-0.49337445280658987
+PhraseModel_4	-0.77004673375347765
+PhraseModel_5	0.0069999999999999767
+PhraseModel_6	-0.05055000000000108
diff --git a/training/dtrain/examples/parallelized/work/weights.2.2 b/training/dtrain/examples/parallelized/work/weights.2.2
index 4651c771..b766fc75 100644
--- a/training/dtrain/examples/parallelized/work/weights.2.2
+++ b/training/dtrain/examples/parallelized/work/weights.2.2
@@ -1,12 +1,12 @@
-PassThrough	-0.44899999999999302
-Glue	-0.34639999999999227
-WordPenalty	0.18736549685511736
-LanguageModel	1.579413019617276
-LanguageModel_OOV	-0.48724999999999041
-PhraseModel_0	-1.0014593871340565
-PhraseModel_1	-0.5173431118302918
-PhraseModel_2	0.40485682070199475
-PhraseModel_3	-0.013031148291449997
-PhraseModel_4	-1.1546267627331184
-PhraseModel_5	0.037100000000000292
-PhraseModel_6	-0.18919999999999634
+PassThrough	-0.46082499999999499
+Glue	-0.32907499999998979
+WordPenalty	0.049596429833348527
+LanguageModel	0.33496341201347335
+LanguageModel_OOV	-0.44357499999999361
+PhraseModel_0	-0.30679883980783829
+PhraseModel_1	0.5937585900939707
+PhraseModel_2	0.86415970329021152
+PhraseModel_3	-0.21072279838022553
+PhraseModel_4	-0.65734339854224544
+PhraseModel_5	0.034750000000000433
+PhraseModel_6	-0.10652500000000011
diff --git a/training/dtrain/examples/parallelized/work/weights.3.0 b/training/dtrain/examples/parallelized/work/weights.3.0
index 37bd01a2..403ffbb3 100644
--- a/training/dtrain/examples/parallelized/work/weights.3.0
+++ b/training/dtrain/examples/parallelized/work/weights.3.0
@@ -1,12 +1,12 @@
-LanguageModel_OOV	-0.036999999999999908
-PassThrough	-0.11100000000000057
-Glue	-0.11000000000000044
-PhraseModel_1	0.11602125567215119
-WordPenalty	0.2197530078430466
-PhraseModel_0	-0.34702159865156773
-PhraseModel_2	0.39510081490798676
-PhraseModel_3	0.37857253195640361
-PhraseModel_4	-1.0318920208766025
-PhraseModel_5	0.042000000000000176
-PhraseModel_6	-0.25299999999999973
-LanguageModel	1.7396888110339634
+PhraseModel_4	-1.501862388574505
+PhraseModel_3	-0.77386695951256013
+PhraseModel_6	-0.51399999999999824
+PhraseModel_5	0.02399999999999991
+LanguageModel	1.1666837562322641
+PhraseModel_2	0.036204776972598059
+PassThrough	0.030999999999999975
+Glue	0.046000000000000582
+PhraseModel_1	-0.98829728889588764
+WordPenalty	0.1732834982793964
+PhraseModel_0	-1.1693779885763822
+LanguageModel_OOV	0.066000000000000086
diff --git a/training/dtrain/examples/parallelized/work/weights.3.1 b/training/dtrain/examples/parallelized/work/weights.3.1
index 21096c45..c171d586 100644
--- a/training/dtrain/examples/parallelized/work/weights.3.1
+++ b/training/dtrain/examples/parallelized/work/weights.3.1
@@ -1,12 +1,12 @@
-PassThrough	-0.43805000000000188
-Glue	-0.63234999999999786
-WordPenalty	0.10760731525357638
-LanguageModel	1.4702716690884872
-LanguageModel_OOV	-0.45547500000000124
-PhraseModel_0	-0.34857674662928467
-PhraseModel_1	0.050651304056615561
-PhraseModel_2	0.32136542081299119
-PhraseModel_3	0.31848359353717243
-PhraseModel_4	-0.96701840673014472
-PhraseModel_5	0.026825000000000078
-PhraseModel_6	-0.30802499999999322
+PassThrough	-0.18247500000000313
+Glue	-0.084749999999998368
+WordPenalty	0.11150510822865688
+LanguageModel	1.063497816773886
+LanguageModel_OOV	-0.1146750000000015
+PhraseModel_0	-0.062922130123762257
+PhraseModel_1	0.0035552404454581212
+PhraseModel_2	0.039691524494244249
+PhraseModel_3	0.080265456972269417
+PhraseModel_4	-0.57787128729945014
+PhraseModel_5	0.017399999999999922
+PhraseModel_6	-0.17095000000000066
diff --git a/training/dtrain/examples/parallelized/work/weights.3.2 b/training/dtrain/examples/parallelized/work/weights.3.2
index 7593e794..3ff0411d 100644
--- a/training/dtrain/examples/parallelized/work/weights.3.2
+++ b/training/dtrain/examples/parallelized/work/weights.3.2
@@ -1,12 +1,12 @@
-PassThrough	-0.53339999999998544
-Glue	-0.25809999999999805
-WordPenalty	0.091646993043633926
-LanguageModel	0.77536637609898384
-LanguageModel_OOV	-0.57164999999998134
-PhraseModel_0	-0.57939946953906185
-PhraseModel_1	0.46928686232236927
-PhraseModel_2	0.95470739190358411
-PhraseModel_3	0.12107346689753942
-PhraseModel_4	-1.0052552276969096
-PhraseModel_5	0.037100000000000292
-PhraseModel_6	-0.32529999999998682
+PassThrough	-0.32552500000000006
+Glue	-0.13247499999999815
+WordPenalty	0.053591939066858545
+LanguageModel	0.72104728811924446
+LanguageModel_OOV	-0.30827499999999869
+PhraseModel_0	-0.37052837676792744
+PhraseModel_1	0.17551097460105014
+PhraseModel_2	0.49999630285778179
+PhraseModel_3	-0.14590465814428336
+PhraseModel_4	-0.59563132644367889
+PhraseModel_5	0.034750000000000433
+PhraseModel_6	-0.11142500000000025