1 files changed, 92 insertions, 108 deletions
diff --git a/training/dtrain/score.h b/training/dtrain/score.h
index 1cdd3fa9..d51aef82 100644
--- a/training/dtrain/score.h
+++ b/training/dtrain/score.h
@@ -6,20 +6,19 @@
 namespace dtrain
 {
 
-
 struct NgramCounts
 {
-  unsigned N_;
-  map<unsigned, score_t> clipped_;
-  map<unsigned, score_t> sum_;
+  size_t N_;
+  map<size_t, weight_t> clipped_;
+  map<size_t, weight_t> sum_;
 
-  NgramCounts(const unsigned N) : N_(N) { Zero(); }
+  NgramCounts(const size_t N) : N_(N) { Zero(); }
 
   inline void
   operator+=(const NgramCounts& rhs)
   {
     if (rhs.N_ > N_) Resize(rhs.N_);
-    for (unsigned i = 0; i < N_; i++) {
+    for (size_t i = 0; i < N_; i++) {
       this->clipped_[i] += rhs.clipped_.find(i)->second;
       this->sum_[i] += rhs.sum_.find(i)->second;
     }
@@ -30,20 +29,21 @@ struct NgramCounts
   {
     NgramCounts result = *this;
     result += other;
+
     return result;
   }
 
   inline void
-  operator*=(const score_t rhs)
+  operator*=(const weight_t rhs)
   {
-    for (unsigned i = 0; i < N_; i++) {
+    for (size_t i = 0; i < N_; i++) {
       this->clipped_[i] *= rhs;
       this->sum_[i] *= rhs;
     }
   }
 
   inline void
-  Add(const unsigned count, const unsigned ref_count, const unsigned i)
+  Add(const size_t count, const size_t ref_count, const size_t i)
   {
     assert(i < N_);
     if (count > ref_count) {
@@ -57,40 +57,31 @@ struct NgramCounts
   inline void
   Zero()
   {
-    for (unsigned i = 0; i < N_; i++) {
+    for (size_t i = 0; i < N_; i++) {
       clipped_[i] = 0.;
       sum_[i] = 0.;
     }
   }
 
   inline void
-  One()
-  {
-    for (unsigned i = 0; i < N_; i++) {
-      clipped_[i] = 1.;
-      sum_[i] = 1.;
-    }
-  }
-
-  inline void
-  Print()
+  Print(ostream& os=cerr)
   {
-    for (unsigned i = 0; i < N_; i++) {
-      cout << i+1 << "grams (clipped):\t" << clipped_[i] << endl;
-      cout << i+1 << "grams:\t\t\t" << sum_[i] << endl;
+    for (size_t i = 0; i < N_; i++) {
+      os << i+1 << "grams (clipped):\t" << clipped_[i] << endl;
+      os << i+1 << "grams:\t\t\t" << sum_[i] << endl;
     }
   }
 
-  inline void Resize(unsigned N)
+  inline void Resize(size_t N)
   {
     if (N == N_) return;
     else if (N > N_) {
-      for (unsigned i = N_; i < N; i++) {
+      for (size_t i = N_; i < N; i++) {
         clipped_[i] = 0.;
         sum_[i] = 0.;
       }
     } else { // N < N_
-      for (unsigned i = N_-1; i > N-1; i--) {
+      for (size_t i = N_-1; i > N-1; i--) {
         clipped_.erase(i);
         sum_.erase(i);
       }
@@ -99,123 +90,116 @@ struct NgramCounts
   }
 };
 
-typedef map<vector<WordID>, unsigned> Ngrams;
+typedef map<vector<WordID>, size_t> Ngrams;
 
 inline Ngrams
-make_ngrams(const vector<WordID>& s, const unsigned N)
+MakeNgrams(const vector<WordID>& s, const size_t N)
 {
   Ngrams ngrams;
   vector<WordID> ng;
   for (size_t i = 0; i < s.size(); i++) {
     ng.clear();
-    for (unsigned j = i; j < min(i+N, s.size()); j++) {
+    for (size_t j = i; j < min(i+N, s.size()); j++) {
       ng.push_back(s[j]);
       ngrams[ng]++;
     }
   }
+
   return ngrams;
 }
 
 inline NgramCounts
-make_ngram_counts(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned N)
+MakeNgramCounts(const vector<WordID>& hyp,
+                const vector<Ngrams>& ref,
+                const size_t N)
 {
-  Ngrams hyp_ngrams = make_ngrams(hyp, N);
-  Ngrams ref_ngrams = make_ngrams(ref, N);
+  Ngrams hyp_ngrams = MakeNgrams(hyp, N);
   NgramCounts counts(N);
-  Ngrams::iterator it;
-  Ngrams::iterator ti;
+  Ngrams::iterator it, ti;
   for (it = hyp_ngrams.begin(); it != hyp_ngrams.end(); it++) {
-    ti = ref_ngrams.find(it->first);
-    if (ti != ref_ngrams.end()) {
-      counts.Add(it->second, ti->second, it->first.size() - 1);
-    } else {
-      counts.Add(it->second, 0, it->first.size() - 1);
+    size_t max_ref_count = 0;
+    for (auto r: ref) {
+      ti = r.find(it->first);
+      if (ti != r.end())
+        max_ref_count = max(max_ref_count, ti->second);
     }
+    counts.Add(it->second, min(it->second, max_ref_count), it->first.size()-1);
   }
+
   return counts;
 }
 
-struct BleuScorer : public LocalScorer
+/*
+ * per-sentence BLEU
+ * as in "Optimizing for Sentence-Level BLEU+1
+ *        Yields Short Translations"
+ * (Nakov et al. '12)
+ *
+ * [simply add 1 to reference length for calculation of BP]
+ *
+ */
+struct PerSentenceBleuScorer
 {
-  score_t Bleu(NgramCounts& counts, const unsigned hyp_len, const unsigned ref_len);
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned /*rank*/, const unsigned /*src_len*/);
-  void Reset() {}
-};
-
-struct StupidBleuScorer : public LocalScorer
-{
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned /*rank*/, const unsigned /*src_len*/);
-  void Reset() {}
-};
-
-struct FixedStupidBleuScorer : public LocalScorer
-{
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned /*rank*/, const unsigned /*src_len*/);
-  void Reset() {}
-};
-
-struct SmoothBleuScorer : public LocalScorer
-{
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned /*rank*/, const unsigned /*src_len*/);
-  void Reset() {}
-};
-
-struct SumBleuScorer : public LocalScorer
-{
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned /*rank*/, const unsigned /*src_len*/);
-  void Reset() {}
-};
+  const size_t     N_;
+  vector<weight_t> w_;
 
-struct SumExpBleuScorer : public LocalScorer
-{
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned /*rank*/, const unsigned /*src_len*/);
-  void Reset() {}
-};
-
-struct SumWhateverBleuScorer : public LocalScorer
-{
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned /*rank*/, const unsigned /*src_len*/);
-  void Reset() {};
-};
-
-struct ApproxBleuScorer : public BleuScorer
-{
-  NgramCounts glob_onebest_counts_;
-  unsigned glob_hyp_len_, glob_ref_len_, glob_src_len_;
-  score_t discount_;
-
-  ApproxBleuScorer(unsigned N, score_t d) : glob_onebest_counts_(NgramCounts(N)), discount_(d)
+  PerSentenceBleuScorer(size_t n) : N_(n)
   {
-    glob_hyp_len_ = glob_ref_len_ = glob_src_len_ = 0;
+    for (size_t i = 1; i <= N_; i++)
+      w_.push_back(1.0/N_);
   }
 
-  inline void Reset() {
-    glob_onebest_counts_.Zero();
-    glob_hyp_len_ = glob_ref_len_ = glob_src_len_ = 0.;
-  }
-
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned rank, const unsigned src_len);
-};
-
-struct LinearBleuScorer : public BleuScorer
-{
-  unsigned onebest_len_;
-  NgramCounts onebest_counts_;
-
-  LinearBleuScorer(unsigned N) : onebest_len_(1), onebest_counts_(N)
+  inline weight_t
+  BrevityPenalty(const size_t hl, const size_t rl)
   {
-    onebest_counts_.One();
+    if (hl > rl)
+      return 1;
+
+    return exp(1 - (weight_t)rl/hl);
   }
 
-  score_t Score(const vector<WordID>& hyp, const vector<WordID>& ref, const unsigned rank, const unsigned /*src_len*/);
+  weight_t
+  Score(const vector<WordID>& hyp,
+        const vector<Ngrams>& ref_ngs,
+        const vector<size_t>& ref_ls)
+  {
+    size_t hl = hyp.size(), rl = 0;
+    if (hl == 0) return 0.;
+    // best match reference length
+    if (ref_ls.size() == 1)  {
+      rl = ref_ls.front();
+    } else {
+      size_t i = 0, best_idx = 0;
+      size_t best = numeric_limits<size_t>::max();
+      for (auto l: ref_ls) {
+        size_t d = abs(hl-l);
+        if (d < best) { 
+          best_idx = i;
+          best = d;
+        }
+        i += 1;
+      }
+      rl = ref_ls[best_idx];
+    }
+    if (rl == 0) return 0.;
+    NgramCounts counts = MakeNgramCounts(hyp, ref_ngs, N_);
+    size_t M = N_;
+    vector<weight_t> v = w_;
+    if (rl < N_) {
+      M = rl;
+      for (size_t i = 0; i < M; i++) v[i] = 1/((weight_t)M);
+    }
+    weight_t sum = 0, add = 0;
+    for (size_t i = 0; i < M; i++) {
+      if (i == 0 && (counts.sum_[i] == 0 || counts.clipped_[i] == 0)) return 0.;
+      if (i == 1) add = 1;
+      sum += v[i] * log(((weight_t)counts.clipped_[i] + add)/((counts.sum_[i] + add)));
+    }
 
-  inline void Reset() {
-    onebest_len_ = 1;
-    onebest_counts_.One();
+    return  BrevityPenalty(hl, rl+1) * exp(sum);
   }
 };
 
-
 } // namespace
 
 #endif