summaryrefslogtreecommitdiff
path: root/compound-split
diff options
context:
space:
mode:
Diffstat (limited to 'compound-split')
-rw-r--r--compound-split/README.md (renamed from compound-split/README)0
-rwxr-xr-xcompound-split/de/TRAIN3
-rw-r--r--compound-split/de/badlist.de.gzbin391 -> 401 bytes
-rw-r--r--compound-split/de/cdec-train.ini2
-rw-r--r--compound-split/de/dev.in-ref103
-rw-r--r--compound-split/de/large_dict.de.gzbin4188658 -> 11796618 bytes
-rw-r--r--compound-split/de/weights.trained40
-rwxr-xr-xcompound-split/make-dict.pl24
8 files changed, 150 insertions, 22 deletions
diff --git a/compound-split/README b/compound-split/README.md
index b7491007..b7491007 100644
--- a/compound-split/README
+++ b/compound-split/README.md
diff --git a/compound-split/de/TRAIN b/compound-split/de/TRAIN
index 6f7184ea..2b48a8d2 100755
--- a/compound-split/de/TRAIN
+++ b/compound-split/de/TRAIN
@@ -1 +1,2 @@
-~/cdec/training/mpi_batch_optimize -w weights.cur.gz -t dev.in-ref -d cdec-train.ini -M 200
+~/cdec/training/mpi_batch_optimize -w weights.trained -t dev.in-ref -p -c cdec-train.ini -M 200
+
diff --git a/compound-split/de/badlist.de.gz b/compound-split/de/badlist.de.gz
index bda4fde9..baaabd59 100644
--- a/compound-split/de/badlist.de.gz
+++ b/compound-split/de/badlist.de.gz
Binary files differ
diff --git a/compound-split/de/cdec-train.ini b/compound-split/de/cdec-train.ini
index 383fa040..44f5934d 100644
--- a/compound-split/de/cdec-train.ini
+++ b/compound-split/de/cdec-train.ini
@@ -2,4 +2,4 @@ formalism=csplit
# crf_uniform_empirical=true
intersection_strategy=full
feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz
-feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.klm
+feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.lm.gz
diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref
index ab6af9dd..b91daced 100644
--- a/compound-split/de/dev.in-ref
+++ b/compound-split/de/dev.in-ref
@@ -798,3 +798,106 @@ familie ||| # familie
vielen ||| # vielen
jahren ||| # jahren
tageszeitung ||| ((('#',0,1),),(('tag',0,1),('tages',0,1),),(('zeitung',0,1),),)
+washington ||| # washington
+wahlschlacht ||| # wahl schlacht
+letzte ||| # letzte
+milliarden ||| # milliarden
+dollar ||| # dollar
+sollen ||| # sollen
+wahlkämpfer ||| # wahlkämpfer
+bislang ||| # bislang
+kampagnen ||| # kampagnen
+ausgegeben ||| # ausgegeben
+abstimmung ||| # abstimmung
+mobilisieren ||| # mobilisieren
+letzten ||| # letzten
+reserven ||| # reserven
+wähler ||| # wähler
+bekommen ||| # bekommen
+herausforderer ||| # herausforderer
+romney ||| # romney
+kündigte ||| # kündigte
+wahltag ||| # wahltag
+selbst ||| # selbst
+mehreren ||| # mehreren
+bundesstaaten ||| # bundesstaaten
+aufzutreten ||| # aufzutreten
+ursprünglich ||| # ursprünglich
+abschlussveranstaltung ||| # abschluss veranstaltung
+montagabend ||| # montag abend
+vorgesehen ||| # vorgesehen
+schließung ||| # schließung
+wahllokale ||| # wahl lokale
+stimmen ||| # stimmen
+werben ||| # werben
+sprecher ||| # sprecher
+wahlkampfteams ||| # wahlkampf teams
+pennsylvania ||| # pennsylvania
+natürlich ||| # natürlich
+schicksalstaat ||| # schicksal staat
+republikaner ||| # republikaner
+präsident ||| # präsident
+geworden ||| # geworden
+gewonnen ||| # gewonnen
+auswertung ||| # auswertung
+portals ||| # portals
+national ||| # national
+sieben ||| # sieben
+november ||| # november
+umfragen ||| # umfragen
+meistumkämpfte ||| # meist umkämpfte
+mehrheit ||| # mehrheit
+feststeht ||| # feststeht
+wahlkämpfer ||| # wahlkämpfer
+besonders ||| # besonders
+relevant ||| # relevant
+direkt ||| # direkt
+gewählt ||| # gewählt
+präsident ||| # präsident
+wahlmännergremium ||| # wahlmänner gremium
+spiegeln ||| # spiegeln
+ergebnisse ||| # ergebnisse
+einzelnen ||| # einzelnen
+bundesstaaten ||| # bundesstaaten
+präsident ||| # präsident
+letzten ||| # letzten
+seiner ||| # seiner
+kampagne ||| # kampagne
+vorgelegt ||| # vorgelegt
+rocklegende ||| # rock legende
+springsteen ||| # springsteen
+botschafter ||| # botschafter
+seiner ||| # seiner
+kampagne ||| # kampagne
+wisconsin ||| # wisconsin
+dankte ||| # dankte
+präsidenten ||| # präsidenten
+während ||| # während
+konzerts ||| # konzerts
+gesundheitsreform ||| ((('#',0.0,1),),(('gesundheits',0.0,1),('gesundheit',0.0,1),),(('reform',0.0,1),),)
+regulierung ||| # regulierung
+street ||| # street
+später ||| # später
+auftritte ||| # auftritte
+natürlich ||| # natürlich
+summen ||| # summen
+vibrieren ||| # vibrieren
+duftstoffe ||| ((('#',0.0,1),),(('duftstoffe',0.0,2),('duft',0.0,1),),(('stoffe',0.0,1),),)
+echten ||| # echten
+verströmen ||| # verströmen
+roboterbiene ||| # roboter biene
+entwickelt ||| # entwickelt
+wissenschaftlern ||| # wissenschaftlern
+freien ||| # freien
+universität ||| # universität
+berlin ||| # berlin
+künstlichen ||| # künstlichen
+insekt ||| # insekt
+wollen ||| # wollen
+forscher ||| # forscher
+futterquellen ||| # futter quellen
+lotsen ||| # lotsen
+geheimnis ||| # geheimnis
+bienentanzes ||| # biene tanzes
+entschlüsseln ||| # entschlüsseln
+klimawandel ||| # klima wandel
diff --git a/compound-split/de/large_dict.de.gz b/compound-split/de/large_dict.de.gz
index 9af2c447..f5b1b9d3 100644
--- a/compound-split/de/large_dict.de.gz
+++ b/compound-split/de/large_dict.de.gz
Binary files differ
diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained
index 4ae8a8ce..313d6ba9 100644
--- a/compound-split/de/weights.trained
+++ b/compound-split/de/weights.trained
@@ -1,20 +1,20 @@
-# Objective = 141.249 (eval count=281)
-LettersSq -0.04232699523807458
-LettersSqrt 0.4355587430228624
-RevCharLM 0.41198831478844122
-FugS 0.075512682701211239
-FugN -0.61902217202456356
-WordCount -0.0082286209848003913
-InDict -0.98529136326577915
-InDictSubWord 1.0386001157542868
-Short 0.70242841302446457
-Long -0.69651861257390713
-OOV 0.97706274228074586
-OOVSubWord -0.76138571782502074
-ShortRange -1.1864424374105051
-HighFreq -4.1150415279961052
-MedFreq 0.014790338975451987
-Freq -0.28901069668114737
-Bad -3.8059407890457644
-FreqLen1 -0.3827361966178347
-FreqLen2 -0.17308899259418953
+# Objective = 164.304 (eval count=118)
+WordCount 0.10973670965860199
+LettersSq -0.040894083779153829
+LettersSqrt 0.33757888570124861
+InDict 0.049573722026753933
+InDictSubWord 0.69975734577036308
+Short 0.33555471096277373
+Long -0.41832772458034762
+OOV 0.060162987632197122
+OOVSubWord 0.068471660184093452
+ShortRange -0.95127190946200446
+HighFreq -2.4179829648207223
+MedFreq -0.21881857269052826
+Freq -0.32292456278379877
+FreqLen1 -0.34734160349477439
+FreqLen2 -0.1574854779610021
+Bad -1.7868318814690027
+RevCharLM 0.52613329631178929
+FugS 0.028876419364008043
+FugN -0.086060954349416352
diff --git a/compound-split/make-dict.pl b/compound-split/make-dict.pl
new file mode 100755
index 00000000..71f2b928
--- /dev/null
+++ b/compound-split/make-dict.pl
@@ -0,0 +1,24 @@
+#!/usr/bin/perl -w
+use strict;
+use utf8;
+my %d;
+my $z = 0;
+binmode(STDIN, ":utf8");
+binmode(STDOUT, ":utf8");
+while(<STDIN>) {
+ chomp;
+ s/[\–":“„!=+*.@«#%&,»\?\/{}\$\(\)\[\];\-0-9]+/ /g;
+ $_ = lc $_;
+ my @words = split /\s+/;
+ for my $w (@words) {
+ next if length($w) == 0;
+ $d{$w}++;
+ $z++;
+ }
+}
+my $lz = log($z);
+for my $w (sort {$d{$b} <=> $d{$a}} keys %d) {
+ my $c = $lz-log($d{$w});
+ print "$w $c\n";
+}
+