summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorChris Dyer <cdyer@cs.cmu.edu>2011-01-13 18:43:36 -0500
committerChris Dyer <cdyer@cs.cmu.edu>2011-01-13 18:43:36 -0500
commitbb871282b1553d375c4f388e827f9083a4dd01d0 (patch)
treeffdb17495f9989ddb0884d1879a2f260e4dff99c
parent907fd790fe644836477443981d4d92a23385bdda (diff)
updated training data, retrained de seg model
-rwxr-xr-xcompound-split/compound-split.pl2
-rw-r--r--compound-split/de/dev.in-ref66
-rw-r--r--compound-split/de/weights.trained40
3 files changed, 80 insertions, 28 deletions
diff --git a/compound-split/compound-split.pl b/compound-split/compound-split.pl
index 490a5bc5..7f45d345 100755
--- a/compound-split/compound-split.pl
+++ b/compound-split/compound-split.pl
@@ -62,7 +62,7 @@ while(<STDIN>) {
my @todo = ();
for (my $i=0; $i < scalar @words; $i++) {
my $word = lc $words[$i];
- if (length($word)<6 || $word =~ /^[,\-0-9\.]+$/) {
+ if (length($word)<6 || $word =~ /^[,\-0-9\.]+$/ || $word =~ /[@.\-\/:]/) {
if ($IS_PLF) {
push @res, "(('" . escape($word) . "',0,1),),";
} else {
diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref
index 83dae731..b4b91f77 100644
--- a/compound-split/de/dev.in-ref
+++ b/compound-split/de/dev.in-ref
@@ -77,11 +77,11 @@ abbrucharbeiten ||| # abbruch arbeiten
abergläubischen ||| # abergläubischen
abfallbewirtschaftungshierarchie ||| # abfall bewirtschaftung hierarchie
abfallbewirtschaftungsplänen ||| # abfall bewirtschaftung plänen
-abfertigungsgebühren ||| # abfertigung gebühren
-beitragsunabhängig ||| # beitrag unabhängig
-einreichungsfrist ||| # einreichung frist
+abfertigungsgebühren ||| ((('#',0,1),),(('abfertigung',0,1),('abfertigungs',0,1),),(('gebühren',0,1),),)
+beitragsunabhängig ||| ((('#',0,1),),(('beitrag',0,1),('beitrags',0,1),),(('unabhängig',0,1),),)
+einreichungsfrist ||| ((('#',0,1),),(('einreichung',0,1),),(('frist',0,1),),)
europaabgeordnete ||| # europa abgeordnete
-früherkennungskampagnen ||| # früh erkennung kampagnen
+früherkennungskampagnen ||| ((('#',0,1),),(('früh',0,1),),(('erkennung',0,1),('erkennungs',0,1),),(('kampagnen',0,1),),)
hilfsagenturen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('agenturen',0,1),),)
hilfsinstitutionen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('institutionen',0,1),),)
kaisergranat ||| # kaiser granat
@@ -103,16 +103,16 @@ sonderpreis ||| # sonder preis
modellrechnung ||| # modell rechnung
treibhauseffekt ||| # treibhaus effekt
europatournee ||| # europa tournee
-wirtschaftskrise ||| # wirtschafts krise
+wirtschaftskrise ||| ((('#',0,1),),(('wirtschafts',0,1),('wirtschaft',0,1),),(('krise',0,1),),)
mittwochabend ||| # mittwoch abend
-abschiedsgala ||| # abschied gala
+abschiedsgala ||| ((('#',0,1),),(('abschied',0,1),('abschieds',0,1),),(('gala',0,1),),)
betriebstag ||| # betrieb tag
flughafen ||| # flughafen
truthahn ||| # truthahn
gehirnregion ||| # gehirn region
feststellung ||| # feststellung
thanksgiving ||| # thanks giving
-börsenhändler ||| # börsen händler
+börsenhändler ||| ((('#',0,1),),(('börsen',0,1),('börse',0,1),),(('händler',0,1),),)
risikoforschung ||| # risiko forschung
finanzkrise ||| # finanz krise
erkenntnis ||| # erkenntnis
@@ -738,3 +738,55 @@ kaufrausch ||| ((('#',0,1),),(('kauf',0,1),),(('rausch',0,1),),)
kommerzialisierung ||| # kommerzialisierung
weihnachten ||| # weihnachten
funktioniert ||| # funktioniert
+zittert ||| # zittert
+wikileaks ||| # wikileaks
+verfassungsgericht ||| ((('#',0,1),),(('verfassung',0,1),('verfassungs',0,1),),(('gericht',0,1),),)
+berlusconis ||| # berlusconis
+immunität ||| # immunität
+teilweise ||| # teilweise
+zinspolitik ||| # zins politik
+trichet ||| # trichet
+inflation ||| # inflation
+eurozone ||| ((('#',0,1),),(('euro',0,1),('eurozone',0,2),),(('zone',0,1),),)
+effektive ||| # effektive
+kontrolle ||| # kontrolle
+futtermittelindustrie ||| # futtermittel industrie
+deutschland ||| # deutschland
+verspielt ||| # verspielt
+regierung ||| # regierung
+vertrauen ||| # vertrauen
+westerwelle ||| # westerwelle
+abzugsdatum ||| ((('#',0,1),),(('abzugs',0,1),('abzug',0,1),),(('datum',0,1),),)
+ghettoblaster ||| # ghetto blaster
+unserem ||| # unserem
+alltag ||| # alltag
+verschwunden ||| # verschwunden
+trotzdem ||| # trotzdem
+ikonen ||| # ikonen
+jugendkultur ||| # jugend kultur
+tatsächlich ||| # tatsächlich
+deuten ||| # deuten
+hochrechnungen ||| # hochrechnungen
+mckinsey ||| # mckinsey
+company ||| # company
+darauf ||| # darauf
+kaufkraft ||| # kauf kraft
+dieser ||| # dieser
+aufstrebenden ||| # aufstrebenden
+mittelschicht ||| # mittel schicht
+nächsten ||| # nächsten
+jahrzehnts ||| # jahrzehnts
+billionen ||| # billionen
+dollar ||| # dollar
+anwachsen ||| # anwachsen
+könnte ||| # könnte
+doppelt ||| # doppelt
+aktuellen ||| # aktuellen
+erbrauchsniveau ||| ((('#',0,1),),(('erbrauch',0,1),('erbrauchs',0,1),),(('niveau',0,1),),)
+vereinigten ||| # vereinigten
+staaten ||| # staaten
+größten ||| # größten
+schwellenländer ||| ((('#',0,1),),(('schwellen',0,1),('schwelle',0,1),),(('länder',0,1),),)
+brasilien ||| # brasilien
+russland ||| # russland
+indien ||| # indien
diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained
index 900aee62..f19cfb87 100644
--- a/compound-split/de/weights.trained
+++ b/compound-split/de/weights.trained
@@ -1,20 +1,20 @@
-# Objective = 130.351 (eval count=277)
-LettersSq -0.056134438115533404
-LettersSqrt -2.3292519794048472
-RevCharLM 0.36058223673749035
-FugS -0.65163265536371784
-FugN -1.7541823394060532
-WordCount 19.689510720296731
-InDict -15.526418212531411
-InDictSubWord 0.86651150414218581
-Short 1.0428931806273765
-Long -0.66303708344523737
-OOV 35.21592893282503
-OOVSubWord -2.0239418243473528
-ShortRange -1.0433240270047053
-HighFreq -4.9882163110295377
-MedFreq -0.091772646095853408
-Freq 0.42854711713184995
-Bad -61.482133368226265
-FreqLen1 -1.8531769081011589
-FreqLen2 -1.2920610029547002
+# Objective = 141.257 (eval count=260)
+LettersSq -0.043739909283617769
+LettersSqrt 0.1872289898773126
+RevCharLM 0.42554069360897689
+FugS 0.19456803361089897
+FugN -0.52139851618458022
+WordCount -0.15691017588076511
+InDict -0.5625646425495513
+InDictSubWord 0.93167610469172124
+Short 0.75149167149253815
+Long -0.73284751373263413
+OOV 0.40565446666620508
+OOVSubWord -0.69173632880670455
+ShortRange -1.1747803070666263
+HighFreq -3.6846138678893623
+MedFreq 0.043969281682716951
+Freq -0.2997699217323242
+Bad -2.9862583497002633
+FreqLen1 -0.35008877438893016
+FreqLen2 -0.15783550188513254