From 0ae0a535ddca7d85894c48722fc90c488cc059cb Mon Sep 17 00:00:00 2001 From: Chris Dyer Date: Thu, 13 Jan 2011 18:43:36 -0500 Subject: updated training data, retrained de seg model --- compound-split/compound-split.pl | 2 +- compound-split/de/dev.in-ref | 66 ++++++++++++++++++++++++++++++++++----- compound-split/de/weights.trained | 40 ++++++++++++------------ 3 files changed, 80 insertions(+), 28 deletions(-) diff --git a/compound-split/compound-split.pl b/compound-split/compound-split.pl index 490a5bc5..7f45d345 100755 --- a/compound-split/compound-split.pl +++ b/compound-split/compound-split.pl @@ -62,7 +62,7 @@ while() { my @todo = (); for (my $i=0; $i < scalar @words; $i++) { my $word = lc $words[$i]; - if (length($word)<6 || $word =~ /^[,\-0-9\.]+$/) { + if (length($word)<6 || $word =~ /^[,\-0-9\.]+$/ || $word =~ /[@.\-\/:]/) { if ($IS_PLF) { push @res, "(('" . escape($word) . "',0,1),),"; } else { diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref index 83dae731..b4b91f77 100644 --- a/compound-split/de/dev.in-ref +++ b/compound-split/de/dev.in-ref @@ -77,11 +77,11 @@ abbrucharbeiten ||| # abbruch arbeiten abergläubischen ||| # abergläubischen abfallbewirtschaftungshierarchie ||| # abfall bewirtschaftung hierarchie abfallbewirtschaftungsplänen ||| # abfall bewirtschaftung plänen -abfertigungsgebühren ||| # abfertigung gebühren -beitragsunabhängig ||| # beitrag unabhängig -einreichungsfrist ||| # einreichung frist +abfertigungsgebühren ||| ((('#',0,1),),(('abfertigung',0,1),('abfertigungs',0,1),),(('gebühren',0,1),),) +beitragsunabhängig ||| ((('#',0,1),),(('beitrag',0,1),('beitrags',0,1),),(('unabhängig',0,1),),) +einreichungsfrist ||| ((('#',0,1),),(('einreichung',0,1),),(('frist',0,1),),) europaabgeordnete ||| # europa abgeordnete -früherkennungskampagnen ||| # früh erkennung kampagnen +früherkennungskampagnen ||| ((('#',0,1),),(('früh',0,1),),(('erkennung',0,1),('erkennungs',0,1),),(('kampagnen',0,1),),) hilfsagenturen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('agenturen',0,1),),) hilfsinstitutionen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('institutionen',0,1),),) kaisergranat ||| # kaiser granat @@ -103,16 +103,16 @@ sonderpreis ||| # sonder preis modellrechnung ||| # modell rechnung treibhauseffekt ||| # treibhaus effekt europatournee ||| # europa tournee -wirtschaftskrise ||| # wirtschafts krise +wirtschaftskrise ||| ((('#',0,1),),(('wirtschafts',0,1),('wirtschaft',0,1),),(('krise',0,1),),) mittwochabend ||| # mittwoch abend -abschiedsgala ||| # abschied gala +abschiedsgala ||| ((('#',0,1),),(('abschied',0,1),('abschieds',0,1),),(('gala',0,1),),) betriebstag ||| # betrieb tag flughafen ||| # flughafen truthahn ||| # truthahn gehirnregion ||| # gehirn region feststellung ||| # feststellung thanksgiving ||| # thanks giving -börsenhändler ||| # börsen händler +börsenhändler ||| ((('#',0,1),),(('börsen',0,1),('börse',0,1),),(('händler',0,1),),) risikoforschung ||| # risiko forschung finanzkrise ||| # finanz krise erkenntnis ||| # erkenntnis @@ -738,3 +738,55 @@ kaufrausch ||| ((('#',0,1),),(('kauf',0,1),),(('rausch',0,1),),) kommerzialisierung ||| # kommerzialisierung weihnachten ||| # weihnachten funktioniert ||| # funktioniert +zittert ||| # zittert +wikileaks ||| # wikileaks +verfassungsgericht ||| ((('#',0,1),),(('verfassung',0,1),('verfassungs',0,1),),(('gericht',0,1),),) +berlusconis ||| # berlusconis +immunität ||| # immunität +teilweise ||| # teilweise +zinspolitik ||| # zins politik +trichet ||| # trichet +inflation ||| # inflation +eurozone ||| ((('#',0,1),),(('euro',0,1),('eurozone',0,2),),(('zone',0,1),),) +effektive ||| # effektive +kontrolle ||| # kontrolle +futtermittelindustrie ||| # futtermittel industrie +deutschland ||| # deutschland +verspielt ||| # verspielt +regierung ||| # regierung +vertrauen ||| # vertrauen +westerwelle ||| # westerwelle +abzugsdatum ||| ((('#',0,1),),(('abzugs',0,1),('abzug',0,1),),(('datum',0,1),),) +ghettoblaster ||| # ghetto blaster +unserem ||| # unserem +alltag ||| # alltag +verschwunden ||| # verschwunden +trotzdem ||| # trotzdem +ikonen ||| # ikonen +jugendkultur ||| # jugend kultur +tatsächlich ||| # tatsächlich +deuten ||| # deuten +hochrechnungen ||| # hochrechnungen +mckinsey ||| # mckinsey +company ||| # company +darauf ||| # darauf +kaufkraft ||| # kauf kraft +dieser ||| # dieser +aufstrebenden ||| # aufstrebenden +mittelschicht ||| # mittel schicht +nächsten ||| # nächsten +jahrzehnts ||| # jahrzehnts +billionen ||| # billionen +dollar ||| # dollar +anwachsen ||| # anwachsen +könnte ||| # könnte +doppelt ||| # doppelt +aktuellen ||| # aktuellen +erbrauchsniveau ||| ((('#',0,1),),(('erbrauch',0,1),('erbrauchs',0,1),),(('niveau',0,1),),) +vereinigten ||| # vereinigten +staaten ||| # staaten +größten ||| # größten +schwellenländer ||| ((('#',0,1),),(('schwellen',0,1),('schwelle',0,1),),(('länder',0,1),),) +brasilien ||| # brasilien +russland ||| # russland +indien ||| # indien diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained index 900aee62..f19cfb87 100644 --- a/compound-split/de/weights.trained +++ b/compound-split/de/weights.trained @@ -1,20 +1,20 @@ -# Objective = 130.351 (eval count=277) -LettersSq -0.056134438115533404 -LettersSqrt -2.3292519794048472 -RevCharLM 0.36058223673749035 -FugS -0.65163265536371784 -FugN -1.7541823394060532 -WordCount 19.689510720296731 -InDict -15.526418212531411 -InDictSubWord 0.86651150414218581 -Short 1.0428931806273765 -Long -0.66303708344523737 -OOV 35.21592893282503 -OOVSubWord -2.0239418243473528 -ShortRange -1.0433240270047053 -HighFreq -4.9882163110295377 -MedFreq -0.091772646095853408 -Freq 0.42854711713184995 -Bad -61.482133368226265 -FreqLen1 -1.8531769081011589 -FreqLen2 -1.2920610029547002 +# Objective = 141.257 (eval count=260) +LettersSq -0.043739909283617769 +LettersSqrt 0.1872289898773126 +RevCharLM 0.42554069360897689 +FugS 0.19456803361089897 +FugN -0.52139851618458022 +WordCount -0.15691017588076511 +InDict -0.5625646425495513 +InDictSubWord 0.93167610469172124 +Short 0.75149167149253815 +Long -0.73284751373263413 +OOV 0.40565446666620508 +OOVSubWord -0.69173632880670455 +ShortRange -1.1747803070666263 +HighFreq -3.6846138678893623 +MedFreq 0.043969281682716951 +Freq -0.2997699217323242 +Bad -2.9862583497002633 +FreqLen1 -0.35008877438893016 +FreqLen2 -0.15783550188513254 -- cgit v1.2.3