From 129832e6d12b4c6e54189bdc030a6a31cccbba5c Mon Sep 17 00:00:00 2001 From: Chris Dyer Date: Wed, 22 Dec 2010 13:15:42 -0600 Subject: fix compound splitter, new features, more training data --- compound-split/de/TRAIN | 3 +- compound-split/de/cdec-train.ini | 2 +- compound-split/de/dev.in-ref | 119 ++++++++++++++++++++++++++++++++++++++ compound-split/de/weights.ptinit | 2 + compound-split/de/weights.trained | 37 ++++++------ 5 files changed, 143 insertions(+), 20 deletions(-) (limited to 'compound-split') diff --git a/compound-split/de/TRAIN b/compound-split/de/TRAIN index d586050e..6f7184ea 100755 --- a/compound-split/de/TRAIN +++ b/compound-split/de/TRAIN @@ -1,2 +1 @@ -../../training/cluster-ptrain.pl cdec-train.ini dev.in-ref weights.ptinit --gaussian_prior --sigma_squared 1 &> training.log & - +~/cdec/training/mpi_batch_optimize -w weights.cur.gz -t dev.in-ref -d cdec-train.ini -M 200 diff --git a/compound-split/de/cdec-train.ini b/compound-split/de/cdec-train.ini index 58a99106..44f5934d 100644 --- a/compound-split/de/cdec-train.ini +++ b/compound-split/de/cdec-train.ini @@ -1,5 +1,5 @@ formalism=csplit -crf_uniform_empirical=true +# crf_uniform_empirical=true intersection_strategy=full feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.lm.gz diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref index a68f0688..83dae731 100644 --- a/compound-split/de/dev.in-ref +++ b/compound-split/de/dev.in-ref @@ -619,3 +619,122 @@ teuersten ||| # teuersten kirchenneubau ||| # kirche neu bau ostdeutschlands ||| # ost deutschlands erfolgen ||| # erfolgen +rumänien ||| # rumänien +empört ||| # empört +berlin ||| # berlin +rumänische ||| # rumänische +regierung ||| # regierung +empört ||| # empört +ankündigung ||| # ankündigung +deutschlands ||| # deutschlands +frankreichs ||| # frankreichs +beitritt ||| # beitritt +rumäniens ||| # rumäniens +bulgariens ||| # bulgariens +schengen ||| # schengen +nicht ||| # nicht +zuzustimmen ||| # zuzustimmen +bukarest ||| # bukarest +informationen ||| # informationen +verletzung ||| # verletzung +vertrags ||| # vertrags +lissabon ||| # lissabon +rumänischer ||| # rumänischer +zollbeamter ||| ((('#',0,1),),(('zoll',0,1),('zollbeamter',0,2),),(('beamter',0,1),),) +grenze ||| # grenze +zwischen ||| # zwischen +rumänien ||| # rumänien +republik ||| # republik +moldau ||| # moldau +dezember ||| # dezember +regierung ||| # regierung +bukarest ||| # bukarest +empört ||| # empört +treten ||| # treten +kontrollen ||| # kontrollen +grenzen ||| # grenzen +rumänien ||| # rumänien +bulgarien ||| # bulgarien +solange ||| # solange +beizubehalten ||| # beizubehalten +länder ||| # länder +unumkehrbare ||| # unumkehrbare +fortschritte ||| # fortschritte +korruption ||| # korruption +organisierte ||| # organisierte +kriminalität ||| # kriminalität +vorweisen ||| # vorweisen +bukarest ||| # bukarest +informationen ||| # informationen +dieser ||| # dieser +zeitung ||| # zeitung +überlegt ||| # überlegt +vertragsverletzung ||| ((('#',0,1),),(('vertrag',0,1),('vertrags',0,1),),(('verletzung',0,1),),) +einzureichen ||| # einzureichen +sollten ||| # sollten +deutschland ||| # deutschland +frankreich ||| # frankreich +haltung ||| # haltung +durchsetzen ||| # durchsetzen +rumäniens ||| # rumäniens +außenministerium ||| ((('#',0,1),),(('außen',0,1),),(('ministerium',0,1),),) +spricht ||| # spricht +unannehmbaren ||| # unannehmbaren +präzedenzfall ||| ((('#',0,1),),(('präzedenzfall',0,2),('präzedenz',0,1),),(('fall',0,1),),) +sondern ||| # sondern +staatspräsident ||| ((('#',0,1),),(('staatspräsident',0,2),('staats',0,1),('staat',0,1),),(('präsident',0,1),),) +georgi ||| # georgi +parwanow ||| # parwanow +verständnis ||| # verständnis +bulgarien ||| # bulgarien +verstehen ||| # verstehen +auflagen ||| # auflagen +erfüllen ||| # erfüllen +eigentliche ||| # eigentliche +erklärung ||| # erklärung +verzögerung ||| # verzögerung +mittwoch ||| # mittwoch +haltung ||| # haltung +hintergrund ||| # hintergrund +streits ||| # streits +regierung ||| # regierung +ministerpräsident ||| ((('#',0,1),),(('minister',0,1),),(('präsident',0,1),),) +grenzkontrollen ||| ((('#',0,1),),(('grenz',0,1),),(('kontrollen',0,1),),) +entfallen ||| # entfallen +zweiten ||| # zweiten +weltkrieg ||| ((('#',0,1),),(('welt',0,1),('weltkrieg',0,2),),(('krieg',0,1),),) +versteckte ||| # versteckte +abwehr ||| # abwehr +admirals ||| # admirals +canaris ||| # canaris +sprengsätze ||| # sprengsätze +apfelsinenkisten ||| ((('#',0,1),),(('apfelsinen',0,1),('apfelsine',0,1),),(('kisten',0,1),),) +britische ||| # britische +hafenarbeiter ||| ((('#',0,1),),(('hafen',0,1),),(('arbeiter',0,1),),) +weigerten ||| # weigerten +schiffe ||| # schiffe +entladen ||| # entladen +zeiten ||| # zeiten +griechischen ||| # griechischen +militärdiktatur ||| ((('#',0,1),),(('militär',0,1),),(('diktatur',0,1),),) +warnte ||| # warnte +widerstandsgruppe ||| ((('#',0,1),),(('widerstand',0,1),('widerstands',0,1),),(('gruppe',0,1),),) +pfirsiche ||| # pfirsiche +aprikosen ||| # aprikosen +vergiftet ||| # vergiftet +kuklina ||| # kuklina +trägerin ||| # trägerin +alternativen ||| # alternativen +nobelpreises ||| ((('#',0,1),),(('nobel',0,1),),(('preises',0,1),),) +kämpft ||| # kämpft +rechte ||| # rechte +soldaten ||| # soldaten +russlands ||| # russlands +online ||| # online +sprach ||| # sprach +menschenrechte ||| ((('#',0,1),),(('menschen',0,1),('mensch',0,1),),(('rechte',0,1),),) +heimat ||| # heimat +kaufrausch ||| ((('#',0,1),),(('kauf',0,1),),(('rausch',0,1),),) +kommerzialisierung ||| # kommerzialisierung +weihnachten ||| # weihnachten +funktioniert ||| # funktioniert diff --git a/compound-split/de/weights.ptinit b/compound-split/de/weights.ptinit index eaaa3899..eaea77ce 100644 --- a/compound-split/de/weights.ptinit +++ b/compound-split/de/weights.ptinit @@ -5,9 +5,11 @@ FugS 0 FugN 0 WordCount 0 InDict 0 +InDictSubWord 0 Short 0 Long 0 OOV 0 +OOVSubWord 0 ShortRange 0 HighFreq 0 MedFreq 0 diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained index 359e5cc7..94c6951f 100644 --- a/compound-split/de/weights.trained +++ b/compound-split/de/weights.trained @@ -1,17 +1,20 @@ -LettersSq -0.037643555390228831 -LettersSqrt 0.58198736272513085 -RevCharLM 0.45802141843469085 -FugS 0.26570690067173086 -FugN -0.70672252122442492 -WordCount 0.33774557030334018 -InDict 0.23339787529651213 -Short 0.60862824917301594 -Long -0.58675406875713121 -OOV 0.10434769500682411 -ShortRange -1.0221040223076261 -HighFreq -2.9803896632623825 -MedFreq 0.18811013582723696 -Freq -0.26933190242976746 -Bad -2.3217842031714113 -FreqLen1 -0.28996794292058575 -FreqLen2 -0.21944133928835977 +# Objective = 130.351 (eval count=252) +LettersSq -0.056135510587750022 +LettersSqrt -2.3295721373391776 +RevCharLM 0.36059050723989938 +FugS -0.65163142842679733 +FugN -1.7541906469311515 +WordCount 19.356942545900733 +InDict -15.19336735406667 +InDictSubWord 0.8665049533783179 +Short 1.0429051684475563 +Long -0.66305657970937237 +OOV 35.550309899439839 +OOVSubWord -2.023997552143789 +ShortRange -1.0433366143574028 +HighFreq -4.9882552529226301 +MedFreq -0.091778951485726443 +Freq 0.4285650067397816 +Bad -62 +FreqLen1 -1.8532115534306581 +FreqLen2 -1.2921088742036031 -- cgit v1.2.3