From 9e5107a05bfabb76ce547d2849173c5a11aeba60 Mon Sep 17 00:00:00 2001 From: Chris Dyer Date: Mon, 5 Nov 2012 23:41:55 -0500 Subject: larger training data for semi-crf word segmenter --- compound-split/de/TRAIN | 3 +- compound-split/de/cdec-train.ini | 2 +- compound-split/de/dev.in-ref | 103 +++++++++++++++++++++++++++++++++++++ compound-split/de/large_dict.de.gz | Bin 4188658 -> 11796619 bytes compound-split/de/weights.trained | 40 +++++++------- 5 files changed, 126 insertions(+), 22 deletions(-) diff --git a/compound-split/de/TRAIN b/compound-split/de/TRAIN index 6f7184ea..2b48a8d2 100755 --- a/compound-split/de/TRAIN +++ b/compound-split/de/TRAIN @@ -1 +1,2 @@ -~/cdec/training/mpi_batch_optimize -w weights.cur.gz -t dev.in-ref -d cdec-train.ini -M 200 +~/cdec/training/mpi_batch_optimize -w weights.trained -t dev.in-ref -p -c cdec-train.ini -M 200 + diff --git a/compound-split/de/cdec-train.ini b/compound-split/de/cdec-train.ini index 383fa040..44f5934d 100644 --- a/compound-split/de/cdec-train.ini +++ b/compound-split/de/cdec-train.ini @@ -2,4 +2,4 @@ formalism=csplit # crf_uniform_empirical=true intersection_strategy=full feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz -feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.klm +feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.lm.gz diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref index ab6af9dd..b91daced 100644 --- a/compound-split/de/dev.in-ref +++ b/compound-split/de/dev.in-ref @@ -798,3 +798,106 @@ familie ||| # familie vielen ||| # vielen jahren ||| # jahren tageszeitung ||| ((('#',0,1),),(('tag',0,1),('tages',0,1),),(('zeitung',0,1),),) +washington ||| # washington +wahlschlacht ||| # wahl schlacht +letzte ||| # letzte +milliarden ||| # milliarden +dollar ||| # dollar +sollen ||| # sollen +wahlkämpfer ||| # wahlkämpfer +bislang ||| # bislang +kampagnen ||| # kampagnen +ausgegeben ||| # ausgegeben +abstimmung ||| # abstimmung +mobilisieren ||| # mobilisieren +letzten ||| # letzten +reserven ||| # reserven +wähler ||| # wähler +bekommen ||| # bekommen +herausforderer ||| # herausforderer +romney ||| # romney +kündigte ||| # kündigte +wahltag ||| # wahltag +selbst ||| # selbst +mehreren ||| # mehreren +bundesstaaten ||| # bundesstaaten +aufzutreten ||| # aufzutreten +ursprünglich ||| # ursprünglich +abschlussveranstaltung ||| # abschluss veranstaltung +montagabend ||| # montag abend +vorgesehen ||| # vorgesehen +schließung ||| # schließung +wahllokale ||| # wahl lokale +stimmen ||| # stimmen +werben ||| # werben +sprecher ||| # sprecher +wahlkampfteams ||| # wahlkampf teams +pennsylvania ||| # pennsylvania +natürlich ||| # natürlich +schicksalstaat ||| # schicksal staat +republikaner ||| # republikaner +präsident ||| # präsident +geworden ||| # geworden +gewonnen ||| # gewonnen +auswertung ||| # auswertung +portals ||| # portals +national ||| # national +sieben ||| # sieben +november ||| # november +umfragen ||| # umfragen +meistumkämpfte ||| # meist umkämpfte +mehrheit ||| # mehrheit +feststeht ||| # feststeht +wahlkämpfer ||| # wahlkämpfer +besonders ||| # besonders +relevant ||| # relevant +direkt ||| # direkt +gewählt ||| # gewählt +präsident ||| # präsident +wahlmännergremium ||| # wahlmänner gremium +spiegeln ||| # spiegeln +ergebnisse ||| # ergebnisse +einzelnen ||| # einzelnen +bundesstaaten ||| # bundesstaaten +präsident ||| # präsident +letzten ||| # letzten +seiner ||| # seiner +kampagne ||| # kampagne +vorgelegt ||| # vorgelegt +rocklegende ||| # rock legende +springsteen ||| # springsteen +botschafter ||| # botschafter +seiner ||| # seiner +kampagne ||| # kampagne +wisconsin ||| # wisconsin +dankte ||| # dankte +präsidenten ||| # präsidenten +während ||| # während +konzerts ||| # konzerts +gesundheitsreform ||| ((('#',0.0,1),),(('gesundheits',0.0,1),('gesundheit',0.0,1),),(('reform',0.0,1),),) +regulierung ||| # regulierung +street ||| # street +später ||| # später +auftritte ||| # auftritte +natürlich ||| # natürlich +summen ||| # summen +vibrieren ||| # vibrieren +duftstoffe ||| ((('#',0.0,1),),(('duftstoffe',0.0,2),('duft',0.0,1),),(('stoffe',0.0,1),),) +echten ||| # echten +verströmen ||| # verströmen +roboterbiene ||| # roboter biene +entwickelt ||| # entwickelt +wissenschaftlern ||| # wissenschaftlern +freien ||| # freien +universität ||| # universität +berlin ||| # berlin +künstlichen ||| # künstlichen +insekt ||| # insekt +wollen ||| # wollen +forscher ||| # forscher +futterquellen ||| # futter quellen +lotsen ||| # lotsen +geheimnis ||| # geheimnis +bienentanzes ||| # biene tanzes +entschlüsseln ||| # entschlüsseln +klimawandel ||| # klima wandel diff --git a/compound-split/de/large_dict.de.gz b/compound-split/de/large_dict.de.gz index 9af2c447..22b55908 100644 Binary files a/compound-split/de/large_dict.de.gz and b/compound-split/de/large_dict.de.gz differ diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained index 4ae8a8ce..313d6ba9 100644 --- a/compound-split/de/weights.trained +++ b/compound-split/de/weights.trained @@ -1,20 +1,20 @@ -# Objective = 141.249 (eval count=281) -LettersSq -0.04232699523807458 -LettersSqrt 0.4355587430228624 -RevCharLM 0.41198831478844122 -FugS 0.075512682701211239 -FugN -0.61902217202456356 -WordCount -0.0082286209848003913 -InDict -0.98529136326577915 -InDictSubWord 1.0386001157542868 -Short 0.70242841302446457 -Long -0.69651861257390713 -OOV 0.97706274228074586 -OOVSubWord -0.76138571782502074 -ShortRange -1.1864424374105051 -HighFreq -4.1150415279961052 -MedFreq 0.014790338975451987 -Freq -0.28901069668114737 -Bad -3.8059407890457644 -FreqLen1 -0.3827361966178347 -FreqLen2 -0.17308899259418953 +# Objective = 164.304 (eval count=118) +WordCount 0.10973670965860199 +LettersSq -0.040894083779153829 +LettersSqrt 0.33757888570124861 +InDict 0.049573722026753933 +InDictSubWord 0.69975734577036308 +Short 0.33555471096277373 +Long -0.41832772458034762 +OOV 0.060162987632197122 +OOVSubWord 0.068471660184093452 +ShortRange -0.95127190946200446 +HighFreq -2.4179829648207223 +MedFreq -0.21881857269052826 +Freq -0.32292456278379877 +FreqLen1 -0.34734160349477439 +FreqLen2 -0.1574854779610021 +Bad -1.7868318814690027 +RevCharLM 0.52613329631178929 +FugS 0.028876419364008043 +FugN -0.086060954349416352 -- cgit v1.2.3