diff options
author | Avneesh Saluja <asaluja@gmail.com> | 2013-03-28 18:28:16 -0700 |
---|---|---|
committer | Avneesh Saluja <asaluja@gmail.com> | 2013-03-28 18:28:16 -0700 |
commit | 3d8d656fa7911524e0e6885647173474524e0784 (patch) | |
tree | 81b1ee2fcb67980376d03f0aa48e42e53abff222 /compound-split | |
parent | be7f57fdd484e063775d7abf083b9fa4c403b610 (diff) | |
parent | 96fedabebafe7a38a6d5928be8fff767e411d705 (diff) |
fixed conflicts
Diffstat (limited to 'compound-split')
-rw-r--r-- | compound-split/README.md (renamed from compound-split/README) | 0 | ||||
-rwxr-xr-x | compound-split/de/TRAIN | 3 | ||||
-rw-r--r-- | compound-split/de/badlist.de.gz | bin | 391 -> 401 bytes | |||
-rw-r--r-- | compound-split/de/cdec-train.ini | 2 | ||||
-rw-r--r-- | compound-split/de/dev.in-ref | 103 | ||||
-rw-r--r-- | compound-split/de/large_dict.de.gz | bin | 4188658 -> 11796618 bytes | |||
-rw-r--r-- | compound-split/de/weights.trained | 40 | ||||
-rwxr-xr-x | compound-split/make-dict.pl | 24 |
8 files changed, 150 insertions, 22 deletions
diff --git a/compound-split/README b/compound-split/README.md index b7491007..b7491007 100644 --- a/compound-split/README +++ b/compound-split/README.md diff --git a/compound-split/de/TRAIN b/compound-split/de/TRAIN index 6f7184ea..2b48a8d2 100755 --- a/compound-split/de/TRAIN +++ b/compound-split/de/TRAIN @@ -1 +1,2 @@ -~/cdec/training/mpi_batch_optimize -w weights.cur.gz -t dev.in-ref -d cdec-train.ini -M 200 +~/cdec/training/mpi_batch_optimize -w weights.trained -t dev.in-ref -p -c cdec-train.ini -M 200 + diff --git a/compound-split/de/badlist.de.gz b/compound-split/de/badlist.de.gz Binary files differindex bda4fde9..baaabd59 100644 --- a/compound-split/de/badlist.de.gz +++ b/compound-split/de/badlist.de.gz diff --git a/compound-split/de/cdec-train.ini b/compound-split/de/cdec-train.ini index 383fa040..44f5934d 100644 --- a/compound-split/de/cdec-train.ini +++ b/compound-split/de/cdec-train.ini @@ -2,4 +2,4 @@ formalism=csplit # crf_uniform_empirical=true intersection_strategy=full feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz -feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.klm +feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.lm.gz diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref index ab6af9dd..b91daced 100644 --- a/compound-split/de/dev.in-ref +++ b/compound-split/de/dev.in-ref @@ -798,3 +798,106 @@ familie ||| # familie vielen ||| # vielen jahren ||| # jahren tageszeitung ||| ((('#',0,1),),(('tag',0,1),('tages',0,1),),(('zeitung',0,1),),) +washington ||| # washington +wahlschlacht ||| # wahl schlacht +letzte ||| # letzte +milliarden ||| # milliarden +dollar ||| # dollar +sollen ||| # sollen +wahlkämpfer ||| # wahlkämpfer +bislang ||| # bislang +kampagnen ||| # kampagnen +ausgegeben ||| # ausgegeben +abstimmung ||| # abstimmung +mobilisieren ||| # mobilisieren +letzten ||| # letzten +reserven ||| # reserven +wähler ||| # wähler +bekommen ||| # bekommen +herausforderer ||| # herausforderer +romney ||| # romney +kündigte ||| # kündigte +wahltag ||| # wahltag +selbst ||| # selbst +mehreren ||| # mehreren +bundesstaaten ||| # bundesstaaten +aufzutreten ||| # aufzutreten +ursprünglich ||| # ursprünglich +abschlussveranstaltung ||| # abschluss veranstaltung +montagabend ||| # montag abend +vorgesehen ||| # vorgesehen +schließung ||| # schließung +wahllokale ||| # wahl lokale +stimmen ||| # stimmen +werben ||| # werben +sprecher ||| # sprecher +wahlkampfteams ||| # wahlkampf teams +pennsylvania ||| # pennsylvania +natürlich ||| # natürlich +schicksalstaat ||| # schicksal staat +republikaner ||| # republikaner +präsident ||| # präsident +geworden ||| # geworden +gewonnen ||| # gewonnen +auswertung ||| # auswertung +portals ||| # portals +national ||| # national +sieben ||| # sieben +november ||| # november +umfragen ||| # umfragen +meistumkämpfte ||| # meist umkämpfte +mehrheit ||| # mehrheit +feststeht ||| # feststeht +wahlkämpfer ||| # wahlkämpfer +besonders ||| # besonders +relevant ||| # relevant +direkt ||| # direkt +gewählt ||| # gewählt +präsident ||| # präsident +wahlmännergremium ||| # wahlmänner gremium +spiegeln ||| # spiegeln +ergebnisse ||| # ergebnisse +einzelnen ||| # einzelnen +bundesstaaten ||| # bundesstaaten +präsident ||| # präsident +letzten ||| # letzten +seiner ||| # seiner +kampagne ||| # kampagne +vorgelegt ||| # vorgelegt +rocklegende ||| # rock legende +springsteen ||| # springsteen +botschafter ||| # botschafter +seiner ||| # seiner +kampagne ||| # kampagne +wisconsin ||| # wisconsin +dankte ||| # dankte +präsidenten ||| # präsidenten +während ||| # während +konzerts ||| # konzerts +gesundheitsreform ||| ((('#',0.0,1),),(('gesundheits',0.0,1),('gesundheit',0.0,1),),(('reform',0.0,1),),) +regulierung ||| # regulierung +street ||| # street +später ||| # später +auftritte ||| # auftritte +natürlich ||| # natürlich +summen ||| # summen +vibrieren ||| # vibrieren +duftstoffe ||| ((('#',0.0,1),),(('duftstoffe',0.0,2),('duft',0.0,1),),(('stoffe',0.0,1),),) +echten ||| # echten +verströmen ||| # verströmen +roboterbiene ||| # roboter biene +entwickelt ||| # entwickelt +wissenschaftlern ||| # wissenschaftlern +freien ||| # freien +universität ||| # universität +berlin ||| # berlin +künstlichen ||| # künstlichen +insekt ||| # insekt +wollen ||| # wollen +forscher ||| # forscher +futterquellen ||| # futter quellen +lotsen ||| # lotsen +geheimnis ||| # geheimnis +bienentanzes ||| # biene tanzes +entschlüsseln ||| # entschlüsseln +klimawandel ||| # klima wandel diff --git a/compound-split/de/large_dict.de.gz b/compound-split/de/large_dict.de.gz Binary files differindex 9af2c447..f5b1b9d3 100644 --- a/compound-split/de/large_dict.de.gz +++ b/compound-split/de/large_dict.de.gz diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained index 4ae8a8ce..313d6ba9 100644 --- a/compound-split/de/weights.trained +++ b/compound-split/de/weights.trained @@ -1,20 +1,20 @@ -# Objective = 141.249 (eval count=281) -LettersSq -0.04232699523807458 -LettersSqrt 0.4355587430228624 -RevCharLM 0.41198831478844122 -FugS 0.075512682701211239 -FugN -0.61902217202456356 -WordCount -0.0082286209848003913 -InDict -0.98529136326577915 -InDictSubWord 1.0386001157542868 -Short 0.70242841302446457 -Long -0.69651861257390713 -OOV 0.97706274228074586 -OOVSubWord -0.76138571782502074 -ShortRange -1.1864424374105051 -HighFreq -4.1150415279961052 -MedFreq 0.014790338975451987 -Freq -0.28901069668114737 -Bad -3.8059407890457644 -FreqLen1 -0.3827361966178347 -FreqLen2 -0.17308899259418953 +# Objective = 164.304 (eval count=118) +WordCount 0.10973670965860199 +LettersSq -0.040894083779153829 +LettersSqrt 0.33757888570124861 +InDict 0.049573722026753933 +InDictSubWord 0.69975734577036308 +Short 0.33555471096277373 +Long -0.41832772458034762 +OOV 0.060162987632197122 +OOVSubWord 0.068471660184093452 +ShortRange -0.95127190946200446 +HighFreq -2.4179829648207223 +MedFreq -0.21881857269052826 +Freq -0.32292456278379877 +FreqLen1 -0.34734160349477439 +FreqLen2 -0.1574854779610021 +Bad -1.7868318814690027 +RevCharLM 0.52613329631178929 +FugS 0.028876419364008043 +FugN -0.086060954349416352 diff --git a/compound-split/make-dict.pl b/compound-split/make-dict.pl new file mode 100755 index 00000000..71f2b928 --- /dev/null +++ b/compound-split/make-dict.pl @@ -0,0 +1,24 @@ +#!/usr/bin/perl -w +use strict; +use utf8; +my %d; +my $z = 0; +binmode(STDIN, ":utf8"); +binmode(STDOUT, ":utf8"); +while(<STDIN>) { + chomp; + s/[\–":“„!=+*.@«#%&,»\?\/{}\$\(\)\[\];\-0-9]+/ /g; + $_ = lc $_; + my @words = split /\s+/; + for my $w (@words) { + next if length($w) == 0; + $d{$w}++; + $z++; + } +} +my $lz = log($z); +for my $w (sort {$d{$b} <=> $d{$a}} keys %d) { + my $c = $lz-log($d{$w}); + print "$w $c\n"; +} + |