From dfdb5e013931a3b16ba6f147d4cdc6752aa90bf9 Mon Sep 17 00:00:00 2001 From: Chris Dyer Date: Wed, 17 Jun 2015 13:44:24 -0400 Subject: use downloaded data instead of github data --- compound-split/cdec-de.ini | 4 +- compound-split/de/badlist.de | 163 ++++++++++++++++++++++++++++++++++++ compound-split/install-data-deps.sh | 4 + 3 files changed, 169 insertions(+), 2 deletions(-) create mode 100644 compound-split/de/badlist.de diff --git a/compound-split/cdec-de.ini b/compound-split/cdec-de.ini index 1573dd52..05903198 100644 --- a/compound-split/cdec-de.ini +++ b/compound-split/cdec-de.ini @@ -2,5 +2,5 @@ formalism=csplit intersection_strategy=full weights=de/weights.trained #weights=de/weights.noun-only-1best-only -feature_function=CSplit_BasicFeatures de/large_dict.de.gz de/badlist.de.gz de/wordlist.de -feature_function=CSplit_ReverseCharLM de/charlm.rev.5gm.de.lm.gz +feature_function=CSplit_BasicFeatures csplit-data-01/de/large_dict.de.gz de/badlist.de de/wordlist.de +feature_function=CSplit_ReverseCharLM csplit-data-01/de/charlm.rev.5gm.de.lm.gz diff --git a/compound-split/de/badlist.de b/compound-split/de/badlist.de new file mode 100644 index 00000000..2def58ea --- /dev/null +++ b/compound-split/de/badlist.de @@ -0,0 +1,163 @@ +land +wider +igen +iger +iges +igem +fort +ismus +ismen +hint +trans +tran +abge +nische +nischen +ende +endes +endem +ender +ender +enden +entsch +dis +nahmen +nahme +nahm +ent +bew +ins +beb +beg +ber +dra +kung +kungs +kungen +ige +bei +stische +stisches +stischen +stischem +stischer +istisch +istische +istisches +istischen +istischem +istischer +istisch +tungen +bis +tung +tungs +zuer +zuver +zuent +zusam +aber +ange +aufge +ausge +vorge +einge +aufzu +auszu +vorzu +einzu +zusammenzu +zus +zum +zur +anzu +zusammenge +ante +anten +arm +chung +chungen +chungs +den +dich +dir +doch +ihr +hung +hungen +hungs +der +die +das +dem +den +denen +nen +nis +nisse +ieren +iert +eien +erei +ser +min +eit +eiten +ereien +niss +eine +einen +gern +hung +and +her +per +gege +ges +sch +hes +ger +ber +dat +ter +ler +ner +mer +ver +zer +gen +hang +hat +heit +heiten +igkeits +igkeit +igkeiten +keit +keiten +kom +lich +liche +liches +lichen +lichste +lichsten +licher +losigkeit +men +mich +mir +mut +nen +nung +sich +ten +ung +ungen +ungs +voll +vom +von +yes +schaft +what diff --git a/compound-split/install-data-deps.sh b/compound-split/install-data-deps.sh index 942bfdcd..72cdc80e 100755 --- a/compound-split/install-data-deps.sh +++ b/compound-split/install-data-deps.sh @@ -3,7 +3,11 @@ set -e data_version=csplit-data-01.tar.gz +ROOTDIR=`dirname $0` +cd $ROOTDIR + curl -f http://demo.clab.cs.cmu.edu/cdec/$data_version -o $data_version tar xzf $data_version +rm -f $data_version -- cgit v1.2.3