summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorChris Dyer <redpony@gmail.com>2015-06-17 13:44:24 -0400
committerChris Dyer <redpony@gmail.com>2015-06-17 13:44:24 -0400
commitdfdb5e013931a3b16ba6f147d4cdc6752aa90bf9 (patch)
tree2d11c9c4b7346bd527b1625d44ec3ebda214cd49
parent1925994b2857251196fb073406b5dae7e1aad326 (diff)
use downloaded data instead of github data
-rw-r--r--compound-split/cdec-de.ini4
-rw-r--r--compound-split/de/badlist.de163
-rwxr-xr-xcompound-split/install-data-deps.sh4
3 files changed, 169 insertions, 2 deletions
diff --git a/compound-split/cdec-de.ini b/compound-split/cdec-de.ini
index 1573dd52..05903198 100644
--- a/compound-split/cdec-de.ini
+++ b/compound-split/cdec-de.ini
@@ -2,5 +2,5 @@ formalism=csplit
intersection_strategy=full
weights=de/weights.trained
#weights=de/weights.noun-only-1best-only
-feature_function=CSplit_BasicFeatures de/large_dict.de.gz de/badlist.de.gz de/wordlist.de
-feature_function=CSplit_ReverseCharLM de/charlm.rev.5gm.de.lm.gz
+feature_function=CSplit_BasicFeatures csplit-data-01/de/large_dict.de.gz de/badlist.de de/wordlist.de
+feature_function=CSplit_ReverseCharLM csplit-data-01/de/charlm.rev.5gm.de.lm.gz
diff --git a/compound-split/de/badlist.de b/compound-split/de/badlist.de
new file mode 100644
index 00000000..2def58ea
--- /dev/null
+++ b/compound-split/de/badlist.de
@@ -0,0 +1,163 @@
+land
+wider
+igen
+iger
+iges
+igem
+fort
+ismus
+ismen
+hint
+trans
+tran
+abge
+nische
+nischen
+ende
+endes
+endem
+ender
+ender
+enden
+entsch
+dis
+nahmen
+nahme
+nahm
+ent
+bew
+ins
+beb
+beg
+ber
+dra
+kung
+kungs
+kungen
+ige
+bei
+stische
+stisches
+stischen
+stischem
+stischer
+istisch
+istische
+istisches
+istischen
+istischem
+istischer
+istisch
+tungen
+bis
+tung
+tungs
+zuer
+zuver
+zuent
+zusam
+aber
+ange
+aufge
+ausge
+vorge
+einge
+aufzu
+auszu
+vorzu
+einzu
+zusammenzu
+zus
+zum
+zur
+anzu
+zusammenge
+ante
+anten
+arm
+chung
+chungen
+chungs
+den
+dich
+dir
+doch
+ihr
+hung
+hungen
+hungs
+der
+die
+das
+dem
+den
+denen
+nen
+nis
+nisse
+ieren
+iert
+eien
+erei
+ser
+min
+eit
+eiten
+ereien
+niss
+eine
+einen
+gern
+hung
+and
+her
+per
+gege
+ges
+sch
+hes
+ger
+ber
+dat
+ter
+ler
+ner
+mer
+ver
+zer
+gen
+hang
+hat
+heit
+heiten
+igkeits
+igkeit
+igkeiten
+keit
+keiten
+kom
+lich
+liche
+liches
+lichen
+lichste
+lichsten
+licher
+losigkeit
+men
+mich
+mir
+mut
+nen
+nung
+sich
+ten
+ung
+ungen
+ungs
+voll
+vom
+von
+yes
+schaft
+what
diff --git a/compound-split/install-data-deps.sh b/compound-split/install-data-deps.sh
index 942bfdcd..72cdc80e 100755
--- a/compound-split/install-data-deps.sh
+++ b/compound-split/install-data-deps.sh
@@ -3,7 +3,11 @@ set -e
data_version=csplit-data-01.tar.gz
+ROOTDIR=`dirname $0`
+cd $ROOTDIR
+
curl -f http://demo.clab.cs.cmu.edu/cdec/$data_version -o $data_version
tar xzf $data_version
+rm -f $data_version