summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
-rw-r--r--Makefile.am3
-rw-r--r--README.md23
-rw-r--r--compound-split/cdec-de.ini2
-rwxr-xr-xcompound-split/de/TRAIN2
-rw-r--r--compound-split/de/cdec-train.ini2
-rw-r--r--compound-split/de/dev.in-ref903
-rw-r--r--compound-split/de/test302
-rw-r--r--compound-split/de/test.ref302
-rw-r--r--compound-split/de/train.in-ref2531
-rw-r--r--compound-split/de/weights.trained61
-rw-r--r--compound-split/de/wordlist.de18
-rw-r--r--configure.ac5
-rwxr-xr-xcorpus/support/fix-eos.pl10
-rwxr-xr-xcorpus/support/quote-norm.pl146
-rw-r--r--corpus/support/token_list59
-rwxr-xr-xcorpus/support/tokenizer.pl27
-rwxr-xr-xcorpus/tokenize-anything.sh1
-rw-r--r--decoder/decoder.cc2
-rw-r--r--decoder/ff_csplit.cc45
-rw-r--r--decoder/ff_csplit.h1
-rw-r--r--extractor/Makefile.am49
-rw-r--r--extractor/extract.cc6
-rw-r--r--extractor/run_extractor.cc4
-rw-r--r--extractor/sacompile.cc (renamed from extractor/compile.cc)0
-rw-r--r--m4/boost.m4100
-rw-r--r--python/setup.py.in2
-rw-r--r--training/liblbfgs/Makefile.am7
-rwxr-xr-xtraining/utils/parallelize.pl16
-rw-r--r--utils/stringlib.h2
29 files changed, 2978 insertions, 1653 deletions
diff --git a/Makefile.am b/Makefile.am
index 008dc704..598293d1 100644
--- a/Makefile.am
+++ b/Makefile.am
@@ -12,11 +12,10 @@ SUBDIRS = \
klm/search \
decoder \
training \
- training/liblbfgs \
word-aligner \
+ extractor \
example_extff
-# extractor
EXTRA_DIST = corpus tests python/cdec python/tests python/examples compound-split environment
AUTOMAKE_OPTIONS = foreign
diff --git a/README.md b/README.md
index 42d9953c..8f335adb 100644
--- a/README.md
+++ b/README.md
@@ -1,5 +1,16 @@
`cdec` is a research platform for machine translation and similar structured prediction problems.
+## System requirements
+
+- A Linux or Mac OS X system
+- A C++ compiler implementing the [C++-11 standard](http://www.stroustrup.com/C++11FAQ.html) <font color="red"><b>(NEW)</b></font>
+ - Unfortunately, many systems have compilers that predate C++-11 support.
+ - You may need to build your own C++ compiler or upgrade your operating system.
+- [Boost C++ libraries (version 1.44 or later)](http://www.boost.org/)
+ - If you build your own boost, you _must install it_ using `bjam install`.
+ - Older versions of Boost _may_ work, but problems have been reported with command line option parsing on some platforms with older versions.
+- [GNU Flex](http://flex.sourceforge.net/)
+
## Building from a downloaded archive
Instructions:
@@ -8,13 +19,6 @@ Instructions:
make
./tests/run-system-tests.pl
-You will need the following software:
-
-- [Boost C++ libraries (version 1.44 or later)](http://www.boost.org/)
- - If you build your own boost, you _must install it_ using `bjam install`.
- - Older versions of Boost _may_ work, but problems have been reported with command line option parsing on some platforms with older versions.
-- [GNU Flex](http://flex.sourceforge.net/)
-
## Building from a git clone
In addition to the standard `cdec` third party requirements, you will additionally need the following software:
@@ -33,3 +37,8 @@ Instructions:
[For more information, refer to the `cdec` documentation](http://www.cdec-decoder.org)
+## Citation
+
+If you make use of cdec, please cite:
+
+C. Dyer, A. Lopez, J. Ganitkevitch, J. Weese, F. Ture, P. Blunsom, H. Setiawan, V. Eidelman, and P. Resnik. cdec: A Decoder, Alignment, and Learning Framework for Finite-State and Context-Free Translation Models. In *Proceedings of ACL*, July, 2010. [[bibtex](http://www.cdec-decoder.org/cdec.bibtex.txt)] [[pdf](http://www.aclweb.org/anthology/P/P10/P10-4002.pdf)]
diff --git a/compound-split/cdec-de.ini b/compound-split/cdec-de.ini
index 85424e91..1573dd52 100644
--- a/compound-split/cdec-de.ini
+++ b/compound-split/cdec-de.ini
@@ -2,5 +2,5 @@ formalism=csplit
intersection_strategy=full
weights=de/weights.trained
#weights=de/weights.noun-only-1best-only
-feature_function=CSplit_BasicFeatures de/large_dict.de.gz de/badlist.de.gz
+feature_function=CSplit_BasicFeatures de/large_dict.de.gz de/badlist.de.gz de/wordlist.de
feature_function=CSplit_ReverseCharLM de/charlm.rev.5gm.de.lm.gz
diff --git a/compound-split/de/TRAIN b/compound-split/de/TRAIN
index 2b48a8d2..835ffcfc 100755
--- a/compound-split/de/TRAIN
+++ b/compound-split/de/TRAIN
@@ -1,2 +1,2 @@
-~/cdec/training/mpi_batch_optimize -w weights.trained -t dev.in-ref -p -c cdec-train.ini -M 200
+mpirun -np 8 ~/cdec/training/crf/mpi_batch_optimize -w weights.trained -t train.in-ref -p -c cdec-train.ini -M 200
diff --git a/compound-split/de/cdec-train.ini b/compound-split/de/cdec-train.ini
index 44f5934d..cd8e642d 100644
--- a/compound-split/de/cdec-train.ini
+++ b/compound-split/de/cdec-train.ini
@@ -1,5 +1,5 @@
formalism=csplit
# crf_uniform_empirical=true
intersection_strategy=full
-feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz
+feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz wordlist.de
feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.lm.gz
diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref
deleted file mode 100644
index b91daced..00000000
--- a/compound-split/de/dev.in-ref
+++ /dev/null
@@ -1,903 +0,0 @@
-untersuchungsausschuss ||| ((('#',0,1),),(('untersuchung',0,1),('untersuchungs',0,1),),(('ausschuss',0,1),),)
-vielleicht ||| # vielleicht
-hochzeiten ||| # hochzeiten
-damalige ||| # damalige
-siegfried ||| # siegfried
-jaschinski ||| # jaschinski
-verdächtigenkreis ||| ((('#',0,1),),(('verdächtige',0,1),('verdächtigen',0,1),),(('kreis',0,1),),)
-staatsanwaltschaft ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('staatsanwaltschaft',0,1),),)
-damals ||| # damals
-gefeiert ||| # gefeiert
-landesbank ||| ((('#',0,1),),(('landesbank',0,2),('landes',0,1),('land',0,1),),(('bank',0,1),),)
-ungewöhnlich ||| # ungewöhnlich
-schwäbischen ||| # schwäbischen
-feldherrn ||| # feld herrn
-handelsblatt ||| ((('#',0,1),),(('handels',0,1),('handel',0,1),('handelsblatt',0,2),),(('blatt',0,1),),)
-alexander ||| # alexander
-großen ||| # großen
-promoviert ||| # promoviert
-wachstumsplänen ||| ((('#',0,1),),(('wachstums',0,1),('wachstum',0,1),),(('plänen',0,1),),)
-keinen ||| # keinen
-unausweichlichen ||| # unausweichlichen
-konsolidierung ||| # konsolidierung
-branche ||| # branche
-tragende ||| # tragende
-träumt ||| # träumt
-institut ||| # institut
-glücklicherweise ||| # glücklicherweise
-augenhöhe ||| ((('#',0,1),),(('auge',0,1),('augen',0,1),),(('höhe',0,1),),)
-deutschen ||| # deutschen
-wiederherstellung ||| # wiederherstellung
-grundstück ||| ((('#',0,1),),(('grund',0,1),('grundstück',0,2),),(('stück',0,1),),)
-ruhestand ||| # ruhestand
-widerstand ||| # widerstand
-verstrickt ||| # verstrickt
-stellen ||| # stellen
-zahlreichen ||| # zahlreichen
-versammlungsgesetz ||| ((('#',0,1),),(('versammlung',0,1),('versammlungs',0,1),),(('gesetz',0,1),),)
-verstöße ||| # verstöße
-sachbeschädigung ||| # sach beschädigung
-vereinigungen ||| # vereinigungen
-glashaus ||| # glas haus
-auenlandschaft ||| # auen landschaft
-fundament ||| # fundament
-vierhock ||| # vierhock
-idylle ||| # idylle
-plätschert ||| # plätschert
-johannes ||| # johannes
-angrenzenden ||| # angrenzenden
-sportjacke ||| # sport jacke
-mittelmeerinseln ||| # mittelmeer inseln
-stiefelförmige ||| # stiefel förmige
-wiederaufnahme ||| # wiederaufnahme
-tonbandaufnahme ||| # tonband aufnahme
-korrekturzucker ||| # korrektur zucker
-meeresspiegel ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('spiegel',0,1),),)
-gesamtausgabe ||| # gesamt ausgabe
-losfertigung ||| # los fertigung
-reichstag ||| # reichstag
-monntag ||| # monntag
-mittwoch ||| # mittwoch
-freitag ||| # freitag
-sonntag ||| # sonntag
-nachbarschaftsbeziehungen ||| ((('#',0,1),),(('nachbarschafts',0,1),('nachbarschaft',0,1),),(('beziehungen',0,1),),)
-saftbar ||| # saft bar
-produktionsprozesses ||| # produktion prozesses
-gesamtzusammenhang ||| # gesamt zusammenhang
-volkswirtschaftslehre ||| # volk wirtschaft lehre
-losverfahren ||| # los verfahren
-schifffahrt ||| # schiff fahrt
-dienstag ||| # dienstag
-donnerstag ||| # donnerstag
-samstag ||| # samstag
-sonnabend ||| # sonnabend
-mitglied ||| # mitglied
-abblendlicht ||| # abblend licht
-abbrucharbeiten ||| # abbruch arbeiten
-abergläubischen ||| # abergläubischen
-abfallbewirtschaftungshierarchie ||| # abfall bewirtschaftung hierarchie
-abfallbewirtschaftungsplänen ||| # abfall bewirtschaftung plänen
-abfertigungsgebühren ||| ((('#',0,1),),(('abfertigung',0,1),('abfertigungs',0,1),),(('gebühren',0,1),),)
-beitragsunabhängig ||| ((('#',0,1),),(('beitrag',0,1),('beitrags',0,1),),(('unabhängig',0,1),),)
-einreichungsfrist ||| ((('#',0,1),),(('einreichung',0,1),),(('frist',0,1),),)
-europaabgeordnete ||| # europa abgeordnete
-früherkennungskampagnen ||| ((('#',0,1),),(('früh',0,1),),(('erkennung',0,1),('erkennungs',0,1),),(('kampagnen',0,1),),)
-hilfsagenturen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('agenturen',0,1),),)
-hilfsinstitutionen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('institutionen',0,1),),)
-kaisergranat ||| # kaiser granat
-kalifornien ||| # kalifornien
-kampfflugzeug ||| # kampf flugzeug
-luftangriffen ||| # luft angriffen
-luftsicherheit ||| # luft sicherheit
-mithäftlingen ||| # mithäftlingen
-wartungsarbeiten ||| # wartung arbeiten
-wasseraufbereitungsanlagen ||| ((('#',0,1),),(('wasser',0,1),),(('aufbereitungs',0,1),('aufbereitung',0,1),),(('anlagen',0,1),),)
-wasserdienstleistungen ||| # wasser dienstleistungen
-weihnachtsgeschenk ||| # weihnacht geschenk
-weltarbeitsorganisation ||| # welt arbeit organisation
-zeitdruck ||| # zeit druck
-bundesagentur ||| ((('#',0,1),),(('bund',0,1),('bundes',0,1),),(('agentur',0,1),),)
-fahrstuhlschächten ||| # fahrstuhl schächten
-elektroindustrie ||| # elektro industrie
-sonderpreis ||| # sonder preis
-modellrechnung ||| # modell rechnung
-treibhauseffekt ||| # treibhaus effekt
-europatournee ||| # europa tournee
-wirtschaftskrise ||| ((('#',0,1),),(('wirtschafts',0,1),('wirtschaft',0,1),),(('krise',0,1),),)
-mittwochabend ||| # mittwoch abend
-abschiedsgala ||| ((('#',0,1),),(('abschied',0,1),('abschieds',0,1),),(('gala',0,1),),)
-betriebstag ||| # betrieb tag
-flughafen ||| # flughafen
-truthahn ||| # truthahn
-gehirnregion ||| # gehirn region
-feststellung ||| # feststellung
-thanksgiving ||| # thanks giving
-börsenhändler ||| ((('#',0,1),),(('börsen',0,1),('börse',0,1),),(('händler',0,1),),)
-risikoforschung ||| # risiko forschung
-finanzkrise ||| # finanz krise
-erkenntnis ||| # erkenntnis
-vergangenheit ||| # vergangenheit
-festtagsbratenesser ||| # festtag braten esser
-ungemütlichkeit ||| # ungemütlichkeit
-privatanlegern ||| # privat anlegern
-finanzmakler ||| # finanz makler
-immobilienfonds ||| # immobilien fonds
-wertzuwachs ||| # wert zuwachs
-marmelade ||| # marmelade
-roboterzofe ||| # roboter zofe
-heinrich ||| # heinrich
-zeitdehnung ||| # zeit dehnung
-zeitlosigkeit ||| # zeitlosigkeit
-auseinandersetzung ||| # auseinandersetzung
-immobilienfondskrise ||| ((('#',0,1),),(('immobilien',0,1),),(('fonds',0,1),('fond',0,1),),(('krise',0,1),),)
-stackelberg ||| # stackelberg
-bodenseedampfschifffahrtsgesellschaftskapitänsmütze ||| # bodensee dampf schiff fahrt gesellschaft kapitän mütze
-hamburg ||| # hamburg
-inzwischen ||| # inzwischen
-deutsche ||| # deutsche
-justiz ||| # justiz
-britische ||| # britische
-bischof ||| # bischof
-richard ||| # richard
-williamson ||| # williamson
-respektablen ||| # respektablen
-standes ||| # standes
-soutane ||| # soutane
-unfassbare ||| # unfassbare
-millionen ||| # millionen
-gaskammern ||| # gas kammern
-holocaustleugner ||| # holocaust leugner
-großansicht ||| # groß ansicht
-überraschte ||| # überraschte
-gegenfrage ||| # gegen frage
-journalisten ||| # journalisten
-fernsehsender ||| # fernseh sender
-schließlich ||| # schließlich
-revisionisten ||| # revisionisten
-dreihunderttausend ||| # drei hundert tausend
-konzentrationslagern ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lagern',0,1),),)
-schwadroniert ||| # schwadroniert
-schornsteinhöhen ||| # schornstein höhen
-touristen ||| # touristen
-auschwitz ||| # auschwitz
-birkenau ||| # birkenau
-antisemitismus ||| ((('#',0,1),),(('anti',0,1),('antisemitismus',0,2),),(('semitismus',0,1),),)
-schwedische ||| # schwedische
-interviewer ||| # interviewer
-bischof ||| # bischof
-williamson ||| # williamson
-wahrheit ||| # wahrheit
-schlecht ||| # schlecht
-interessiert ||| # interessiert
-entrückte ||| # entrückte
-deutscher ||| # deutscher
-blamiert ||| # blamiert
-katholische ||| # katholische
-ausgabe ||| # ausgabe
-skandal ||| # skandal
-interview ||| # interview
-berichtet ||| # berichtet
-bayerischen ||| # bayerischen
-zaitzhofen ||| # zaitzhofen
-fernsehen ||| # fernsehen
-regensburger ||| # regensburger
-ruckdäschel ||| # ruckdäschel
-artikel ||| # artikel
-leitete ||| # leitete
-angaben ||| # angaben
-ermittlungsverfahren ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('verfahren',0,1),),)
-verdacht ||| # verdacht
-volksverhetzung ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),),)
-inzwischen ||| # inzwischen
-rechtsanwalt ||| # rechtsanwalt
-einlassung ||| # einlassung
-behörde ||| # behörde
-geistliche ||| # geistliche
-gespräch ||| # gespräch
-ausschließlich ||| # ausschließlich
-auszustrahlen ||| # auszustrahlen
-veröffentlichung ||| # veröffentlichung
-deutschland ||| # deutschland
-exkommunikation ||| # exkommunikation
-hintergrund ||| # hintergrund
-juristischen ||| # juristischen
-volksverhetzungsparagrafen ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),('verhetzungs',0,1),),(('paragrafen',0,1),),)
-strafgesetzbuchs ||| # straf gesetz buchs
-leugnung ||| # leugnung
-strafverfolgung ||| # straf verfolgung
-hintertür ||| # hintertür
-entziehen ||| # entziehen
-inzwischen ||| # inzwischen
-einsicht ||| # einsicht
-ermittlungsakten ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('akten',0,1),),)
-ruckdäschel ||| # ruckdäschel
-überlegen ||| # überlegen
-schwedischen ||| # schwedischen
-journalisten ||| # journalisten
-hintergründen ||| # hintergründen
-absprachen ||| # absprachen
-vorfeld ||| # vorfeld
-oberstaatsanwalt ||| ((('#',0,1),),(('ober',0,1),),(('staat',0,1),('staats',0,1),('staatsanwalt',0,2),),(('anwalt',0,1),),)
-mendelssohn ||| # mendelssohn
-bartholdy ||| # bartholdy
-entstammte ||| # entstammte
-angesehenen ||| # angesehenen
-wohlhabenden ||| # wohlhabenden
-bürgerlichen ||| # bürgerlichen
-jüdischen ||| # jüdischen
-familie ||| # familie
-väterlicherseits ||| # väterlicherseits
-bedeutenden ||| # bedeutenden
-philosophen ||| # philosophen
-abraham ||| # abraham
-bankkaufmannslehre ||| ((('#',0,1),),(('bank',0,1),),(('kaufmanns',0,1),('kaufmann',0,1),),(('lehre',0,1),),)
-kompagnon ||| # kompagnon
-mutter ||| # mutter
-salomon ||| # salomon
-fabrikantenfamilie ||| # fabrikanten familie
-schwester ||| # schwester
-hensel ||| # hensel
-geschwister ||| # geschwister
-rebecca ||| # rebecca
-mathematiker ||| # mathematiker
-dirichlet ||| # dirichlet
-kinder ||| # kinder
-pfarrer ||| # pfarrer
-reformierten ||| # reformierten
-gemeinde ||| # gemeinde
-berliner ||| # berliner
-jerusalems ||| # jerusalems
-haustaufe ||| # haus taufe
-protestantisch ||| # protestantisch
-gelegenheit ||| # gelegenheit
-taufnamen ||| # tauf namen
-ludwig ||| # ludwig
-darüber ||| # darüber
-familiennamen ||| ((('#',0,1),),(('familie',0,1),('familien',0,1),),(('namen',0,1),),)
-christliche ||| # christliche
-beigefügt ||| # beigefügt
-vorbesitzers ||| # vorbesitzers
-gartens ||| # gartens
-abraham ||| # abraham
-mendelssohn ||| # mendelssohn
-konvertierten ||| # konvertierten
-christentum ||| # christentum
-kindheit ||| # kindheit
-französischen ||| # französischen
-besetzung ||| # besetzung
-familie ||| # familie
-verwitwete ||| # verwitwete
-großmutter ||| ((('#',0,1),),(('groß',0,1),('großmutter',0,2),),(('mutter',0,1),),)
-musikunterricht ||| # musik unterricht
-schülerin ||| # schülerin
-philipp ||| # philipp
-kirnbergers ||| # kirnbergers
-unmittelbaren ||| # unmittelbaren
-großtante ||| # groß tante
-tochter ||| # tochter
-finanzmanns ||| # finanzmanns
-daniel ||| # daniel
-preußischer ||| # preußischer
-friedrich ||| # friedrich
-wilhelm ||| # wilhelm
-naturalisationspatent ||| ((('#',0,1),),(('naturalisation',0,1),('naturalisations',0,1),),(('patent',0,1),),)
-vermittelte ||| # vermittelte
-tradition ||| # tradition
-gönnerin ||| # gönnerin
-lehrerin ||| # lehrerin
-vorübergehenden ||| # vorübergehenden
-aufenthalts ||| # aufenthalts
-rückkehr ||| # rückkehr
-unterricht ||| # unterricht
-komposition ||| # komposition
-ausbildung ||| # ausbildung
-schriftstellers ||| # schriftstellers
-neunjähriger ||| # neun jähriger
-klavierpart ||| # klavier part
-klaviertrio ||| # klavier trio
-altsänger ||| # alt sänger
-akademie ||| # akademie
-kirchenmusik ||| ((('#',0,1),),(('kirchen',0,1),('kirche',0,1),),(('musik',0,1),),)
-außergewöhnlicher ||| # außergewöhnlicher
-schnelligkeit ||| # schnelligkeit
-klaviersonaten ||| # klavier sonaten
-klaviertrio ||| # klavier trio
-orgelstücke ||| # orgel stücke
-dreisätzige ||| # drei sätzige
-streichersinfonien ||| # streicher sinfonien
-motetten ||| # motetten
-singspiele ||| # singspiele
-soldatenliebschaft ||| # soldaten liebschaft
-singspiels ||| # singspiels
-komödianten ||| # komödianten
-freundschaft ||| # freundschaft
-barack ||| # barack
-getappt ||| # getappt
-anstehenden ||| # anstehenden
-herkulesaufgaben ||| # herkules aufgaben
-zugleich ||| # zugleich
-blütenweiße ||| # blütenweiße
-westen ||| # westen
-regierungsgrundsätzen ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('grundsätzen',0,1),),)
-genügen ||| # genügen
-problem ||| # problem
-fachlich ||| # fachlich
-ansteckenden ||| # ansteckenden
-krankheit ||| # krankheit
-washington ||| # washington
-befallen ||| # befallen
-symptome ||| # symptome
-verquickung ||| # verquickung
-öffentlichen ||| # öffentlichen
-interessen ||| # interessen
-lobbyistenumtriebe ||| # lobbyisten umtriebe
-steuerzahlungsphobie ||| ((('#',0,1),),(('steuer',0,1),),(('zahlung',0,1),('zahlungs',0,1),),(('phobie',0,1),),)
-eigentlich ||| # eigentlich
-ausgezogen ||| # ausgezogen
-krankheit ||| # krankheit
-auszurotten ||| # auszurotten
-probleme ||| # probleme
-gewaltig ||| # gewaltig
-problembewältiger ||| # problem bewältiger
-verzichten ||| # verzichten
-ausnahmen ||| # ausnahmen
-nachsichtig ||| # nachsichtig
-nachlässig ||| # nachlässig
-nummer ||| # nummer
-verteidigungsministerium ||| ((('#',0,1),),(('verteidigung',0,1),('verteidigungs',0,1),),(('ministerium',0,1),),)
-fachmann ||| # fachmann
-rüstungslobbyist ||| ((('#',0,1),),(('rüstung',0,1),('rüstungs',0,1),),(('lobbyist',0,1),),)
-geithner ||| # geithner
-finanzminister ||| # finanz minister
-fiskus ||| # fiskus
-vorenthalten ||| # vorenthalten
-daschle ||| # daschle
-obamas ||| # obamas
-wunschkandidat ||| # wunsch kandidat
-gesundheitsministerium ||| ((('#',0,1),),(('gesundheit',0,1),('gesundheits',0,1),),(('ministerium',0,1),),)
-schuldete ||| # schuldete
-begleichung ||| # begleichung
-feststand ||| ((('#',0,1),),(('fest',0,1),('feststand',0,2),),(('stand',0,1),),)
-tatsächlich ||| # tatsächlich
-regierung ||| # regierung
-aufrücken ||| # aufrücken
-übergelaufen ||| ((('#',0,1),),(('über',0,1),('übergelaufen',0,2),),(('gelaufen',0,1),),)
-proteststurm ||| # protest sturm
-handtuch ||| ((('#',0,1),),(('hand',0,1),('handtuch',0,2),),(('tuch',0,1),),)
-konzentrationslager ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lager',0,1),),)
-entwicklungspolitik ||| ((('#',0,1),),(('entwicklung',0,1),('entwicklungs',0,1),),(('politik',0,1),),)
-zeitungsbericht ||| ((('#',0,1),),(('zeitung',0,1),('zeitungs',0,1),),(('bericht',0,1),),)
-managergehälter ||| # manager gehälter
-begrenzen ||| # begrenzen
-unternehmen ||| # unternehmen
-staatshilfen ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('hilfen',0,1),),)
-bescheidener ||| # bescheidener
-präsidenten ||| # präsidenten
-gehaltsobergrenze ||| ((('#',0,1),),(('gehalt',0,1),('gehalts',0,1),),(('ober',0,1),('obergrenze',0,2),),(('grenze',0,1),),)
-sonnensystems ||| # sonnen systems
-kreist ||| # kreist
-erdähnlicher ||| # erd ähnlicher
-planet ||| # planet
-exoplanet ||| ((('#',0,1),),(('exo',0,1),('exoplanet',0,2),),(('planet',0,1),),)
-durchbruch ||| ((('#',0,1),),(('durch',0,1),('durchbruch',0,2),),(('bruch',0,1),),)
-fremden ||| # fremden
-ulrich ||| # ulrich
-schnabel ||| # schnabel
-kulturgeschichte ||| # kultur geschichte
-milchwirtschaft ||| # milch wirtschaft
-menschen ||| # menschen
-geschäftsführung ||| ((('#',0,1),),(('geschäft',0,1),('geschäfts',0,1),),(('führung',0,1),),)
-zuständigen ||| # zuständigen
-amtsgericht ||| ((('#',0,1),),(('amt',0,1),('amts',0,1),),(('gericht',0,1),),)
-göppingen ||| # göppingen
-antrag ||| # antrag
-eröffnung ||| # eröffnung
-insolvenzverfahrens ||| # insolvenz verfahrens
-dieter ||| # dieter
-ausgewählte ||| # ausgewählte
-informationsangebote ||| ((('#',0,1),),(('information',0,1),('informations',0,1),),(('angebote',0,1),),)
-deutschen ||| # deutschen
-vereinfacht ||| # vereinfacht
-vokabelglossar ||| # vokabel glossar
-gewaltige ||| # gewaltige
-haushohe ||| # haushohe
-segler ||| # segler
-oktober ||| # oktober
-gibraltar ||| # gibraltar
-verschwand ||| # verschwand
-verfügte ||| # verfügte
-bronzekanonen ||| # bronze kanonen
-tonnen ||| # tonnen
-portugiesischer ||| # portugiesischer
-goldmünzen ||| # gold münzen
-kaufleute ||| # kauf leute
-schätzungen ||| # schätzungen
-vergangenen ||| # vergangenen
-millionen ||| # millionen
-schiffe ||| # schiffe
-meeresgrund ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('grund',0,1),),)
-unterschiedliche ||| # unterschiedliche
-wasserfahrzeuge ||| # wasser fahrzeuge
-kriegsschiffe ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('schiffe',0,1),),)
-passagierdampfer ||| # passagier dampfer
-handelsflotten ||| ((('#',0,1),),(('handel',0,1),('handels',0,1),),(('flotten',0,1),),)
-piratenboote ||| ((('#',0,1),),(('pirate',0,1),('piraten',0,1),),(('boote',0,1),),)
-tanker ||| # tanker
-großbritannien ||| # groß britannien
-ältesten ||| # ältesten
-seefahrernationen ||| ((('#',0,1),),(('see',0,1),('seefahrer',0,2),),(('fahrer',0,1),),(('nationen',0,1),),)
-auffassung ||| # auffassung
-marinehistoriker ||| # marine historiker
-irgendein ||| # irgendein
-anderes ||| # anderes
-allein ||| # allein
-havarierten ||| # havarierten
-registrierte ||| # registrierte
-schiffe ||| # schiffe
-küstennähe ||| ((('#',0,1),),(('küste',0,1),('küsten',0,1),),(('nähe',0,1),),)
-ortung ||| # ortung
-victory ||| # victory
-amerikanisches ||| # amerikanisches
-bergungsunternehmen ||| ((('#',0,1),),(('bergung',0,1),('bergungs',0,1),),(('unternehmen',0,1),),)
-wichtigsten ||| # wichtigsten
-meeresfunde ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('funde',0,1),),)
-geschichte ||| # geschichte
-entdeckern ||| # entdeckern
-historisches ||| # historisches
-kriegsboot ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('boot',0,1),),)
-jahrhundert ||| # jahrhundert
-tausend ||| # tausend
-untergegangenen ||| ((('#',0,1),),(('unter',0,1),('untergegangenen',0,2),),(('gegangenen',0,1),),)
-schiffen ||| # schiffen
-kostbarsten ||| # kostbarsten
-schätzen ||| # schätzen
-entdeckung ||| # entdeckung
-warten ||| # warten
-tauchjagd ||| # tauch jagd
-Überreste ||| # Überreste
-längst ||| # längst
-vergangener ||| # vergangener
-epochen ||| # epochen
-länder ||| # länder
-streiten ||| # streiten
-schiffsfriedhöfe ||| ((('#',0,1),),(('schiff',0,1),('schiffs',0,1),),(('friedhöfe',0,1),),)
-tauchjagd ||| # tauch jagd
-schatzjäger ||| # schatz jäger
-moderne ||| # moderne
-technik ||| # technik
-jahrhundertealte ||| # jahrhunderte alte
-wracks ||| # wracks
-geheimnisse ||| # geheimnisse
-besitzrechte ||| # besitz rechte
-wahrscheinlichkeit ||| # wahrscheinlichkeit
-minimaltemperatur ||| # minimal temperatur
-winterhalbjahr ||| ((('#',0,1),),(('winter',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),)
-celsius ||| # celsius
-durchschnittliche ||| # durchschnittliche
-sommerhalbjahr ||| ((('#',0,1),),(('sommer',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),)
-maximaltemperatur ||| # maximal temperatur
-kreuzungsversuche ||| ((('#',0,1),),(('kreuzung',0,1),('kreuzungs',0,1),),(('versuche',0,1),),)
-erbsenpflanzen ||| ((('#',0,1),),(('erbsen',0,1),('erbse',0,1),),(('pflanzen',0,1),),)
-klostergarten ||| # kloster garten
-befruchtungen ||| # befruchtungen
-zehntausende ||| # zehn tausende
-pflanzenhybriden ||| ((('#',0,1),),(('pflanze',0,1),('pflanzen',0,1),),(('hybriden',0,1),),)
-fleißaufgabe ||| ((('#',0,1),),(('fleiß',0,1),('fleißaufgabe',0,2),),(('aufgabe',0,1),),)
-ungewöhnliche ||| # ungewöhnliche
-hartnäckigkeit ||| # hartnäckigkeit
-naturforschers ||| # natur forschers
-innenminister ||| # innen minister
-verbreitete ||| # verbreitete
-falschinformationen ||| # falsch informationen
-analysen ||| # analysen
-hintergründe ||| # hintergründe
-menschen ||| # menschen
-gekostet ||| # gekostet
-hunderte ||| # hunderte
-wurden ||| # wurden
-verletzt ||| # verletzt
-containerschiff ||| # container schiff
-unfall ||| # unfall
-umweltdesaster ||| # umwelt desaster
-australien ||| # australien
-größer ||| # größer
-bisher ||| # bisher
-befürchtet ||| # befürchtet
-containerschiff ||| # container schiff
-unfall ||| # unfall
-australien ||| # australien
-deutlich ||| # deutlich
-schweröl ||| # schweröl
-zunächst ||| # zunächst
-angenommen ||| # angenommen
-freitag ||| # freitag
-schwappte ||| # schwappte
-schwarze ||| # schwarze
-flüssigkeit ||| # flüssigkeit
-strände ||| # strände
-kilometern ||| # kilometern
-kapitän ||| # kapitän
-langen ||| # langen
-pacific ||| # pacific
-adventurer ||| # adventurer
-hongkong ||| # hong kong
-verlust ||| # verlust
-zunächst ||| # zunächst
-tonnen ||| # tonnen
-angegeben ||| # angegeben
-regierungschef ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('chef',0,1),),)
-queensland ||| # queensland
-samstag ||| # samstag
-kapitän ||| # kapitän
-vortag ||| # vortag
-vertuschung ||| # vertuschung
-vorgeworfen ||| # vorgeworfen
-mittwoch ||| # mittwoch
-containerschiff ||| # container schiff
-naturreservate ||| # natur reservate
-touristenstrände ||| # touristen strände
-ostküste ||| # ost küste
-nördlich ||| # nördlich
-brisbane ||| # brisbane
-bestechungsversuch ||| ((('#',0,1),),(('bestechungs',0,1),('bestechung',0,1),),(('versuch',0,1),),)
-campingkocher ||| # camping kocher
-später ||| # später
-ermöglichte ||| # ermöglichte
-verstärkte ||| # verstärkte
-integration ||| # integration
-funktechnik ||| # funk technik
-mobiltelefone ||| # mobil telefone
-aktenkoffers ||| ((('#',0,1),),(('akten',0,1),('aktenkoffers',0,2),),(('koffers',0,1),),)
-vorstufe ||| # vorstufe
-bedrohlich ||| # bedrohlich
-anstieg ||| # anstieg
-kohlendioxids ||| ((('#',0,1),),(('kohle',0,1),('kohlen',0,1),),(('dioxids',0,1),),)
-computermodelle ||| # computer modelle
-überhaupt ||| # überhaupt
-schützen ||| # schützen
-welchem ||| # welchem
-climategate ||| ((('#',0,1),),(('climate',0,1),('climategate',0,2),),(('gate',0,1),),)
-genannte ||| # genannte
-skandal ||| # skandal
-britische ||| # britische
-forschungsinstitut ||| ((('#',0,1),),(('forschung',0,1),('forschungs',0,1),),(('institut',0,1),),)
-climate ||| # climate
-research ||| # research
-folgenschwerste ||| ((('#',0,1),),(('folgenschwerste',0,2),('folgen',0,1),('folge',0,1),),(('schwerste',0,1),),)
-wissenschaftsdebatte ||| ((('#',0,1),),(('wissenschaft',0,1),('wissenschafts',0,1),),(('debatte',0,1),),)
-unserer ||| # unserer
-erneut ||| # erneut
-computerhacker ||| # computer hacker
-hatten ||| # hatten
-instituts ||| # instituts
-gestohlen ||| # gestohlen
-veröffentlicht ||| # veröffentlicht
-forscher ||| # forscher
-manipulierten ||| # manipulierten
-prognose ||| # prognose
-baldigen ||| # baldigen
-erwärmung ||| # erwärmung
-passten ||| # passten
-andersdenkende ||| # anders denkende
-wissenschaftler ||| # wissenschaftler
-wurden ||| # wurden
-gezielt ||| # gezielt
-diffamiert ||| # diffamiert
-wichtigsten ||| # wichtigsten
-datenlieferanten ||| # daten lieferanten
-weltklimarats ||| # welt klima rats
-wesentlichen ||| # wesentlichen
-fraktionen ||| # fraktionen
-debatte ||| # debatte
-herrschende ||| # herrschende
-schule ||| # schule
-vertreten ||| # vertreten
-repräsentiert ||| # repräsentiert
-mehrheit ||| # mehrheit
-wissenschaftler ||| # wissenschaftler
-führender ||| # führender
-stelle ||| # stelle
-stehen ||| # stehen
-forscher ||| # forscher
-klimamodelle ||| # klimamodelle
-entwickeln ||| # entwickeln
-computersimulationen ||| # computer simulationen
-künftige ||| # künftige
-errechnen ||| # errechnen
-sollen ||| # sollen
-hauptverantwortlichen ||| # haupt verantwortlichen
-prognostizierte ||| # prognostizierte
-erwärmung ||| # erwärmung
-menschen ||| # menschen
-zusätzlich ||| # zusätzlich
-natürlichen ||| # natürlichen
-geschehen ||| # geschehen
-verursachte ||| # verursachte
-ermittelt ||| # ermittelt
-spatenstich ||| # spaten stich
-teuersten ||| # teuersten
-kirchenneubau ||| # kirche neu bau
-ostdeutschlands ||| # ost deutschlands
-erfolgen ||| # erfolgen
-rumänien ||| # rumänien
-empört ||| # empört
-berlin ||| # berlin
-rumänische ||| # rumänische
-regierung ||| # regierung
-empört ||| # empört
-ankündigung ||| # ankündigung
-deutschlands ||| # deutschlands
-frankreichs ||| # frankreichs
-beitritt ||| # beitritt
-rumäniens ||| # rumäniens
-bulgariens ||| # bulgariens
-schengen ||| # schengen
-nicht ||| # nicht
-zuzustimmen ||| # zuzustimmen
-bukarest ||| # bukarest
-informationen ||| # informationen
-verletzung ||| # verletzung
-vertrags ||| # vertrags
-lissabon ||| # lissabon
-rumänischer ||| # rumänischer
-zollbeamter ||| ((('#',0,1),),(('zoll',0,1),('zollbeamter',0,2),),(('beamter',0,1),),)
-grenze ||| # grenze
-zwischen ||| # zwischen
-rumänien ||| # rumänien
-republik ||| # republik
-moldau ||| # moldau
-dezember ||| # dezember
-regierung ||| # regierung
-bukarest ||| # bukarest
-empört ||| # empört
-treten ||| # treten
-kontrollen ||| # kontrollen
-grenzen ||| # grenzen
-rumänien ||| # rumänien
-bulgarien ||| # bulgarien
-solange ||| # solange
-beizubehalten ||| # beizubehalten
-länder ||| # länder
-unumkehrbare ||| # unumkehrbare
-fortschritte ||| # fortschritte
-korruption ||| # korruption
-organisierte ||| # organisierte
-kriminalität ||| # kriminalität
-vorweisen ||| # vorweisen
-bukarest ||| # bukarest
-informationen ||| # informationen
-dieser ||| # dieser
-zeitung ||| # zeitung
-überlegt ||| # überlegt
-vertragsverletzung ||| ((('#',0,1),),(('vertrag',0,1),('vertrags',0,1),),(('verletzung',0,1),),)
-einzureichen ||| # einzureichen
-sollten ||| # sollten
-deutschland ||| # deutschland
-frankreich ||| # frankreich
-haltung ||| # haltung
-durchsetzen ||| # durchsetzen
-rumäniens ||| # rumäniens
-außenministerium ||| ((('#',0,1),),(('außen',0,1),),(('ministerium',0,1),),)
-spricht ||| # spricht
-unannehmbaren ||| # unannehmbaren
-präzedenzfall ||| ((('#',0,1),),(('präzedenzfall',0,2),('präzedenz',0,1),),(('fall',0,1),),)
-sondern ||| # sondern
-staatspräsident ||| ((('#',0,1),),(('staatspräsident',0,2),('staats',0,1),('staat',0,1),),(('präsident',0,1),),)
-georgi ||| # georgi
-parwanow ||| # parwanow
-verständnis ||| # verständnis
-bulgarien ||| # bulgarien
-verstehen ||| # verstehen
-auflagen ||| # auflagen
-erfüllen ||| # erfüllen
-eigentliche ||| # eigentliche
-erklärung ||| # erklärung
-verzögerung ||| # verzögerung
-mittwoch ||| # mittwoch
-haltung ||| # haltung
-hintergrund ||| # hintergrund
-streits ||| # streits
-regierung ||| # regierung
-ministerpräsident ||| ((('#',0,1),),(('minister',0,1),),(('präsident',0,1),),)
-grenzkontrollen ||| ((('#',0,1),),(('grenz',0,1),),(('kontrollen',0,1),),)
-entfallen ||| # entfallen
-zweiten ||| # zweiten
-weltkrieg ||| ((('#',0,1),),(('welt',0,1),('weltkrieg',0,2),),(('krieg',0,1),),)
-versteckte ||| # versteckte
-abwehr ||| # abwehr
-admirals ||| # admirals
-canaris ||| # canaris
-sprengsätze ||| # sprengsätze
-apfelsinenkisten ||| ((('#',0,1),),(('apfelsinen',0,1),('apfelsine',0,1),),(('kisten',0,1),),)
-britische ||| # britische
-hafenarbeiter ||| ((('#',0,1),),(('hafen',0,1),),(('arbeiter',0,1),),)
-weigerten ||| # weigerten
-schiffe ||| # schiffe
-entladen ||| # entladen
-zeiten ||| # zeiten
-griechischen ||| # griechischen
-militärdiktatur ||| ((('#',0,1),),(('militär',0,1),),(('diktatur',0,1),),)
-warnte ||| # warnte
-widerstandsgruppe ||| ((('#',0,1),),(('widerstand',0,1),('widerstands',0,1),),(('gruppe',0,1),),)
-pfirsiche ||| # pfirsiche
-aprikosen ||| # aprikosen
-vergiftet ||| # vergiftet
-kuklina ||| # kuklina
-trägerin ||| # trägerin
-alternativen ||| # alternativen
-nobelpreis ||| ((('#',0,1),),(('nobel',0,1),),(('preis',0,1),),)
-kämpft ||| # kämpft
-rechte ||| # rechte
-soldaten ||| # soldaten
-russlands ||| # russlands
-online ||| # online
-sprach ||| # sprach
-menschenrechte ||| ((('#',0,1),),(('menschen',0,1),('mensch',0,1),),(('rechte',0,1),),)
-heimat ||| # heimat
-kaufrausch ||| ((('#',0,1),),(('kauf',0,1),),(('rausch',0,1),),)
-kommerzialisierung ||| # kommerzialisierung
-weihnachten ||| # weihnachten
-funktioniert ||| # funktioniert
-zittert ||| # zittert
-wikileaks ||| # wikileaks
-verfassungsgericht ||| ((('#',0,1),),(('verfassung',0,1),('verfassungs',0,1),),(('gericht',0,1),),)
-berlusconis ||| # berlusconis
-immunität ||| # immunität
-teilweise ||| # teilweise
-zinspolitik ||| # zins politik
-trichet ||| # trichet
-inflation ||| # inflation
-eurozone ||| ((('#',0,1),),(('euro',0,1),('eurozone',0,2),),(('zone',0,1),),)
-effektive ||| # effektive
-kontrolle ||| # kontrolle
-futtermittelindustrie ||| # futtermittel industrie
-deutschland ||| # deutschland
-verspielt ||| # verspielt
-regierung ||| # regierung
-vertrauen ||| # vertrauen
-westerwelle ||| # westerwelle
-abzugsdatum ||| ((('#',0,1),),(('abzugs',0,1),('abzug',0,1),),(('datum',0,1),),)
-ghettoblaster ||| # ghetto blaster
-unserem ||| # unserem
-alltag ||| # alltag
-verschwunden ||| # verschwunden
-trotzdem ||| # trotzdem
-ikonen ||| # ikonen
-jugendkultur ||| # jugend kultur
-tatsächlich ||| # tatsächlich
-deuten ||| # deuten
-hochrechnungen ||| # hochrechnungen
-mckinsey ||| # mckinsey
-company ||| # company
-darauf ||| # darauf
-kaufkraft ||| # kauf kraft
-dieser ||| # dieser
-aufstrebenden ||| # aufstrebenden
-mittelschicht ||| # mittel schicht
-nächsten ||| # nächsten
-jahrzehnts ||| # jahrzehnts
-billionen ||| # billionen
-dollar ||| # dollar
-anwachsen ||| # anwachsen
-könnte ||| # könnte
-doppelt ||| # doppelt
-aktuellen ||| # aktuellen
-erbrauchsniveau ||| ((('#',0,1),),(('erbrauch',0,1),('erbrauchs',0,1),),(('niveau',0,1),),)
-vereinigten ||| # vereinigten
-staaten ||| # staaten
-größten ||| # größten
-schwellenländer ||| ((('#',0,1),),(('schwellen',0,1),('schwelle',0,1),),(('länder',0,1),),)
-brasilien ||| # brasilien
-russland ||| # russland
-indien ||| # indien
-frühstück ||| # frühstück
-fortschritt ||| # fortschritt
-frühstückstisch ||| ((('#',0,1),),(('frühstück',0,1),('frühstücks',0,1),),(('tisch',0,1),),)
-unserer ||| # unserer
-familie ||| # familie
-vielen ||| # vielen
-jahren ||| # jahren
-tageszeitung ||| ((('#',0,1),),(('tag',0,1),('tages',0,1),),(('zeitung',0,1),),)
-washington ||| # washington
-wahlschlacht ||| # wahl schlacht
-letzte ||| # letzte
-milliarden ||| # milliarden
-dollar ||| # dollar
-sollen ||| # sollen
-wahlkämpfer ||| # wahlkämpfer
-bislang ||| # bislang
-kampagnen ||| # kampagnen
-ausgegeben ||| # ausgegeben
-abstimmung ||| # abstimmung
-mobilisieren ||| # mobilisieren
-letzten ||| # letzten
-reserven ||| # reserven
-wähler ||| # wähler
-bekommen ||| # bekommen
-herausforderer ||| # herausforderer
-romney ||| # romney
-kündigte ||| # kündigte
-wahltag ||| # wahltag
-selbst ||| # selbst
-mehreren ||| # mehreren
-bundesstaaten ||| # bundesstaaten
-aufzutreten ||| # aufzutreten
-ursprünglich ||| # ursprünglich
-abschlussveranstaltung ||| # abschluss veranstaltung
-montagabend ||| # montag abend
-vorgesehen ||| # vorgesehen
-schließung ||| # schließung
-wahllokale ||| # wahl lokale
-stimmen ||| # stimmen
-werben ||| # werben
-sprecher ||| # sprecher
-wahlkampfteams ||| # wahlkampf teams
-pennsylvania ||| # pennsylvania
-natürlich ||| # natürlich
-schicksalstaat ||| # schicksal staat
-republikaner ||| # republikaner
-präsident ||| # präsident
-geworden ||| # geworden
-gewonnen ||| # gewonnen
-auswertung ||| # auswertung
-portals ||| # portals
-national ||| # national
-sieben ||| # sieben
-november ||| # november
-umfragen ||| # umfragen
-meistumkämpfte ||| # meist umkämpfte
-mehrheit ||| # mehrheit
-feststeht ||| # feststeht
-wahlkämpfer ||| # wahlkämpfer
-besonders ||| # besonders
-relevant ||| # relevant
-direkt ||| # direkt
-gewählt ||| # gewählt
-präsident ||| # präsident
-wahlmännergremium ||| # wahlmänner gremium
-spiegeln ||| # spiegeln
-ergebnisse ||| # ergebnisse
-einzelnen ||| # einzelnen
-bundesstaaten ||| # bundesstaaten
-präsident ||| # präsident
-letzten ||| # letzten
-seiner ||| # seiner
-kampagne ||| # kampagne
-vorgelegt ||| # vorgelegt
-rocklegende ||| # rock legende
-springsteen ||| # springsteen
-botschafter ||| # botschafter
-seiner ||| # seiner
-kampagne ||| # kampagne
-wisconsin ||| # wisconsin
-dankte ||| # dankte
-präsidenten ||| # präsidenten
-während ||| # während
-konzerts ||| # konzerts
-gesundheitsreform ||| ((('#',0.0,1),),(('gesundheits',0.0,1),('gesundheit',0.0,1),),(('reform',0.0,1),),)
-regulierung ||| # regulierung
-street ||| # street
-später ||| # später
-auftritte ||| # auftritte
-natürlich ||| # natürlich
-summen ||| # summen
-vibrieren ||| # vibrieren
-duftstoffe ||| ((('#',0.0,1),),(('duftstoffe',0.0,2),('duft',0.0,1),),(('stoffe',0.0,1),),)
-echten ||| # echten
-verströmen ||| # verströmen
-roboterbiene ||| # roboter biene
-entwickelt ||| # entwickelt
-wissenschaftlern ||| # wissenschaftlern
-freien ||| # freien
-universität ||| # universität
-berlin ||| # berlin
-künstlichen ||| # künstlichen
-insekt ||| # insekt
-wollen ||| # wollen
-forscher ||| # forscher
-futterquellen ||| # futter quellen
-lotsen ||| # lotsen
-geheimnis ||| # geheimnis
-bienentanzes ||| # biene tanzes
-entschlüsseln ||| # entschlüsseln
-klimawandel ||| # klima wandel
diff --git a/compound-split/de/test b/compound-split/de/test
deleted file mode 100644
index 8dac76cd..00000000
--- a/compound-split/de/test
+++ /dev/null
@@ -1,302 +0,0 @@
-aktiengesellschaft
-aktiengesellschaft
-wiederaufnahme
-tonbandaufnahme
-staatskrise
-staatskrise
-madagaskars
-präsident
-bittet
-schlagworte
-demonstration
-putsch
-machtkampf
-zwischen
-opposition
-regierungspartei
-regierungspartei
-spitzt
-afrikanischen
-botschaft
-befürchtet
-bürgerkrieg
-mitglieder
-oppositionspartei
-oppositionspartei
-demonstrieren
-putsch
-madagaskars
-präsidenten
-ravalomanana
-mitglieder
-oppositionspartei
-oppositionspartei
-demonstrieren
-putsch
-madagaskars
-präsidenten
-ravalomanana
-bedrängte
-präsident
-wandte
-öffentlichen
-hilferuf
-anhänger
-forderte
-regierungssitz
-regierungssitz
-schützen
-mitglieder
-präsidentengarde
-präsidentengarde
-unbestätigten
-medienberichten
-medienberichten
-begonnen
-posten
-verlassen
-augenzeugen
-augenzeugen
-berichteten
-gepanzerte
-fahrzeuge
-außenbezirken
-hauptstadt
-hauptstadt
-antananarivo
-botschafter
-marquardt
-nationalen
-fernsehen
-erklärt
-steuere
-bürgerkrieg
-botschaft
-familien
-mitarbeiter
-unbedingt
-benötigt
-werden
-bürger
-verlassen
-landes
-aufgefordert
-deutsche
-botschaft
-dagegen
-wollte
-absprache
-anderen
-europäischen
-vertretungen
-zunächst
-ausreise
-empfehlung
-regierung
-angeschlagenen
-staatspräsidenten
-staatspräsidenten
-ravalomanana
-demokratiebewegung
-selbst
-ernannten
-präsidenten
-übergangsregierung
-übergangsregierung
-rajoelina
-gegenüber
-wochen
-andauernde
-erbitterte
-machtkampf
-menschen
-gekostet
-hunderte
-wurden
-verletzt
-modernisierung
-atomwaffen
-umbauten
-marine
-russlands
-präsident
-medwedew
-aufrüstung
-begründung
-versuche
-präsenz
-grenzen
-landes
-verstärken
-anzeige
-moskau
-dmitrij
-medwedew
-begründet
-bebaren
-russischen
-streitkräfte
-sollten
-massiv
-gestärkt
-atomwaffenarsenal
-atomwaffenarsenal
-modernisiert
-werden
-westliche
-militärbündnis
-versuche
-präsenz
-grenzen
-auszubauen
-präsident
-deshalb
-aufrüstung
-marine
-umfang
-beginne
-umfassende
-umrüstung
-heeres
-flotte
-ernstes
-konfliktpotential
-infrastruktur
-kampfkraft
-streitkräfte
-strategischen
-atomwaffen
-internationalen
-terrorismus
-gefechtsbereitschaft
-gefechtsbereitschaft
-strategischen
-atomwaffen
-militärs
-aktuellen
-haushaltsprobleme
-haushaltsprobleme
-auswirkungen
-regierung
-streitkräfteetat
-infolge
-finanzkrise
-zusammengestrichen
-zusammengestrichen
-weitere
-kürzungen
-ausgeschlossen
-medwedews
-vorgänger
-wladimir
-wiederholt
-modernisierung
-waffenarsenals
-verkündet
-umsetzung
-ankündigungen
-großteil
-atomwaffen
-sowjetzeiten
-stimmung
-streitkräften
-rahmen
-reform
-offizierkorps
-verkleinert
-werden
-trifolium
-umfassende
-pflanzengattung
-pflanzengattung
-unterfamilie
-schmetterlingsblütler
-schmetterlingsblütler
-faboideae
-pflanzenfamilie
-pflanzenfamilie
-hülsenfrüchtler
-hülsenfrüchtler
-fabaceae
-gezählt
-sprachgebrauch
-allerdings
-häufig
-gattung
-bezeichnet
-sondern
-nahverwandten
-gattungen
-schneckenklee
-schneckenklee
-medicago
-steinklee
-melilotus
-taxonomisch
-entfernten
-gattung
-sauerklee
-oxalis
-charakteristische
-merkmale
-gattung
-dreifiedrige
-blätter
-vielblütige
-kopfige
-blütenstände
-blütenstände
-kontinenten
-ausnahme
-australiens
-antarktikas
-natürlich
-verbreitet
-australien
-wurden
-verschiedene
-kleearten
-menschen
-eingeführt
-landwirtschaft
-werden
-verschiedene
-kleearten
-futterpflanzen
-verwendet
-kleeanbau
-europa
-nordamerika
-ökonomischer
-bedeutung
-europa
-jahrhundert
-christus
-angebaut
-fähigkeit
-symbiose
-knöllchenbakterien
-rhizobiaceae
-wurzeln
-stickstoff
-verbesserung
-bodenfruchtbarkeit
-bedeutend
-kleeblatt
-symbolik
-vieler
-kulturen
-eingang
-repräsentiert
-dreiheit
-beispiel
-christentum
-dreifaltigkeit
-weiterhin
-sommer
-symbolisiert
-vierblättrige
-kleeblatt
-glücksbringer
-glücksbringer
-XX
diff --git a/compound-split/de/test.ref b/compound-split/de/test.ref
deleted file mode 100644
index 4b3c7abc..00000000
--- a/compound-split/de/test.ref
+++ /dev/null
@@ -1,302 +0,0 @@
-aktien gesellschaft
-aktie gesellschaft
-wiederaufnahme
-tonband aufnahme
-staats krise
-staat krise
-madagaskars
-präsident
-bittet
-schlagworte
-demonstration
-putsch
-macht kampf
-zwischen
-opposition
-regierungs partei
-regierung partei
-spitzt
-afrikanischen
-botschaft
-befürchtet
-bürger krieg
-mitglieder
-oppositions partei
-opposition partei
-demonstrieren
-putsch
-madagaskars
-präsidenten
-ravalomanana
-mitglieder
-oppositions partei
-opposition partei
-demonstrieren
-putsch
-madagaskars
-präsidenten
-ravalomanana
-bedrängte
-präsident
-wandte
-öffentlichen
-hilfe ruf
-anhänger
-forderte
-regierungs sitz
-regierung sitz
-schützen
-mitglieder
-präsidenten garde
-präsidenten garde
-unbestätigten
-medien berichten
-medie berichten
-begonnen
-posten
-verlassen
-augen zeugen
-auge zeugen
-berichteten
-gepanzerte
-fahrzeuge
-außen bezirken
-haupt stadt
-hauptstadt
-antananarivo
-botschafter
-marquardt
-nationalen
-fernsehen
-erklärt
-steuere
-bürger krieg
-botschaft
-familien
-mitarbeiter
-unbedingt
-benötigt
-werden
-bürger
-verlassen
-landes
-aufgefordert
-deutsche
-botschaft
-dagegen
-wollte
-absprache
-anderen
-europäischen
-vertretungen
-zunächst
-ausreise
-empfehlung
-regierung
-angeschlagenen
-staats präsidenten
-staat präsidenten
-ravalomanana
-demokratie bewegung
-selbst
-ernannten
-präsidenten
-übergangs regierung
-übergang regierung
-rajoelina
-gegenüber
-wochen
-andauernde
-erbitterte
-macht kampf
-menschen
-gekostet
-hunderte
-wurden
-verletzt
-modernisierung
-atom waffen
-umbauten
-marine
-russlands
-präsident
-medwedew
-aufrüstung
-begründung
-versuche
-präsenz
-grenzen
-landes
-verstärken
-anzeige
-moskau
-dmitrij
-medwedew
-begründet
-bebaren
-russischen
-streit kräfte
-sollten
-massiv
-gestärkt
-atom waffen arsenal
-atomwaffen arsenal
-modernisiert
-werden
-westliche
-militärbündnis
-versuche
-präsenz
-grenzen
-auszubauen
-präsident
-deshalb
-aufrüstung
-marine
-umfang
-beginne
-umfassende
-umrüstung
-heeres
-flotte
-ernstes
-konflikt potential
-infrastruktur
-kampf kraft
-streit kräfte
-strategischen
-atom waffen
-internationalen
-terrorismus
-gefechts bereitschaft
-gefecht bereitschaft
-strategischen
-atomwaffen
-militärs
-aktuellen
-haushalts probleme
-haushalt probleme
-auswirkungen
-regierung
-streit kräfte etat
-infolge
-finanz krise
-zusammengestrichen
-zusammen gestrichen
-weitere
-kürzungen
-ausgeschlossen
-medwedews
-vorgänger
-wladimir
-wiederholt
-modernisierung
-waffen arsenals
-verkündet
-umsetzung
-ankündigungen
-groß teil
-atom waffen
-sowjet zeiten
-stimmung
-streit kräften
-rahmen
-reform
-offizier korps
-verkleinert
-werden
-trifolium
-umfassende
-pflanzen gattung
-pflanze gattung
-unterfamilie
-schmetterlings blütler
-schmetterling blütler
-faboideae
-pflanzen familie
-pflanze familie
-hülsen früchtler
-hülse früchtler
-fabaceae
-gezählt
-sprach gebrauch
-allerdings
-häufig
-gattung
-bezeichnet
-sondern
-nah verwandten
-gattungen
-schnecken klee
-schnecke klee
-medicago
-stein klee
-melilotus
-taxonomisch
-entfernten
-gattung
-sauer klee
-oxalis
-charakteristische
-merkmale
-gattung
-drei fiedrige
-blätter
-viel blütige
-kopfige
-blüten stände
-blüte stände
-kontinenten
-ausnahme
-australiens
-antarktikas
-natürlich
-verbreitet
-australien
-wurden
-verschiedene
-klee arten
-menschen
-eingeführt
-landwirtschaft
-werden
-verschiedene
-klee arten
-futter pflanzen
-verwendet
-klee anbau
-europa
-nord amerika
-ökonomischer
-bedeutung
-europa
-jahrhundert
-christus
-angebaut
-fähigkeit
-symbiose
-knöllchen bakterien
-rhizobiaceae
-wurzeln
-stickstoff
-verbesserung
-boden fruchtbarkeit
-bedeutend
-klee blatt
-symbolik
-vieler
-kulturen
-eingang
-repräsentiert
-dreiheit
-beispiel
-christentum
-dreifaltigkeit
-weiterhin
-sommer
-symbolisiert
-vier blättrige
-klee blatt
-glücks bringer
-glück bringer
-XX
diff --git a/compound-split/de/train.in-ref b/compound-split/de/train.in-ref
new file mode 100644
index 00000000..80251b4a
--- /dev/null
+++ b/compound-split/de/train.in-ref
@@ -0,0 +1,2531 @@
+niederlande ||| # niederlande
+hauptstadt ||| # hauptstadt
+untersuchungsausschuss ||| ((('#',0,1),),(('untersuchung',0,1),('untersuchungs',0,1),),(('ausschuss',0,1),),)
+vielleicht ||| # vielleicht
+hochzeiten ||| # hochzeiten
+damalige ||| # damalige
+siegfried ||| # siegfried
+jaschinski ||| # jaschinski
+verdächtigenkreis ||| ((('#',0,1),),(('verdächtige',0,1),('verdächtigen',0,1),),(('kreis',0,1),),)
+staatsanwaltschaft ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('staatsanwaltschaft',0,1),),)
+damals ||| # damals
+gefeiert ||| # gefeiert
+landesbank ||| ((('#',0,1),),(('landesbank',0,2),('landes',0,1),('land',0,1),),(('bank',0,1),),)
+ungewöhnlich ||| # ungewöhnlich
+schwäbischen ||| # schwäbischen
+feldherrn ||| # feld herrn
+handelsblatt ||| ((('#',0,1),),(('handels',0,1),('handel',0,1),('handelsblatt',0,2),),(('blatt',0,1),),)
+alexander ||| # alexander
+großen ||| # großen
+promoviert ||| # promoviert
+wachstumsplänen ||| ((('#',0,1),),(('wachstums',0,1),('wachstum',0,1),),(('plänen',0,1),),)
+keinen ||| # keinen
+unausweichlichen ||| # unausweichlichen
+konsolidierung ||| # konsolidierung
+branche ||| # branche
+tragende ||| # tragende
+träumt ||| # träumt
+institut ||| # institut
+glücklicherweise ||| # glücklicherweise
+augenhöhe ||| ((('#',0,1),),(('auge',0,1),('augen',0,1),),(('höhe',0,1),),)
+deutschen ||| # deutschen
+wiederherstellung ||| # wiederherstellung
+grundstück ||| ((('#',0,1),),(('grund',0,1),('grundstück',0,2),),(('stück',0,1),),)
+ruhestand ||| # ruhestand
+widerstand ||| # widerstand
+verstrickt ||| # verstrickt
+stellen ||| # stellen
+zahlreichen ||| # zahlreichen
+versammlungsgesetz ||| ((('#',0,1),),(('versammlung',0,1),('versammlungs',0,1),),(('gesetz',0,1),),)
+verstöße ||| # verstöße
+sachbeschädigung ||| # sach beschädigung
+vereinigungen ||| # vereinigungen
+glashaus ||| # glas haus
+auenlandschaft ||| # auen landschaft
+fundament ||| # fundament
+vierhock ||| # vierhock
+idylle ||| # idylle
+plätschert ||| # plätschert
+johannes ||| # johannes
+angrenzenden ||| # angrenzenden
+sportjacke ||| # sport jacke
+mittelmeerinseln ||| # mittelmeer inseln
+stiefelförmige ||| # stiefel förmige
+wiederaufnahme ||| # wiederaufnahme
+tonbandaufnahme ||| # tonband aufnahme
+korrekturzucker ||| # korrektur zucker
+meeresspiegel ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('spiegel',0,1),),)
+gesamtausgabe ||| # gesamt ausgabe
+losfertigung ||| # los fertigung
+reichstag ||| # reichstag
+monntag ||| # monntag
+mittwoch ||| # mittwoch
+freitag ||| # freitag
+sonntag ||| # sonntag
+nachbarschaftsbeziehungen ||| ((('#',0,1),),(('nachbarschafts',0,1),('nachbarschaft',0,1),),(('beziehungen',0,1),),)
+saftbar ||| # saft bar
+produktionsprozesses ||| # produktion prozesses
+gesamtzusammenhang ||| # gesamt zusammenhang
+volkswirtschaftslehre ||| # volk wirtschaft lehre
+losverfahren ||| # los verfahren
+schifffahrt ||| # schiff fahrt
+dienstag ||| # dienstag
+donnerstag ||| # donnerstag
+samstag ||| # samstag
+sonnabend ||| # sonnabend
+mitglied ||| # mitglied
+abblendlicht ||| # abblend licht
+abbrucharbeiten ||| # abbruch arbeiten
+abergläubischen ||| # abergläubischen
+abfallbewirtschaftungshierarchie ||| # abfall bewirtschaftung hierarchie
+abfallbewirtschaftungsplänen ||| # abfall bewirtschaftung plänen
+abfertigungsgebühren ||| ((('#',0,1),),(('abfertigung',0,1),('abfertigungs',0,1),),(('gebühren',0,1),),)
+beitragsunabhängig ||| ((('#',0,1),),(('beitrag',0,1),('beitrags',0,1),),(('unabhängig',0,1),),)
+einreichungsfrist ||| ((('#',0,1),),(('einreichung',0,1),),(('frist',0,1),),)
+europaabgeordnete ||| # europa abgeordnete
+früherkennungskampagnen ||| ((('#',0,1),),(('früh',0,1),),(('erkennung',0,1),('erkennungs',0,1),),(('kampagnen',0,1),),)
+hilfsagenturen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('agenturen',0,1),),)
+hilfsinstitutionen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('institutionen',0,1),),)
+kaisergranat ||| # kaiser granat
+kalifornien ||| # kalifornien
+kampfflugzeug ||| # kampf flugzeug
+luftangriffen ||| # luft angriffen
+luftsicherheit ||| # luft sicherheit
+mithäftlingen ||| # mithäftlingen
+wartungsarbeiten ||| # wartung arbeiten
+wasseraufbereitungsanlagen ||| ((('#',0,1),),(('wasser',0,1),),(('aufbereitungs',0,1),('aufbereitung',0,1),),(('anlagen',0,1),),)
+wasserdienstleistungen ||| # wasser dienstleistungen
+weihnachtsgeschenk ||| # weihnacht geschenk
+weltarbeitsorganisation ||| # welt arbeit organisation
+zeitdruck ||| # zeit druck
+bundesagentur ||| ((('#',0,1),),(('bund',0,1),('bundes',0,1),),(('agentur',0,1),),)
+fahrstuhlschächten ||| # fahrstuhl schächten
+elektroindustrie ||| # elektro industrie
+sonderpreis ||| # sonder preis
+modellrechnung ||| # modell rechnung
+treibhauseffekt ||| # treibhaus effekt
+europatournee ||| # europa tournee
+wirtschaftskrise ||| ((('#',0,1),),(('wirtschafts',0,1),('wirtschaft',0,1),),(('krise',0,1),),)
+mittwochabend ||| # mittwoch abend
+abschiedsgala ||| ((('#',0,1),),(('abschied',0,1),('abschieds',0,1),),(('gala',0,1),),)
+betriebstag ||| # betrieb tag
+flughafen ||| # flughafen
+truthahn ||| # truthahn
+gehirnregion ||| # gehirn region
+feststellung ||| # feststellung
+thanksgiving ||| # thanks giving
+börsenhändler ||| ((('#',0,1),),(('börsen',0,1),('börse',0,1),),(('händler',0,1),),)
+risikoforschung ||| # risiko forschung
+finanzkrise ||| # finanz krise
+erkenntnis ||| # erkenntnis
+vergangenheit ||| # vergangenheit
+festtagsbratenesser ||| # festtag braten esser
+ungemütlichkeit ||| # ungemütlichkeit
+privatanlegern ||| # privat anlegern
+finanzmakler ||| # finanz makler
+immobilienfonds ||| # immobilien fonds
+wertzuwachs ||| # wert zuwachs
+marmelade ||| # marmelade
+roboterzofe ||| # roboter zofe
+heinrich ||| # heinrich
+zeitdehnung ||| # zeit dehnung
+zeitlosigkeit ||| # zeitlosigkeit
+auseinandersetzung ||| # auseinandersetzung
+immobilienfondskrise ||| ((('#',0,1),),(('immobilien',0,1),),(('fonds',0,1),('fond',0,1),),(('krise',0,1),),)
+stackelberg ||| # stackelberg
+bodenseedampfschifffahrtsgesellschaftskapitänsmütze ||| # bodensee dampf schiff fahrt gesellschaft kapitän mütze
+hamburg ||| # hamburg
+inzwischen ||| # inzwischen
+deutsche ||| # deutsche
+justiz ||| # justiz
+britische ||| # britische
+bischof ||| # bischof
+richard ||| # richard
+williamson ||| # williamson
+respektablen ||| # respektablen
+standes ||| # standes
+soutane ||| # soutane
+unfassbare ||| # unfassbare
+millionen ||| # millionen
+gaskammern ||| # gas kammern
+holocaustleugner ||| # holocaust leugner
+großansicht ||| # groß ansicht
+überraschte ||| # überraschte
+gegenfrage ||| # gegen frage
+journalisten ||| # journalisten
+fernsehsender ||| # fernseh sender
+schließlich ||| # schließlich
+revisionisten ||| # revisionisten
+dreihunderttausend ||| # drei hundert tausend
+konzentrationslagern ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lagern',0,1),),)
+schwadroniert ||| # schwadroniert
+schornsteinhöhen ||| # schornstein höhen
+touristen ||| # touristen
+auschwitz ||| # auschwitz
+birkenau ||| # birkenau
+antisemitismus ||| ((('#',0,1),),(('anti',0,1),('antisemitismus',0,2),),(('semitismus',0,1),),)
+schwedische ||| # schwedische
+interviewer ||| # interviewer
+bischof ||| # bischof
+williamson ||| # williamson
+wahrheit ||| # wahrheit
+schlecht ||| # schlecht
+interessiert ||| # interessiert
+entrückte ||| # entrückte
+deutscher ||| # deutscher
+blamiert ||| # blamiert
+katholische ||| # katholische
+ausgabe ||| # ausgabe
+skandal ||| # skandal
+interview ||| # interview
+berichtet ||| # berichtet
+bayerischen ||| # bayerischen
+zaitzhofen ||| # zaitzhofen
+fernsehen ||| # fernsehen
+regensburger ||| # regensburger
+ruckdäschel ||| # ruckdäschel
+artikel ||| # artikel
+leitete ||| # leitete
+angaben ||| # angaben
+ermittlungsverfahren ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('verfahren',0,1),),)
+verdacht ||| # verdacht
+volksverhetzung ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),),)
+inzwischen ||| # inzwischen
+rechtsanwalt ||| # rechtsanwalt
+einlassung ||| # einlassung
+behörde ||| # behörde
+geistliche ||| # geistliche
+gespräch ||| # gespräch
+ausschließlich ||| # ausschließlich
+auszustrahlen ||| # auszustrahlen
+veröffentlichung ||| # veröffentlichung
+deutschland ||| # deutschland
+deutschland ||| # deutschland
+deutschland ||| # deutschland
+deutschland ||| # deutschland
+deutschland ||| # deutschland
+exkommunikation ||| # exkommunikation
+hintergrund ||| # hintergrund
+juristischen ||| # juristischen
+volksverhetzungsparagrafen ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),('verhetzungs',0,1),),(('paragrafen',0,1),),)
+strafgesetzbuchs ||| # straf gesetz buchs
+leugnung ||| # leugnung
+strafverfolgung ||| # straf verfolgung
+hintertür ||| # hintertür
+entziehen ||| # entziehen
+inzwischen ||| # inzwischen
+einsicht ||| # einsicht
+ermittlungsakten ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('akten',0,1),),)
+ruckdäschel ||| # ruckdäschel
+überlegen ||| # überlegen
+schwedischen ||| # schwedischen
+journalisten ||| # journalisten
+hintergründen ||| # hintergründen
+absprachen ||| # absprachen
+vorfeld ||| # vorfeld
+oberstaatsanwalt ||| ((('#',0,1),),(('ober',0,1),),(('staat',0,1),('staats',0,1),('staatsanwalt',0,2),),(('anwalt',0,1),),)
+mendelssohn ||| # mendelssohn
+bartholdy ||| # bartholdy
+entstammte ||| # entstammte
+angesehenen ||| # angesehenen
+wohlhabenden ||| # wohlhabenden
+bürgerlichen ||| # bürgerlichen
+jüdischen ||| # jüdischen
+familie ||| # familie
+väterlicherseits ||| # väterlicherseits
+bedeutenden ||| # bedeutenden
+philosophen ||| # philosophen
+abraham ||| # abraham
+bankkaufmannslehre ||| ((('#',0,1),),(('bank',0,1),),(('kaufmanns',0,1),('kaufmann',0,1),),(('lehre',0,1),),)
+kompagnon ||| # kompagnon
+mutter ||| # mutter
+salomon ||| # salomon
+fabrikantenfamilie ||| # fabrikanten familie
+schwester ||| # schwester
+hensel ||| # hensel
+geschwister ||| # geschwister
+rebecca ||| # rebecca
+mathematiker ||| # mathematiker
+dirichlet ||| # dirichlet
+kinder ||| # kinder
+pfarrer ||| # pfarrer
+reformierten ||| # reformierten
+gemeinde ||| # gemeinde
+berliner ||| # berliner
+jerusalems ||| # jerusalems
+haustaufe ||| # haus taufe
+protestantisch ||| # protestantisch
+gelegenheit ||| # gelegenheit
+taufnamen ||| # tauf namen
+ludwig ||| # ludwig
+darüber ||| # darüber
+familiennamen ||| ((('#',0,1),),(('familie',0,1),('familien',0,1),),(('namen',0,1),),)
+christliche ||| # christliche
+beigefügt ||| # beigefügt
+vorbesitzers ||| # vorbesitzers
+gartens ||| # gartens
+abraham ||| # abraham
+mendelssohn ||| # mendelssohn
+konvertierten ||| # konvertierten
+christentum ||| # christentum
+kindheit ||| # kindheit
+französischen ||| # französischen
+besetzung ||| # besetzung
+familie ||| # familie
+verwitwete ||| # verwitwete
+großmutter ||| ((('#',0,1),),(('groß',0,1),('großmutter',0,2),),(('mutter',0,1),),)
+musikunterricht ||| # musik unterricht
+schülerin ||| # schülerin
+philipp ||| # philipp
+kirnbergers ||| # kirnbergers
+unmittelbaren ||| # unmittelbaren
+großtante ||| # groß tante
+tochter ||| # tochter
+finanzmanns ||| # finanzmanns
+daniel ||| # daniel
+preußischer ||| # preußischer
+friedrich ||| # friedrich
+wilhelm ||| # wilhelm
+naturalisationspatent ||| ((('#',0,1),),(('naturalisation',0,1),('naturalisations',0,1),),(('patent',0,1),),)
+vermittelte ||| # vermittelte
+tradition ||| # tradition
+gönnerin ||| # gönnerin
+lehrerin ||| # lehrerin
+vorübergehenden ||| # vorübergehenden
+aufenthalts ||| # aufenthalts
+rückkehr ||| # rückkehr
+unterricht ||| # unterricht
+komposition ||| # komposition
+ausbildung ||| # ausbildung
+schriftstellers ||| # schriftstellers
+neunjähriger ||| # neun jähriger
+klavierpart ||| # klavier part
+klaviertrio ||| # klavier trio
+altsänger ||| # alt sänger
+akademie ||| # akademie
+kirchenmusik ||| ((('#',0,1),),(('kirchen',0,1),('kirche',0,1),),(('musik',0,1),),)
+außergewöhnlicher ||| # außergewöhnlicher
+schnelligkeit ||| # schnelligkeit
+klaviersonaten ||| # klavier sonaten
+klaviertrio ||| # klavier trio
+orgelstücke ||| # orgel stücke
+dreisätzige ||| # drei sätzige
+streichersinfonien ||| # streicher sinfonien
+motetten ||| # motetten
+singspiele ||| # singspiele
+soldatenliebschaft ||| # soldaten liebschaft
+singspiels ||| # singspiels
+komödianten ||| # komödianten
+freundschaft ||| # freundschaft
+barack ||| # barack
+getappt ||| # getappt
+anstehenden ||| # anstehenden
+herkulesaufgaben ||| # herkules aufgaben
+zugleich ||| # zugleich
+blütenweiße ||| # blütenweiße
+westen ||| # westen
+regierungsgrundsätzen ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('grundsätzen',0,1),),)
+genügen ||| # genügen
+problem ||| # problem
+fachlich ||| # fachlich
+ansteckenden ||| # ansteckenden
+krankheit ||| # krankheit
+washington ||| # washington
+befallen ||| # befallen
+symptome ||| # symptome
+verquickung ||| # verquickung
+öffentlichen ||| # öffentlichen
+interessen ||| # interessen
+lobbyistenumtriebe ||| # lobbyisten umtriebe
+steuerzahlungsphobie ||| ((('#',0,1),),(('steuer',0,1),),(('zahlung',0,1),('zahlungs',0,1),),(('phobie',0,1),),)
+eigentlich ||| # eigentlich
+ausgezogen ||| # ausgezogen
+krankheit ||| # krankheit
+auszurotten ||| # auszurotten
+probleme ||| # probleme
+gewaltig ||| # gewaltig
+problembewältiger ||| # problem bewältiger
+verzichten ||| # verzichten
+ausnahmen ||| # ausnahmen
+nachsichtig ||| # nachsichtig
+nachlässig ||| # nachlässig
+nummer ||| # nummer
+verteidigungsministerium ||| ((('#',0,1),),(('verteidigung',0,1),('verteidigungs',0,1),),(('ministerium',0,1),),)
+fachmann ||| # fachmann
+rüstungslobbyist ||| ((('#',0,1),),(('rüstung',0,1),('rüstungs',0,1),),(('lobbyist',0,1),),)
+geithner ||| # geithner
+finanzminister ||| # finanz minister
+fiskus ||| # fiskus
+vorenthalten ||| # vorenthalten
+daschle ||| # daschle
+obamas ||| # obamas
+wunschkandidat ||| # wunsch kandidat
+gesundheitsministerium ||| ((('#',0,1),),(('gesundheit',0,1),('gesundheits',0,1),),(('ministerium',0,1),),)
+schuldete ||| # schuldete
+begleichung ||| # begleichung
+feststand ||| ((('#',0,1),),(('fest',0,1),('feststand',0,2),),(('stand',0,1),),)
+tatsächlich ||| # tatsächlich
+regierung ||| # regierung
+aufrücken ||| # aufrücken
+übergelaufen ||| ((('#',0,1),),(('über',0,1),('übergelaufen',0,2),),(('gelaufen',0,1),),)
+proteststurm ||| # protest sturm
+handtuch ||| ((('#',0,1),),(('hand',0,1),('handtuch',0,2),),(('tuch',0,1),),)
+konzentrationslager ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lager',0,1),),)
+entwicklungspolitik ||| ((('#',0,1),),(('entwicklung',0,1),('entwicklungs',0,1),),(('politik',0,1),),)
+zeitungsbericht ||| ((('#',0,1),),(('zeitung',0,1),('zeitungs',0,1),),(('bericht',0,1),),)
+managergehälter ||| # manager gehälter
+begrenzen ||| # begrenzen
+unternehmen ||| # unternehmen
+staatshilfen ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('hilfen',0,1),),)
+bescheidener ||| # bescheidener
+präsidenten ||| # präsidenten
+gehaltsobergrenze ||| ((('#',0,1),),(('gehalt',0,1),('gehalts',0,1),),(('ober',0,1),('obergrenze',0,2),),(('grenze',0,1),),)
+sonnensystems ||| # sonnen systems
+kreist ||| # kreist
+erdähnlicher ||| # erd ähnlicher
+planet ||| # planet
+exoplanet ||| ((('#',0,1),),(('exo',0,1),('exoplanet',0,2),),(('planet',0,1),),)
+durchbruch ||| ((('#',0,1),),(('durch',0,1),('durchbruch',0,2),),(('bruch',0,1),),)
+fremden ||| # fremden
+ulrich ||| # ulrich
+schnabel ||| # schnabel
+kulturgeschichte ||| # kultur geschichte
+milchwirtschaft ||| # milch wirtschaft
+menschen ||| # menschen
+geschäftsführung ||| ((('#',0,1),),(('geschäft',0,1),('geschäfts',0,1),),(('führung',0,1),),)
+zuständigen ||| # zuständigen
+amtsgericht ||| ((('#',0,1),),(('amt',0,1),('amts',0,1),),(('gericht',0,1),),)
+göppingen ||| # göppingen
+antrag ||| # antrag
+eröffnung ||| # eröffnung
+insolvenzverfahrens ||| # insolvenz verfahrens
+dieter ||| # dieter
+ausgewählte ||| # ausgewählte
+informationsangebote ||| ((('#',0,1),),(('information',0,1),('informations',0,1),),(('angebote',0,1),),)
+deutschen ||| # deutschen
+vereinfacht ||| # vereinfacht
+vokabelglossar ||| # vokabel glossar
+gewaltige ||| # gewaltige
+haushohe ||| # haushohe
+segler ||| # segler
+oktober ||| # oktober
+gibraltar ||| # gibraltar
+verschwand ||| # verschwand
+verfügte ||| # verfügte
+bronzekanonen ||| # bronze kanonen
+tonnen ||| # tonnen
+portugiesischer ||| # portugiesischer
+goldmünzen ||| # gold münzen
+kaufleute ||| # kauf leute
+schätzungen ||| # schätzungen
+vergangenen ||| # vergangenen
+millionen ||| # millionen
+schiffe ||| # schiffe
+meeresgrund ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('grund',0,1),),)
+unterschiedliche ||| # unterschiedliche
+wasserfahrzeuge ||| # wasser fahrzeuge
+kriegsschiffe ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('schiffe',0,1),),)
+passagierdampfer ||| # passagier dampfer
+handelsflotten ||| ((('#',0,1),),(('handel',0,1),('handels',0,1),),(('flotten',0,1),),)
+piratenboote ||| ((('#',0,1),),(('pirate',0,1),('piraten',0,1),),(('boote',0,1),),)
+tanker ||| # tanker
+großbritannien ||| # groß britannien
+ältesten ||| # ältesten
+seefahrernationen ||| ((('#',0,1),),(('see',0,1),('seefahrer',0,2),),(('fahrer',0,1),),(('nationen',0,1),),)
+auffassung ||| # auffassung
+marinehistoriker ||| # marine historiker
+irgendein ||| # irgendein
+anderes ||| # anderes
+allein ||| # allein
+havarierten ||| # havarierten
+registrierte ||| # registrierte
+schiffe ||| # schiffe
+küstennähe ||| ((('#',0,1),),(('küste',0,1),('küsten',0,1),),(('nähe',0,1),),)
+ortung ||| # ortung
+victory ||| # victory
+amerikanisches ||| # amerikanisches
+bergungsunternehmen ||| ((('#',0,1),),(('bergung',0,1),('bergungs',0,1),),(('unternehmen',0,1),),)
+wichtigsten ||| # wichtigsten
+meeresfunde ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('funde',0,1),),)
+geschichte ||| # geschichte
+entdeckern ||| # entdeckern
+historisches ||| # historisches
+kriegsboot ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('boot',0,1),),)
+jahrhundert ||| # jahrhundert
+tausend ||| # tausend
+untergegangenen ||| ((('#',0,1),),(('unter',0,1),('untergegangenen',0,2),),(('gegangenen',0,1),),)
+schiffen ||| # schiffen
+kostbarsten ||| # kostbarsten
+schätzen ||| # schätzen
+entdeckung ||| # entdeckung
+warten ||| # warten
+tauchjagd ||| # tauch jagd
+Überreste ||| # Überreste
+längst ||| # längst
+vergangener ||| # vergangener
+epochen ||| # epochen
+länder ||| # länder
+streiten ||| # streiten
+schiffsfriedhöfe ||| ((('#',0,1),),(('schiff',0,1),('schiffs',0,1),),(('friedhöfe',0,1),),)
+tauchjagd ||| # tauch jagd
+schatzjäger ||| # schatz jäger
+moderne ||| # moderne
+technik ||| # technik
+jahrhundertealte ||| # jahrhunderte alte
+wracks ||| # wracks
+geheimnisse ||| # geheimnisse
+besitzrechte ||| # besitz rechte
+wahrscheinlichkeit ||| # wahrscheinlichkeit
+minimaltemperatur ||| # minimal temperatur
+winterhalbjahr ||| ((('#',0,1),),(('winter',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),)
+celsius ||| # celsius
+durchschnittliche ||| # durchschnittliche
+sommerhalbjahr ||| ((('#',0,1),),(('sommer',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),)
+maximaltemperatur ||| # maximal temperatur
+kreuzungsversuche ||| ((('#',0,1),),(('kreuzung',0,1),('kreuzungs',0,1),),(('versuche',0,1),),)
+erbsenpflanzen ||| ((('#',0,1),),(('erbsen',0,1),('erbse',0,1),),(('pflanzen',0,1),),)
+klostergarten ||| # kloster garten
+befruchtungen ||| # befruchtungen
+zehntausende ||| # zehn tausende
+pflanzenhybriden ||| ((('#',0,1),),(('pflanze',0,1),('pflanzen',0,1),),(('hybriden',0,1),),)
+fleißaufgabe ||| ((('#',0,1),),(('fleiß',0,1),('fleißaufgabe',0,2),),(('aufgabe',0,1),),)
+ungewöhnliche ||| # ungewöhnliche
+hartnäckigkeit ||| # hartnäckigkeit
+naturforschers ||| # natur forschers
+innenminister ||| # innen minister
+verbreitete ||| # verbreitete
+falschinformationen ||| # falsch informationen
+analysen ||| # analysen
+hintergründe ||| # hintergründe
+menschen ||| # menschen
+gekostet ||| # gekostet
+hunderte ||| # hunderte
+wurden ||| # wurden
+verletzt ||| # verletzt
+containerschiff ||| # container schiff
+unfall ||| # unfall
+umweltdesaster ||| # umwelt desaster
+australien ||| # australien
+größer ||| # größer
+bisher ||| # bisher
+befürchtet ||| # befürchtet
+containerschiff ||| # container schiff
+unfall ||| # unfall
+australien ||| # australien
+deutlich ||| # deutlich
+schweröl ||| # schweröl
+zunächst ||| # zunächst
+angenommen ||| # angenommen
+freitag ||| # freitag
+schwappte ||| # schwappte
+schwarze ||| # schwarze
+flüssigkeit ||| # flüssigkeit
+strände ||| # strände
+kilometern ||| # kilometern
+kapitän ||| # kapitän
+langen ||| # langen
+pacific ||| # pacific
+adventurer ||| # adventurer
+hongkong ||| # hong kong
+verlust ||| # verlust
+zunächst ||| # zunächst
+tonnen ||| # tonnen
+angegeben ||| # angegeben
+regierungschef ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('chef',0,1),),)
+queensland ||| # queensland
+samstag ||| # samstag
+kapitän ||| # kapitän
+vortag ||| # vortag
+vertuschung ||| # vertuschung
+vorgeworfen ||| # vorgeworfen
+mittwoch ||| # mittwoch
+containerschiff ||| # container schiff
+naturreservate ||| # natur reservate
+touristenstrände ||| # touristen strände
+ostküste ||| # ost küste
+nördlich ||| # nördlich
+brisbane ||| # brisbane
+bestechungsversuch ||| ((('#',0,1),),(('bestechungs',0,1),('bestechung',0,1),),(('versuch',0,1),),)
+campingkocher ||| # camping kocher
+später ||| # später
+ermöglichte ||| # ermöglichte
+verstärkte ||| # verstärkte
+integration ||| # integration
+funktechnik ||| # funk technik
+mobiltelefone ||| # mobil telefone
+aktenkoffers ||| ((('#',0,1),),(('akten',0,1),('aktenkoffers',0,2),),(('koffers',0,1),),)
+vorstufe ||| # vorstufe
+bedrohlich ||| # bedrohlich
+anstieg ||| # anstieg
+kohlendioxids ||| ((('#',0,1),),(('kohle',0,1),('kohlen',0,1),),(('dioxids',0,1),),)
+computermodelle ||| # computer modelle
+hauptbahnhof ||| # haupt bahnhof
+hauptziel ||| # haupt ziel
+hauptunterschied ||| # haupt unterschied
+überhaupt ||| # überhaupt
+schützen ||| # schützen
+welchem ||| # welchem
+climategate ||| ((('#',0,1),),(('climate',0,1),('climategate',0,2),),(('gate',0,1),),)
+genannte ||| # genannte
+skandal ||| # skandal
+britische ||| # britische
+forschungsinstitut ||| ((('#',0,1),),(('forschung',0,1),('forschungs',0,1),),(('institut',0,1),),)
+climate ||| # climate
+research ||| # research
+folgenschwerste ||| ((('#',0,1),),(('folgenschwerste',0,2),('folgen',0,1),('folge',0,1),),(('schwerste',0,1),),)
+wissenschaftsdebatte ||| ((('#',0,1),),(('wissenschaft',0,1),('wissenschafts',0,1),),(('debatte',0,1),),)
+unserer ||| # unserer
+erneut ||| # erneut
+computerhacker ||| # computer hacker
+hatten ||| # hatten
+instituts ||| # instituts
+gestohlen ||| # gestohlen
+veröffentlicht ||| # veröffentlicht
+forscher ||| # forscher
+manipulierten ||| # manipulierten
+prognose ||| # prognose
+baldigen ||| # baldigen
+erwärmung ||| # erwärmung
+passten ||| # passten
+andersdenkende ||| # anders denkende
+wissenschaftler ||| # wissenschaftler
+wurden ||| # wurden
+gezielt ||| # gezielt
+diffamiert ||| # diffamiert
+wichtigsten ||| # wichtigsten
+datenlieferanten ||| # daten lieferanten
+weltklimarats ||| # welt klima rats
+wesentlichen ||| # wesentlichen
+fraktionen ||| # fraktionen
+debatte ||| # debatte
+herrschende ||| # herrschende
+schule ||| # schule
+vertreten ||| # vertreten
+repräsentiert ||| # repräsentiert
+mehrheit ||| # mehrheit
+wissenschaftler ||| # wissenschaftler
+führender ||| # führender
+stelle ||| # stelle
+stehen ||| # stehen
+forscher ||| # forscher
+klimamodelle ||| # klimamodelle
+entwickeln ||| # entwickeln
+computersimulationen ||| # computer simulationen
+künftige ||| # künftige
+errechnen ||| # errechnen
+sollen ||| # sollen
+hauptverantwortlichen ||| # haupt verantwortlichen
+prognostizierte ||| # prognostizierte
+erwärmung ||| # erwärmung
+menschen ||| # menschen
+zusätzlich ||| # zusätzlich
+natürlichen ||| # natürlichen
+geschehen ||| # geschehen
+verursachte ||| # verursachte
+ermittelt ||| # ermittelt
+spatenstich ||| # spaten stich
+teuersten ||| # teuersten
+kirchenneubau ||| # kirche neu bau
+ostdeutschlands ||| # ost deutschlands
+erfolgen ||| # erfolgen
+rumänien ||| # rumänien
+empört ||| # empört
+berlin ||| # berlin
+rumänische ||| # rumänische
+regierung ||| # regierung
+empört ||| # empört
+ankündigung ||| # ankündigung
+deutschlands ||| # deutschlands
+frankreichs ||| # frankreichs
+beitritt ||| # beitritt
+rumäniens ||| # rumäniens
+bulgariens ||| # bulgariens
+schengen ||| # schengen
+nicht ||| # nicht
+zuzustimmen ||| # zuzustimmen
+bukarest ||| # bukarest
+informationen ||| # informationen
+verletzung ||| # verletzung
+vertrags ||| # vertrags
+lissabon ||| # lissabon
+rumänischer ||| # rumänischer
+zollbeamter ||| ((('#',0,1),),(('zoll',0,1),('zollbeamter',0,2),),(('beamter',0,1),),)
+grenze ||| # grenze
+zwischen ||| # zwischen
+rumänien ||| # rumänien
+republik ||| # republik
+moldau ||| # moldau
+dezember ||| # dezember
+regierung ||| # regierung
+bukarest ||| # bukarest
+empört ||| # empört
+treten ||| # treten
+kontrollen ||| # kontrollen
+grenzen ||| # grenzen
+rumänien ||| # rumänien
+bulgarien ||| # bulgarien
+solange ||| # solange
+beizubehalten ||| # beizubehalten
+länder ||| # länder
+unumkehrbare ||| # unumkehrbare
+fortschritte ||| # fortschritte
+korruption ||| # korruption
+organisierte ||| # organisierte
+kriminalität ||| # kriminalität
+vorweisen ||| # vorweisen
+bukarest ||| # bukarest
+informationen ||| # informationen
+dieser ||| # dieser
+zeitung ||| # zeitung
+überlegt ||| # überlegt
+vertragsverletzung ||| ((('#',0,1),),(('vertrag',0,1),('vertrags',0,1),),(('verletzung',0,1),),)
+einzureichen ||| # einzureichen
+sollten ||| # sollten
+deutschland ||| # deutschland
+frankreich ||| # frankreich
+haltung ||| # haltung
+durchsetzen ||| # durchsetzen
+rumäniens ||| # rumäniens
+außenministerium ||| ((('#',0,1),),(('außen',0,1),),(('ministerium',0,1),),)
+spricht ||| # spricht
+unannehmbaren ||| # unannehmbaren
+präzedenzfall ||| ((('#',0,1),),(('präzedenzfall',0,2),('präzedenz',0,1),),(('fall',0,1),),)
+sondern ||| # sondern
+staatspräsident ||| ((('#',0,1),),(('staatspräsident',0,2),('staats',0,1),('staat',0,1),),(('präsident',0,1),),)
+georgi ||| # georgi
+parwanow ||| # parwanow
+verständnis ||| # verständnis
+bulgarien ||| # bulgarien
+verstehen ||| # verstehen
+auflagen ||| # auflagen
+erfüllen ||| # erfüllen
+eigentliche ||| # eigentliche
+erklärung ||| # erklärung
+verzögerung ||| # verzögerung
+mittwoch ||| # mittwoch
+haltung ||| # haltung
+hintergrund ||| # hintergrund
+streits ||| # streits
+regierung ||| # regierung
+ministerpräsident ||| ((('#',0,1),),(('minister',0,1),),(('präsident',0,1),),)
+grenzkontrollen ||| ((('#',0,1),),(('grenz',0,1),),(('kontrollen',0,1),),)
+entfallen ||| # entfallen
+zweiten ||| # zweiten
+weltkrieg ||| ((('#',0,1),),(('welt',0,1),('weltkrieg',0,2),),(('krieg',0,1),),)
+versteckte ||| # versteckte
+abwehr ||| # abwehr
+admirals ||| # admirals
+canaris ||| # canaris
+sprengsätze ||| # sprengsätze
+apfelsinenkisten ||| ((('#',0,1),),(('apfelsinen',0,1),('apfelsine',0,1),),(('kisten',0,1),),)
+britische ||| # britische
+hafenarbeiter ||| ((('#',0,1),),(('hafen',0,1),),(('arbeiter',0,1),),)
+weigerten ||| # weigerten
+schiffe ||| # schiffe
+entladen ||| # entladen
+zeiten ||| # zeiten
+griechischen ||| # griechischen
+militärdiktatur ||| ((('#',0,1),),(('militär',0,1),),(('diktatur',0,1),),)
+warnte ||| # warnte
+widerstandsgruppe ||| ((('#',0,1),),(('widerstand',0,1),('widerstands',0,1),),(('gruppe',0,1),),)
+pfirsiche ||| # pfirsiche
+aprikosen ||| # aprikosen
+vergiftet ||| # vergiftet
+kuklina ||| # kuklina
+trägerin ||| # trägerin
+alternativen ||| # alternativen
+nobelpreis ||| ((('#',0,1),),(('nobel',0,1),),(('preis',0,1),),)
+kämpft ||| # kämpft
+rechte ||| # rechte
+soldaten ||| # soldaten
+russlands ||| # russlands
+online ||| # online
+sprach ||| # sprach
+menschenrechte ||| ((('#',0,1),),(('menschen',0,1),('mensch',0,1),),(('rechte',0,1),),)
+heimat ||| # heimat
+kaufrausch ||| ((('#',0,1),),(('kauf',0,1),),(('rausch',0,1),),)
+kommerzialisierung ||| # kommerzialisierung
+weihnachten ||| # weihnachten
+funktioniert ||| # funktioniert
+zittert ||| # zittert
+wikileaks ||| # wikileaks
+verfassungsgericht ||| ((('#',0,1),),(('verfassung',0,1),('verfassungs',0,1),),(('gericht',0,1),),)
+berlusconis ||| # berlusconis
+immunität ||| # immunität
+teilweise ||| # teilweise
+zinspolitik ||| # zins politik
+trichet ||| # trichet
+inflation ||| # inflation
+eurozone ||| ((('#',0,1),),(('euro',0,1),('eurozone',0,2),),(('zone',0,1),),)
+effektive ||| # effektive
+kontrolle ||| # kontrolle
+futtermittelindustrie ||| # futtermittel industrie
+deutschland ||| # deutschland
+verspielt ||| # verspielt
+regierung ||| # regierung
+vertrauen ||| # vertrauen
+westerwelle ||| # westerwelle
+abzugsdatum ||| ((('#',0,1),),(('abzugs',0,1),('abzug',0,1),),(('datum',0,1),),)
+ghettoblaster ||| # ghetto blaster
+unserem ||| # unserem
+alltag ||| # alltag
+verschwunden ||| # verschwunden
+trotzdem ||| # trotzdem
+ikonen ||| # ikonen
+jugendkultur ||| # jugend kultur
+tatsächlich ||| # tatsächlich
+deuten ||| # deuten
+hochrechnungen ||| # hochrechnungen
+mckinsey ||| # mckinsey
+company ||| # company
+darauf ||| # darauf
+kaufkraft ||| # kauf kraft
+dieser ||| # dieser
+aufstrebenden ||| # aufstrebenden
+mittelschicht ||| # mittel schicht
+nächsten ||| # nächsten
+jahrzehnts ||| # jahrzehnts
+billionen ||| # billionen
+dollar ||| # dollar
+anwachsen ||| # anwachsen
+könnte ||| # könnte
+doppelt ||| # doppelt
+aktuellen ||| # aktuellen
+erbrauchsniveau ||| ((('#',0,1),),(('erbrauch',0,1),('erbrauchs',0,1),),(('niveau',0,1),),)
+vereinigten ||| # vereinigten
+staaten ||| # staaten
+größten ||| # größten
+schwellenländer ||| ((('#',0,1),),(('schwellen',0,1),('schwelle',0,1),),(('länder',0,1),),)
+brasilien ||| # brasilien
+russland ||| # russland
+indien ||| # indien
+frühstück ||| # frühstück
+fortschritt ||| # fortschritt
+frühstückstisch ||| ((('#',0,1),),(('frühstück',0,1),('frühstücks',0,1),),(('tisch',0,1),),)
+unserer ||| # unserer
+familie ||| # familie
+vielen ||| # vielen
+jahren ||| # jahren
+tageszeitung ||| ((('#',0,1),),(('tag',0,1),('tages',0,1),),(('zeitung',0,1),),)
+washington ||| # washington
+wahlschlacht ||| # wahl schlacht
+letzte ||| # letzte
+milliarden ||| # milliarden
+dollar ||| # dollar
+sollen ||| # sollen
+wahlkämpfer ||| # wahlkämpfer
+bislang ||| # bislang
+kampagnen ||| # kampagnen
+ausgegeben ||| # ausgegeben
+abstimmung ||| # abstimmung
+mobilisieren ||| # mobilisieren
+letzten ||| # letzten
+reserven ||| # reserven
+wähler ||| # wähler
+bekommen ||| # bekommen
+herausforderer ||| # herausforderer
+herausforederung ||| # herausforderung
+herauseforderungen ||| # herauseforderungen
+romney ||| # romney
+kündigte ||| # kündigte
+wahltag ||| # wahltag
+selbst ||| # selbst
+mehreren ||| # mehreren
+bundesstaaten ||| # bundesstaaten
+aufzutreten ||| # aufzutreten
+ursprünglich ||| # ursprünglich
+abschlussveranstaltung ||| # abschluss veranstaltung
+montagabend ||| # montag abend
+vorgesehen ||| # vorgesehen
+schließung ||| # schließung
+wahllokale ||| # wahl lokale
+stimmen ||| # stimmen
+werben ||| # werben
+sprecher ||| # sprecher
+wahlkampfteams ||| # wahlkampf teams
+pennsylvania ||| # pennsylvania
+natürlich ||| # natürlich
+schicksalstaat ||| # schicksal staat
+republikaner ||| # republikaner
+präsident ||| # präsident
+geworden ||| # geworden
+gewonnen ||| # gewonnen
+auswertung ||| # auswertung
+portals ||| # portals
+national ||| # national
+sieben ||| # sieben
+november ||| # november
+umfragen ||| # umfragen
+meistumkämpfte ||| # meist umkämpfte
+mehrheit ||| # mehrheit
+feststeht ||| # feststeht
+wahlkämpfer ||| # wahlkämpfer
+besonders ||| # besonders
+relevant ||| # relevant
+direkt ||| # direkt
+gewählt ||| # gewählt
+präsident ||| # präsident
+wahlmännergremium ||| # wahlmänner gremium
+spiegeln ||| # spiegeln
+ergebnisse ||| # ergebnisse
+einzelnen ||| # einzelnen
+bundesstaaten ||| # bundesstaaten
+präsident ||| # präsident
+letzten ||| # letzten
+seiner ||| # seiner
+kampagne ||| # kampagne
+vorgelegt ||| # vorgelegt
+rocklegende ||| # rock legende
+springsteen ||| # springsteen
+botschafter ||| # botschafter
+seiner ||| # seiner
+kampagne ||| # kampagne
+wisconsin ||| # wisconsin
+dankte ||| # dankte
+präsidenten ||| # präsidenten
+während ||| # während
+konzerts ||| # konzerts
+gesundheitsreform ||| ((('#',0.0,1),),(('gesundheits',0.0,1),('gesundheit',0.0,1),),(('reform',0.0,1),),)
+regulierung ||| # regulierung
+street ||| # street
+später ||| # später
+auftritte ||| # auftritte
+natürlich ||| # natürlich
+summen ||| # summen
+vibrieren ||| # vibrieren
+duftstoffe ||| ((('#',0.0,1),),(('duftstoffe',0.0,2),('duft',0.0,1),),(('stoffe',0.0,1),),)
+echten ||| # echten
+verströmen ||| # verströmen
+roboterbiene ||| # roboter biene
+entwickelt ||| # entwickelt
+wissenschaftlern ||| # wissenschaftlern
+freien ||| # freien
+universität ||| # universität
+berlin ||| # berlin
+künstlichen ||| # künstlichen
+insekt ||| # insekt
+wollen ||| # wollen
+forscher ||| # forscher
+futterquellen ||| # futter quellen
+lotsen ||| # lotsen
+geheimnis ||| # geheimnis
+bienentanzes ||| # biene tanzes
+entschlüsseln ||| # entschlüsseln
+klimawandel ||| # klima wandel
+empörend ||| # empörend
+ernannt ||| # ernannt
+wirtschaftliche ||| # wirtschaftliche
+offiziell ||| # offiziell
+abgefangen ||| # abgefangen
+abgehört ||| # abgehört
+abgehört ||| # abgehört
+abgeschafft ||| # abgeschafft
+abgesetzt ||| # abgesetzt
+abhängen ||| # abhängen
+abhöraktion ||| # abhör aktion
+abhörsichere ||| # abhör sichere
+abkommen ||| # abkommen
+absage ||| # absage
+abschaffung ||| # abschaffung
+affronts ||| # affronts
+agenten ||| # agenten
+aktion ||| # aktion
+aktivisten ||| # aktivisten
+aktivisten ||| # aktivisten
+alexander ||| # alexander
+alledem ||| # alledem
+allgemeine ||| # allgemeine
+amerikaner ||| # amerikaner
+amtsübergabe ||| ((('#',0,1),),(('amts',0,1),('amt',0,1),),(('übergabe',0,1),),)
+analysiert ||| # analysiert
+anderen ||| # anderen
+anderen ||| # anderen
+anderer ||| # anderer
+anderes ||| # anderes
+andernfalls ||| # andernfalls
+anders ||| # anders
+anders ||| # anders
+anfangen ||| # anfangen
+anführer ||| # anführer
+anführer ||| # anführer
+angeblich ||| # angeblich
+angeblich ||| # angeblich
+angela ||| # angela
+anklopft ||| # anklopft
+anspruch ||| # anspruch
+anspruch ||| # anspruch
+antreten ||| # antreten
+antworten ||| # antworten
+arbeitet ||| # arbeitet
+argwöhnisch ||| # argwöhnisch
+atomvertrag ||| # atom vertrag
+aufbewahrt ||| # aufbewahrt
+aufgehen ||| # aufgehen
+aufgezeichnet ||| # aufgezeichnet
+aufhören ||| # aufhören
+aufklärung ||| # aufklärung
+aufklärung ||| # aufklärung
+aufklärungsarbeit ||| ((('#',0,1),),(('aufklärungs',0,1),('aufklärung',0,1),),(('arbeit',0,1),),)
+aufzeichnete ||| # aufzeichnete
+auseinandersetzung ||| # auseinandersetzung
+ausforschungsprogramm ||| ((('#',0,1),),(('ausforschungs',0,1),('ausforschung',0,1),),(('programm',0,1),),)
+ausforschungstechniken ||| ((('#',0,1),),(('ausforschungs',0,1),('ausforschung',0,1),),(('techniken',0,1),),)
+ausgewählten ||| # ausgewählten
+auslöser ||| # auslöser
+auslöser ||| # auslöser
+ausmacht ||| # ausmacht
+ausmacht ||| # ausmacht
+ausmaß ||| # ausmaß
+ausprobieren ||| # ausprobieren
+ausprobiert ||| # ausprobiert
+ausrufezeichen ||| # ausrufezeichen
+autokrat ||| # autokrat
+autorität ||| # autorität
+außenminister ||| # außen minister
+außenministerium ||| # außen ministerium
+außenpolitischen ||| # außen politischen
+außenpolitischen ||| # außenpolitischen
+barack ||| # barack
+barmherzig ||| # barmherzig
+bedankte ||| # bedankte
+bedeutet ||| # bedeutet
+bedeutung ||| # bedeutung
+befürchtet ||| # befürchtet
+beginn ||| # beginn
+behauptet ||| # behauptet
+beiden ||| # beiden
+beides ||| # beides
+beiseiteschieben ||| # beiseite schieben
+beispielsweise ||| # beispielsweise
+bekanntwerden ||| # bekannt werden
+belauschen ||| # belauschen
+belauscht ||| # belauscht
+belege ||| # belege
+benötigt ||| # benötigt
+bereits ||| # bereits
+bericht ||| # bericht
+bericht ||| # bericht
+berichtet ||| # berichtet
+berlin ||| # berlin
+berliner ||| # berliner
+berufung ||| # berufung
+beschränkt ||| # beschränkt
+besetzen ||| # besetzen
+besetzt ||| # besetzt
+besonders ||| # besonders
+besorgt ||| # besorgt
+besser ||| # besser
+besser ||| # besser
+bestehen ||| # bestehen
+bestellt ||| # bestellt
+bestimmen ||| # bestimmen
+bestätigen ||| # bestätigen
+bestätigt ||| # bestätigt
+betrachtet ||| # betrachtet
+betritt ||| # betritt
+beunruhigend ||| # beunruhigend
+bewundern ||| # bewundern
+bewusstzuwerden ||| # bewusstzuwerden
+beziehungen ||| # beziehungen
+beäugen ||| # beäugen
+bieten ||| # bieten
+billigte ||| # billigte
+bisher ||| # bisher
+botschaft ||| # botschaft
+botschaft ||| # botschaft
+brandenburger ||| # brandenburger
+brandenburger ||| # brandenburger
+brauchen ||| # brauchen
+brauchen ||| # brauchen
+braucht ||| # braucht
+braucht ||| # braucht
+bundespräsident ||| # bundespräsident
+bundeswehr ||| # bundeswehr
+bändigen ||| # bändigen
+bürger ||| # bürger
+bürger ||| # bürger
+bürger ||| # bürger
+bürger ||| # bürger
+bürger ||| # bürger
+bürger ||| # bürger
+bürger ||| # bürger
+bürgerkrieg ||| # bürger krieg
+bürgerlichen ||| # bürgerlichen
+bürgerrechte ||| # bürger rechte
+bürgerrechte ||| # bürger rechte
+bürgerrechten ||| # bürger rechten
+channel ||| # channel
+chefin ||| # chefin
+chinesen ||| # chinesen
+chodorkowski ||| # chodorkowski
+chodorkowski ||| # chodorkowski
+chodorkowski ||| # chodorkowski
+chodorkowski ||| # chodorkowski
+dachte ||| # dachte
+damals ||| # damals
+damals ||| # damals
+damals ||| # damals
+danach ||| # danach
+danach ||| # danach
+darauf ||| # darauf
+darauf ||| # darauf
+darauf ||| # darauf
+dauern ||| # dauern
+definitionen ||| # definitionen
+demnach ||| # demnach
+demokratie ||| # demokratie
+demokratische ||| # demokratische
+demokratische ||| # demokratische
+demokratischen ||| # demokratischen
+denken ||| # denken
+derweil ||| # derweil
+derzeit ||| # derzeit
+deshalb ||| # deshalb
+dessen ||| # dessen
+dessen ||| # dessen
+deutsche ||| # deutsche
+deutschen ||| # deutschen
+deutscher ||| # deutscher
+dezentralisiert ||| # dezentralisiert
+diesem ||| # diesem
+diesem ||| # diesem
+diesem ||| # diesem
+diesem ||| # diesem
+diesen ||| # diesen
+diesen ||| # diesen
+dieser ||| # dieser
+dieser ||| # dieser
+dieser ||| # dieser
+dimension ||| # dimension
+direkt ||| # direkt
+direkt ||| # direkt
+dossier ||| # dossier
+dreckiges ||| # dreckiges
+dringlichkeit ||| # dringlichkeit
+drucken ||| # drucken
+drängen ||| # drängen
+durcheinander ||| # durcheinander
+edward ||| # edward
+edward ||| # edward
+edward ||| # edward
+edward ||| # edward
+edward ||| # edward
+edward ||| # edward
+edward ||| # edward
+edward ||| # edward
+eigenes ||| # eigenes
+eindrückliche ||| # eindrückliche
+eindrücklichen ||| # eindrücklichen
+einfach ||| # einfach
+einfach ||| # einfach
+eingeräumt ||| # eingeräumt
+einmal ||| # einmal
+einschnitt ||| # einschnitt
+einsichten ||| # einsichten
+einzelnen ||| # einzelnen
+element ||| # element
+element ||| # element
+elemente ||| # elemente
+eltern ||| # eltern
+eltern ||| # eltern
+empfangen ||| # empfangen
+endgültig ||| # endgültig
+englischen ||| # englischen
+englischen ||| # englischen
+enthüllungen ||| # enthüllungen
+enthüllungen ||| # enthüllungen
+entlässt ||| # entlässt
+entmachtet ||| # entmachtet
+entscheiden ||| # entscheiden
+entscheidende ||| # entscheidende
+entscheidet ||| # entscheidet
+entscheidungen ||| # entscheidungen
+entstanden ||| # entstanden
+entstehen ||| # entstehen
+entwickeln ||| # entwickeln
+entwickeln ||| # entwickeln
+entwickeln ||| # entwickeln
+episode ||| # episode
+epochalen ||| # epochalen
+erfahren ||| # erfahren
+erfolgsgeschichten ||| ((('#',0,1),),(('erfolgs',0,1),('erfolg',0,1),),(('geschichten',0,1),),)
+erfolgsgeschichten ||| ((('#',0,1),),(('erfolgs',0,1),('erfolg',0,1),),(('geschichten',0,1),),)
+ergebnissen ||| # ergebnissen
+erhalten ||| # erhalten
+erhielt ||| # erhielt
+erinnern ||| # erinnern
+erkenntnisse ||| # erkenntnisse
+erneut ||| # erneut
+ernstfall ||| # ernstfall
+erscheint ||| # erscheint
+ersetzt ||| # ersetzt
+erstickt ||| # erstickt
+erstmals ||| # erstmals
+erwachsen ||| # erwachsen
+erweitert ||| # erweitert
+europäer ||| # europäer
+ewigen ||| # ewigen
+existiert ||| # existiert
+februar ||| # februar
+februar ||| # februar
+fehler ||| # fehler
+felder ||| # felder
+fernsehen ||| # fernsehen
+festgehalten ||| # festgehalten
+festnetzanschluss ||| # festnetzanschluss
+festnetzanschluss ||| # festnetzanschluss
+finden ||| # finden
+finden ||| # finden
+fliehen ||| # fliehen
+forbes ||| # forbes
+frankfurter ||| # frankfurter
+freien ||| # freien
+freiheit ||| # freiheit
+freiheit ||| # freiheit
+freiheit ||| # freiheit
+freiheiten ||| # freiheiten
+freilassung ||| # freilassung
+freilassung ||| # freilassung
+freilich ||| # freilich
+freiräume ||| # freiräume
+freundschaftlichen ||| # freundschaftlichen
+funktionieren ||| # funktionieren
+fußball ||| # fußball
+führer ||| # führer
+führten ||| # führten
+gaucks ||| # gaucks
+geachtet ||| # geachtet
+gearbeitet ||| # gearbeitet
+geborenes ||| # geborenes
+gedanken ||| # gedanken
+geeint ||| # geeint
+gefahr ||| # gefahr
+gefangenen ||| # gefangenen
+gefragt ||| # gefragt
+gefragt ||| # gefragt
+gefängnisse ||| # gefängnisse
+geführt ||| # geführt
+gegeneinander ||| # gegeneinander
+gegenleistung ||| # gegenleistung
+gegenteil ||| # gegenteil
+gegenüber ||| # gegenüber
+gehalten ||| # gehalten
+dienstleistung ||| # dienstleistung
+dienstleistungen ||| # dienstleistungen
+geheimdienst ||| # geheim dienst
+geheimdienste ||| # geheim dienste
+geheimdienstes ||| # geheim dienstes
+geheimdienstkreise ||| # geheim dienst kreise
+geheimdiensttruppe ||| # geheim dienst truppe
+geheimdienstzentrale ||| # geheim dienst zentrale
+geheime ||| # geheime
+geheimoperation ||| # geheim operation
+gehört ||| # gehört
+geknackt ||| # geknackt
+geknackt ||| # geknackt
+gemacht ||| # gemacht
+genfer ||| # genfer
+genutzt ||| # genutzt
+geordnet ||| # geordnet
+george ||| # george
+gerhard ||| # gerhard
+gerichten ||| # gerichten
+gesammelt ||| # gesammelt
+geschäftsleute ||| # geschäft leute
+gesellschaft ||| # gesellschaft
+gesellschaft ||| # gesellschaft
+gesellschaft ||| # gesellschaft
+gesellschaftliche ||| # gesellschaftliche
+gesellschaftssystem ||| # gesellschaft system
+gesetze ||| # gesetze
+gesicherten ||| # gesicherten
+gespräch ||| # gespräch
+gestartet ||| # gestartet
+gestellt ||| # gestellt
+gestoppt ||| # gestoppt
+gestoppt ||| # gestoppt
+gewaltig ||| # gewaltig
+gewehrt ||| # gewehrt
+gewesen ||| # gewesen
+gewesen ||| # gewesen
+gewusst ||| # gewusst
+gewählt ||| # gewählt
+gewährte ||| # gewährte
+geändert ||| # geändert
+gingen ||| # gingen
+gingen ||| # gingen
+glauben ||| # glauben
+gleichziehen ||| # gleichziehen
+gnädig ||| # gnädig
+greenpeace ||| # greenpeace
+greenpeace ||| # greenpeace
+greift ||| # greift
+grimmig ||| # grimmig
+gründen ||| # gründen
+gründete ||| # gründete
+gudkow ||| # gudkow
+gudkow ||| # gudkow
+gudkow ||| # gudkow
+gudkow ||| # gudkow
+halten ||| # halten
+halten ||| # halten
+helfen ||| # helfen
+herauszufinden ||| # herauszufinden
+hinaus ||| # hinaus
+hindurch ||| # hindurch
+hingewiesen ||| # hingewiesen
+hinschauen ||| # hinschauen
+hinzufügen ||| # hinzufügen
+hochrangiger ||| # hochrangiger
+hochrangiger ||| # hochrangiger
+hätten ||| # hätten
+images ||| # images
+indirekt ||| # indirekt
+informationen ||| # informationen
+informationen ||| # informationen
+informationen ||| # informationen
+informationen ||| # informationen
+informiert ||| # informiert
+inhalt ||| # inhalt
+innenpolitisch ||| # innen politisch
+insgesamt ||| # insgesamt
+institut ||| # institut
+instituts ||| # instituts
+interesse ||| # interesse
+internat ||| # internat
+intervention ||| # intervention
+irgendwohin ||| # irgendwohin
+jahren ||| # jahren
+jahrtausends ||| # jahrtausends
+jahrzehnte ||| # jahrzehnte
+januar ||| # januar
+jedenfalls ||| # jedenfalls
+jedenfalls ||| # jedenfalls
+jelzin ||| # jelzin
+jeweiligen ||| # jeweiligen
+joachim ||| # joachim
+jährlich ||| # jährlich
+jüngste ||| # jüngste
+kampfzone ||| # kampf zone
+kandidaten ||| # kandidaten
+kannten ||| # kannten
+kanzler ||| # kanzler
+kanzleramt ||| # kanzleramt
+kanzleramt ||| # kanzleramt
+kanzlerin ||| # kanzlerin
+kanzlerin ||| # kanzlerin
+kanzlerin ||| # kanzlerin
+kanzlers ||| # kanzlers
+kanzlers ||| # kanzlers
+katastrophal ||| # katastrophal
+keinen ||| # keinen
+kinder ||| # kinder
+kinder ||| # kinder
+kleine ||| # kleine
+knackten ||| # knackten
+knalliges ||| # knalliges
+kommen ||| # kommen
+kommen ||| # kommen
+kommen ||| # kommen
+konnte ||| # konnte
+konnte ||| # konnte
+konnten ||| # konnten
+konsultation ||| # konsultation
+kontrollieren ||| # kontrollieren
+kontrollorgane ||| # kontroll organe
+korruption ||| # korruption
+kremls ||| # kremls
+kritiker ||| # kritiker
+kritiker ||| # kritiker
+kritiker ||| # kritiker
+kritiker ||| # kritiker
+kunstgriffen ||| # kunst griffen
+kurzum ||| # kurzum
+kämpfer ||| # kämpfer
+können ||| # können
+können ||| # können
+können ||| # können
+können ||| # können
+können ||| # können
+könnte ||| # könnte
+könnten ||| # könnten
+könnten ||| # könnten
+kümmert ||| # kümmert
+kürzlich ||| # kürzlich
+landbevölkerung ||| # land bevölkerung
+landes ||| # landes
+lassen ||| # lassen
+lassen ||| # lassen
+laufen ||| # laufen
+lausch ||| # lausch
+lauschaktivitäten ||| # lausch aktivitäten
+lauschangriff ||| # lausch angriff
+lauschangriff ||| # lausch angriff
+lediglich ||| # lediglich
+leiter ||| # leiter
+letzteren ||| # letzteren
+lewada ||| # lewada
+lewada ||| # lewada
+lieber ||| # lieber
+machen ||| # machen
+machen ||| # machen
+machen ||| # machen
+mannes ||| # mannes
+markiert ||| # markiert
+marktwirtschaft ||| # markt wirtschaft
+massenüberwachung ||| ((('#',0,1),),(('massen',0,1),('masse',0,1),),(('überwachung',0,1),),)
+massenüberwachung ||| ((('#',0,1),),(('massen',0,1),('masse',0,1),),(('überwachung',0,1),),)
+medien ||| # medien
+medien ||| # medien
+meinungsforscher ||| # meinung forscher
+meinungsforschungsinstitut ||| # meinung forschung institut
+meinungsforschungsinstituts ||| # meinung forschung instituts
+meiste ||| # meiste
+meisten ||| # meisten
+menschen ||| # menschen
+menschen ||| # menschen
+menschen ||| # menschen
+menschen ||| # menschen
+menschen ||| # menschen
+menschlichkeit ||| # menschlichkeit
+menschsein ||| # menschsein
+menschsein ||| ((('#',0,1),),(('menschsein',0,2),('mensch',0,1),),(('sein',0,1),),)
+merkel ||| # merkel
+merkel ||| # merkel
+merkel ||| # merkel
+merkel ||| # merkel
+merkel ||| # merkel
+merkel ||| # merkel
+merkel ||| # merkel
+merkel ||| # merkel
+merkel ||| # merkel
+michail ||| # michail
+militärintervention ||| # militär intervention
+milliardenkredit ||| # milliarden kredit
+mitarbeiter ||| # mitarbeiter
+mitarbeiter ||| # mitarbeiter
+mitarbeitern ||| # mitarbeitern
+mitarbeiters ||| # mitarbeiters
+mitglieder ||| # mitglieder
+mithalten ||| # mithalten
+mittags ||| # mittags
+mitteilen ||| # mitteilen
+mittwoch ||| # mittwoch
+modernster ||| # modernster
+moment ||| # moment
+moskau ||| # moskau
+musste ||| # musste
+mächtige ||| # mächtige
+mächtigste ||| # mächtigste
+mögliche ||| # mögliche
+möglicher ||| # möglicher
+müssen ||| # müssen
+müssen ||| # müssen
+nachdem ||| # nachdem
+nachrichten ||| # nachrichten
+nannte ||| # nannte
+natürlich ||| # natürlich
+nebenbei ||| # nebenbei
+nehmen ||| # nehmen
+neuesten ||| # neuesten
+neunzigern ||| # neunzigern
+neunzigern ||| # neunzigern
+nichts ||| # nichts
+nichts ||| # nichts
+nichts ||| # nichts
+nichts ||| # nichts
+nichtstaatliche ||| # nicht staatliche
+niemand ||| # niemand
+nominiert ||| # nominiert
+notlage ||| # notlage
+nutzen ||| # nutzen
+nötige ||| # nötige
+obamas ||| # obamas
+oligarchen ||| # oligarchen
+olympischen ||| # olympischen
+olympischen ||| # olympischen
+olympischen ||| # olympischen
+online ||| # online
+operation ||| # operation
+optimistisch ||| # optimistisch
+organisatoren ||| # organisatoren
+parlamentarismus ||| # parlamentarismus
+parlamenten ||| # parlamenten
+partei ||| # partei
+passiert ||| # passiert
+persönlich ||| # persönlich
+plötzlich ||| # plötzlich
+politik ||| # politik
+politiker ||| # politiker
+politisch ||| # politisch
+politische ||| # politische
+politischen ||| # politischen
+politischen ||| # politischen
+polizei ||| # polizei
+positionen ||| # positionen
+positives ||| # positives
+postsowjetischen ||| # post sowjetischen
+potenzielle ||| # potenzielle
+prekären ||| # prekären
+pressekonferenz ||| # presse konferenz
+prinzip ||| # prinzip
+privaten ||| # privaten
+privatheit ||| # privatheit
+privatheit ||| # privatheit
+privatleben ||| # privat leben
+privatleben ||| # privat leben
+problem ||| # problem
+profilseite ||| # profil seite
+prozent ||| # prozent
+prozent ||| # prozent
+präsident ||| # präsident
+präsident ||| # präsident
+präsident ||| # präsident
+präsident ||| # präsident
+präsident ||| # präsident
+präsidenten ||| # präsidenten
+präsidenten ||| # präsidenten
+präsidenten ||| # präsidenten
+präsidenten ||| # präsidenten
+präsidenten ||| # präsidenten
+präsidenten ||| # präsidenten
+präsidenten ||| # präsidenten
+pubertät ||| # pubertät
+punksängerinnen ||| # punk sängerinnen
+putins ||| # putins
+quellennennung ||| # quelle nennung
+radikal ||| # radikal
+reformen ||| # reformen
+regierung ||| # regierung
+regierung ||| # regierung
+regierung ||| # regierung
+regierungschefs ||| # regierung chefs
+regionen ||| # regionen
+reisepläne ||| # reisepläne
+rezitierte ||| # rezitierte
+richter ||| # richter
+riesigen ||| # riesigen
+russen ||| # russen
+russen ||| # russen
+russen ||| # russen
+russen ||| # russen
+russische ||| # russische
+russische ||| # russische
+russischen ||| # russischen
+russischen ||| # russischen
+russland ||| # russland
+russland ||| # russland
+russland ||| # russland
+russland ||| # russland
+russland ||| # russland
+russland ||| # russland
+russland ||| # russland
+russlands ||| # russlands
+russlands ||| # russlands
+schafft ||| # schafft
+schaut ||| # schaut
+schenkt ||| # schenkt
+schließen ||| # schließen
+schlimm ||| # schlimm
+schlüsselstellen ||| # schlüssel stellen
+schmiergelder ||| # schmier gelder
+schrecken ||| # schrecken
+schreibt ||| # schreibt
+schrie ||| # schrie
+schrieb ||| # schrieb
+schritt ||| # schritt
+schritte ||| # schritte
+schröder ||| # schröder
+schröder ||| # schröder
+schröder ||| # schröder
+schröders ||| # schröders
+schwarzen ||| # schwarzen
+schweigen ||| # schweigen
+schützen ||| # schützen
+seinen ||| # seinen
+seinen ||| # seinen
+seiner ||| # seiner
+seiner ||| # seiner
+selbst ||| # selbst
+selbst ||| # selbst
+selbst ||| # selbst
+selbst ||| # selbst
+selbst ||| # selbst
+selbst ||| # selbst
+selbstbewusstseins ||| # selbstbewusstseins
+selten ||| # selten
+setzte ||| # setzte
+sicherheit ||| # sicherheit
+sicherung ||| # sicherung
+snowden ||| # snowden
+snowden ||| # snowden
+snowden ||| # snowden
+snowden ||| # snowden
+snowden ||| # snowden
+snowden ||| # snowden
+snowden ||| # snowden
+snowden ||| # snowden
+snowdens ||| # snowdens
+snowdens ||| # snowdens
+snowdens ||| # snowdens
+snowdens ||| # snowdens
+sofort ||| # sofort
+solche ||| # solche
+sommer ||| # sommer
+sommerurlaubsort ||| # sommer urlaub ort
+sondern ||| # sondern
+sondern ||| # sondern
+sondern ||| # sondern
+sonntag ||| # sonntag
+sonntag ||| # sonntag
+sonntagszeitung ||| # sonntag zeitung
+sotschi ||| # sotschi
+sotschi ||| # sotschi
+sotschi ||| # sotschi
+sowjetunion ||| # sowjet union
+spektakel ||| # spektakel
+sperre ||| # sperre
+spezialisten ||| # spezialisten
+spezialisten ||| # spezialisten
+spiegel ||| # spiegel
+spiele ||| # spiele
+spielen ||| # spielen
+spielen ||| # spielen
+spione ||| # spione
+sportereignisse ||| # sport ereignisse
+sportliche ||| # sportliche
+spreche ||| # spreche
+spricht ||| # spricht
+spräche ||| # spräche
+später ||| # später
+später ||| # später
+staaten ||| # staaten
+staatsaufträgen ||| # staat aufträgen
+staatsgewalt ||| ((('#',0,1),),(('staats',0,1),('staat',0,1),),(('gewalt',0,1),),)
+stabilisiert ||| # stabilisiert
+stagniert ||| # stagniert
+starken ||| # starken
+starken ||| # starken
+starker ||| # starker
+starker ||| # starker
+starker ||| # starker
+starten ||| # starten
+stationiert ||| # stationiert
+status ||| # status
+stehen ||| # stehen
+steinmeier ||| # steinmeier
+steinmeier ||| # steinmeier
+steinmeiers ||| # steinmeiers
+straflager ||| # straflager
+ständig ||| # ständig
+stärkt ||| # stärkt
+stärkung ||| # stärkung
+syrischen ||| # syrischen
+system ||| # system
+system ||| # system
+system ||| # system
+system ||| # system
+sämtliche ||| # sämtliche
+sängerinnen ||| # sängerinnen
+sängerinnen ||| # sängerinnen
+sätzen ||| # sätzen
+technik ||| # technik
+teilnahme ||| # teilnahme
+telefonat ||| # telefonat
+telefongespräche ||| # telefon gespräche
+themas ||| # themas
+tragen ||| # tragen
+transparenz ||| # transparenz
+trauen ||| # trauen
+traute ||| # traute
+ukraine ||| # ukraine
+ukraine ||| # ukraine
+umfassendes ||| # umfassendes
+umgang ||| # umgang
+umweltschützer ||| # umwelt schützer
+unabhängige ||| # unabhängige
+unabhängigen ||| # unabhängigen
+unbeobachteten ||| # unbeobachteten
+unmenschlicher ||| # unmenschlicher
+unseren ||| # unseren
+unserer ||| # unserer
+unserer ||| # unserer
+unserer ||| # unserer
+unserer ||| # unserer
+unternehmen ||| # unternehmen
+unterordnen ||| # unterordnen
+unterstützen ||| # unterstützen
+unterstützung ||| # unterstützung
+untersuchten ||| # untersuchten
+verbrachte ||| # verbrachte
+verfahren ||| # verfahren
+vergangenheit ||| # vergangenheit
+vergessene ||| # vergessene
+vergünstigungen ||| # vergünstigungen
+verhinderte ||| # verhinderte
+verhängnisvoller ||| # verhängnisvoller
+verkündet ||| # verkündet
+verlangen ||| # verlangen
+verlassen ||| # verlassen
+verloren ||| # verloren
+vernichtet ||| # vernichtet
+vernichtung ||| # vernichtung
+versichert ||| # versichert
+verspielen ||| # verspielen
+verspielen ||| # verspielen
+verstärkt ||| # verstärkt
+versuchen ||| # versuchen
+vertrauen ||| # vertrauen
+vertraut ||| # vertraut
+vertrauten ||| # vertrauten
+verträglichkeit ||| # verträglichkeit
+verwendet ||| # verwendet
+veränderungen ||| # veränderungen
+veränderungen ||| # veränderungen
+vielen ||| # vielen
+vierten ||| # vierten
+visier ||| # visier
+vollends ||| # vollends
+vorbeischauen ||| # vorbeischauen
+vorgänger ||| # vorgänger
+vorrangig ||| # vorrangig
+vorrecht ||| # vorrecht
+vorstellen ||| # vorstellen
+vorwerfen ||| # vorwerfen
+vorwürfe ||| # vorwürfe
+vorzeitig ||| # vorzeitig
+wahlerfolg ||| # wahlerfolg
+wahljahr ||| # wahljahr
+walter ||| # walter
+washington ||| # washington
+weihnachten ||| # weihnachten
+weihnachtsansprache ||| ((('#',0,1),),(('weihnachts',0,1),('weihnacht',0,1),),(('ansprache',0,1),),)
+weihnachtsbotschaft ||| ((('#',0,1),),(('weihnachts',0,1),('weihnacht',0,1),),(('botschaft',0,1),),)
+weiter ||| # weiter
+weiter ||| # weiter
+weiter ||| # weiter
+weiter ||| # weiter
+weiterarbeiten ||| # weiterarbeiten
+weitere ||| # weitere
+weißen ||| # weißen
+weltöffentlichkeit ||| # welt öffentlichkeit
+wenige ||| # wenige
+wenigen ||| # wenigen
+weniger ||| # weniger
+werden ||| # werden
+werden ||| # werden
+werden ||| # werden
+werden ||| # werden
+werden ||| # werden
+werden ||| # werden
+werden ||| # werden
+werden ||| # werden
+wesentliches ||| # wesentliches
+wesentliches ||| # wesentliches
+westerwelle ||| # westerwelle
+whistleblower ||| ((('#',0,1),),(('whistleblower',0,2),('whistle',0,1),),(('blower',0,1),),)
+wichtig ||| # wichtig
+wichtige ||| # wichtige
+wichtigsten ||| # wichtigsten
+widmann ||| # widmann
+wieder ||| # wieder
+wieder ||| # wieder
+wieder ||| # wieder
+wieder ||| # wieder
+winterspiele ||| # winter spiele
+wirken ||| # wirken
+wirtschaftlich ||| # wirtschaftlich
+wissen ||| # wissen
+wissen ||| # wissen
+wissen ||| # wissen
+wissen ||| # wissen
+wladimir ||| # wladimir
+wladimir ||| # wladimir
+wladimir ||| # wladimir
+wladimir ||| # wladimir
+wohlstand ||| # wohlstand
+wollen ||| # wollen
+wollen ||| # wollen
+wollen ||| # wollen
+wollen ||| # wollen
+wollen ||| # wollen
+wollte ||| # wollte
+wollten ||| # wollten
+worden ||| # worden
+worden ||| # worden
+worden ||| # worden
+wurden ||| # wurden
+wurden ||| # wurden
+wusste ||| # wusste
+wussten ||| # wussten
+wählen ||| # wählen
+während ||| # während
+würden ||| # würden
+wüssten ||| # wüssten
+zeitung ||| # zeitung
+zerfall ||| # zerfall
+zimmer ||| # zimmer
+zimmer ||| # zimmer
+zitiert ||| # zitiert
+zitierte ||| # zitierte
+zivilgesellschaft ||| # zivil gesellschaft
+zuflucht ||| # zuflucht
+zufolge ||| # zufolge
+zufolge ||| # zufolge
+zunächst ||| # zunächst
+zustand ||| # zustand
+zweiminütigen ||| ((('#',0,1),),(('zweiminütigen',0,2),('zwei',0,1),),(('minütigen',0,1),),)
+zweiten ||| # zweiten
+zwischen ||| # zwischen
+ähnlich ||| # ähnlich
+ändern ||| # ändern
+änderte ||| # änderte
+ökonomische ||| # ökonomische
+überhaupt ||| # überhaupt
+überstehen ||| # überstehen
+überwachung ||| # überwachung
+überwachungstechniken ||| ((('#',0,1),),(('überwachungs',0,1),('überwachung',0,1),),(('techniken',0,1),),)
+üblich ||| # üblich
+cyberbullying ||| ((('#',0,1),),(('cyberbullying',0,2),('cyber',0,1),),(('bullying',0,1),),)
+erklärt ||| # erklärt
+chinesischen ||| # chinesischen
+behörden ||| # behörden
+keiner ||| # keiner
+schuld ||| # schuld
+bewusst ||| # bewusst
+verbietet ||| # verbietet
+anderer ||| # anderer
+propheten ||| # propheten
+mohammed ||| # mohammed
+gesandten ||| # gesandten
+beleidigen ||| # beleidigen
+verleumden ||| # verleumden
+tatsächlich ||| # tatsächlich
+gewinnt ||| # gewinnt
+westjordanland ||| # west jordanland
+rivalisierenden ||| # rivalisierenden
+gemäßigten ||| # gemäßigten
+palästinensergruppe ||| # palästinens ergruppe
+kontrolliert ||| # kontrolliert
+meinen ||| # meinen
+wallten ||| # wallten
+tränen ||| # tränen
+machen ||| # machen
+ancelotti ||| # ancelotti
+eingeführte ||| # eingeführte
+konkurrenz ||| # konkurrenz
+zunutze ||| # zunutze
+sieben ||| # sieben
+jahren ||| # jahren
+kämpft ||| # kämpft
+konzern ||| # konzern
+chinesischen ||| # chinesischen
+plagiator ||| # plagiator
+derzeit ||| # derzeit
+mindestlohn ||| # mindestlohn
+föderaler ||| # föderaler
+yorker ||| # yorker
+gesetzgebung ||| # gesetzgebung
+dollar ||| # dollar
+stunde ||| # stunde
+imbongi ||| # imbongi
+bedeutet ||| # bedeutet
+geschichtenerzähler ||| # geschichte erzähler
+lobpreiser ||| # lob preiser
+polizei ||| # polizei
+weiterhin ||| # weiterhin
+städtische ||| # städtische
+vorgaben ||| # vorgaben
+regulierung ||| # regulierung
+anbauern ||| # anbauern
+medizinischem ||| # medizinischem
+marihuana ||| # marihuana
+durchsetzen ||| # durchsetzen
+drogenhändler ||| # drogen händler
+weiterhin ||| # weiterhin
+verfolgt ||| # verfolgt
+würden ||| # würden
+beleidigung ||| # beleidigung
+geahndet ||| # geahndet
+werden ||| # werden
+bleibt ||| # bleibt
+unklar ||| # unklar
+ungebildet ||| # ungebildet
+schließlich ||| # schließlich
+eintritt ||| # eintritt
+kostet ||| # kostet
+kinder ||| # kinder
+jahren ||| # jahren
+kostenlos ||| # kostenlos
+karten ||| # karten
+vorverkauf ||| # vorverkauf
+bohemiaticket ||| # bohemia ticket
+erhältlich ||| # erhältlich
+berufungsgericht ||| # berufung gericht
+berücksichtigt ||| # berücksichtigt
+schnee ||| # schnee
+spektakuläre ||| # spektakuläre
+landschaften ||| # landschaften
+diesen ||| # diesen
+hartnäckigen ||| # hartnäckigen
+geruch ||| # geruch
+einfach ||| # einfach
+verschwinden ||| # verschwinden
+walmart ||| # walmart
+verkauft ||| # verkauft
+produkte ||| # produkte
+windeln ||| # windeln
+jagdgewehre ||| # jagdgewehre
+autobatterien ||| # auto batterien
+staubsaugern ||| # staub saugern
+einige ||| # einige
+personen ||| # personen
+langweilen ||| # langweilen
+leichter ||| # leichter
+andere ||| # andere
+pragmatische ||| # pragmatische
+präsident ||| # präsident
+barack ||| # barack
+zusammentat ||| # zusammentat
+waffenstillstand ||| # waffen stillstand
+erreichen ||| # erreichen
+könnte ||| # könnte
+verheißungsvolles ||| # verheißungs volles
+zeichen ||| # zeichen
+vielleicht ||| # vielleicht
+beginn ||| # beginn
+symbolisieren ||| # symbolisieren
+staatsanwaltschaft ||| # staat anwaltschaft
+freitag ||| # freitag
+versucht ||| # versucht
+festzustellen ||| # festzustellen
+armeegefreite ||| # armee gefreite
+bradley ||| # bradley
+manning ||| # manning
+angeklagt ||| # angeklagt
+größte ||| # größte
+enthüllung ||| # enthüllung
+vertraulicher ||| # vertraulicher
+informationen ||| # informationen
+amerikanischen ||| # amerikanischen
+geschichte ||| # geschichte
+mehrere ||| # mehrere
+gelegenheiten ||| # gelegenheiten
+versäumte ||| # versäumte
+angeblich ||| # angeblich
+erlittene ||| # erlittene
+misshandlung ||| # misshandlung
+militärhaft ||| # militärhaft
+beschweren ||| # beschweren
+glaube ||| # glaube
+dieses ||| # dieses
+richtige ||| # richtige
+ebenfalls ||| # ebenfalls
+diesem ||| # diesem
+gesetz ||| # gesetz
+ausgenommen ||| # ausgenommen
+personen ||| # personen
+ausbildungszeugnisse ||| # ausbildung zeugnisse
+diplome ||| # diplome
+zerfall ||| # zerfall
+erhalten ||| # erhalten
+wütend ||| # wütend
+diesen ||| # diesen
+forcierten ||| # forcierten
+verfassungsprozess ||| # verfassung prozess
+eigentlich ||| # eigentlich
+februar ||| # februar
+gesellschaftlichen ||| # gesellschaftlichen
+kräfte ||| # kräfte
+einbinden ||| # einbinden
+sollen ||| # sollen
+verruf ||| # verruf
+gebracht ||| # gebracht
+meisten ||| # meisten
+selbst ||| # selbst
+kämpfen ||| # kämpfen
+beteiligt ||| # beteiligt
+meinem ||| # meinem
+erzählte ||| # erzählte
+oxford ||| # oxford
+hasste ||| # hasste
+zufrieden ||| # zufrieden
+russischen ||| # russischen
+behörden ||| # behörden
+probleme ||| # probleme
+anziehung ||| # anziehung
+schrauben ||| # schrauben
+bekämpfen ||| # bekämpfen
+wollen ||| # wollen
+danach ||| # danach
+sendete ||| # sendete
+präsidentenamt ||| # präsidenten amt
+medien ||| # medien
+abschlusserklärung ||| # abschluss erklärung
+gipfeltreffens ||| # gipfel treffens
+erklärung ||| # erklärung
+humala ||| # humala
+handelte ||| # handelte
+offizielle ||| # offizielle
+dokument ||| # dokument
+abschluss ||| # abschluss
+gipfeltreffens ||| # gipfel treffens
+doppelt ||| # doppelt
+kosten ||| # kosten
+offiziellen ||| # offiziellen
+dieser ||| # dieser
+kostet ||| # kostet
+arbeitsmigranten ||| # arbeit migranten
+dreitausend ||| # dreitausend
+selbst ||| # selbst
+kommunistischen ||| # kommunistischen
+freunde ||| # freunde
+legten ||| # legten
+einwandfreie ||| # einwandfreie
+manieren ||| # manieren
+polizei ||| # polizei
+tragen ||| # tragen
+tödlicher ||| # tödlicher
+waffen ||| # waffen
+öffentlichkeit ||| # öffentlichkeit
+verbieten ||| # verbieten
+besitz ||| # besitz
+schusswaffen ||| # schuss waffen
+heraufsetzen ||| # heraufsetzen
+nukleares ||| # nukleares
+material ||| # material
+terroristen ||| # terroristen
+gelangt ||| # gelangt
+könnte ||| # könnte
+beispielsweise ||| # beispielsweise
+ausbrechen ||| # ausbrechen
+zweiten ||| # zweiten
+kommen ||| # kommen
+illegale ||| # illegale
+waffen ||| # waffen
+ordnungshütern ||| # ordnung hütern
+kriminellen ||| # kriminellen
+gestohlen ||| # gestohlen
+werden ||| # werden
+dieser ||| # dieser
+kundinnen ||| # kundinnen
+valentino ||| # valentino
+unvergesslich ||| # unvergesslich
+schützen ||| # schützen
+innerhalb ||| # innerhalb
+mannschaft ||| # mannschaft
+respektieren ||| # respektieren
+sowohl ||| # sowohl
+spieler ||| # spieler
+person ||| # person
+tatbestand ||| # tat bestand
+blasphemie ||| # blasphemie
+aufrechterhalten ||| # aufrecht erhalten
+beleidigungen ||| # beleidigungen
+verboten ||| # verboten
+schwerwiegende ||| # schwerwiegende
+folgen ||| # folgen
+meinungsäußerung ||| # meinung äußerung
+könnte ||| # könnte
+insbesondere ||| # insbesondere
+presse ||| # presse
+kirill ||| # kirill
+miller ||| # miller
+typischen ||| # typischen
+petersburger ||| # petersburger
+sozial ||| # sozial
+philosophischen ||| # philosophischen
+künstler ||| # künstler
+mythen ||| # mythen
+erschaffen ||| # erschaffen
+frauen ||| # frauen
+fliegen ||| # fliegen
+bereits ||| # bereits
+jahren ||| # jahren
+änderung ||| # änderung
+verbesserung ||| # verbesserung
+ernähre ||| # ernähre
+treibe ||| # treibe
+medikamente ||| # medikamente
+gefährliche ||| # gefährliche
+smogglocke ||| # smog glocke
+peking ||| # peking
+stadtregierung ||| # stadt regierung
+verschmutzung ||| # verschmutzung
+begrenzen ||| # begrenzen
+vorerst ||| # vorerst
+husten ||| # husten
+weiter ||| # weiter
+repräsentantenhaus ||| # repräsentanten haus
+großes ||| # großes
+gerangel ||| # gerangel
+haushaltsgesetz ||| # haushalt gesetz
+verabschiedet ||| # verabschiedet
+untergrenze ||| ((('#',0,1),),(('untergrenze',0,2),('unter',0,1),),(('grenze',0,1),),)
+preissturz ||| # preis sturz
+verschmutzungsrechte ||| # verschmutzung rechte
+verhindern ||| # verhindern
+informationen ||| # informationen
+frankfurter ||| # frankfurter
+allgemeinen ||| # allgemeinen
+zeitung ||| # zeitung
+sollen ||| # sollen
+zeiten ||| # zeiten
+zusätzliche ||| # zusätzliche
+emissionszertifikate ||| # emission zertifikate
+kommen ||| # kommen
+hannover ||| # hannover
+beginnt ||| # beginnt
+landstraßenmord ||| # landstraße mord
+kaarst ||| # kaarst
+sportlehrer ||| # sport lehrer
+festgenommen ||| # festgenommen
+rätselhaft ||| # rätselhaft
+prozess ||| # prozess
+christian ||| # christian
+einigen ||| # einigen
+vetomächte ||| # veto mächte
+atomüberwachungsprogramm ||| # atom überwachung programm
+thailändische ||| # thailändische
+demonstranten ||| # demonstranten
+stürmen ||| # stürmen
+regierungsgebäude ||| # regierung gebäude
+jahresrückblick ||| # jahr rückblick
+alljährliche ||| # alljährliche
+drohkulisse ||| # droh kulisse
+nordafrika ||| # nord afrika
+südkorea ||| # süd korea
+nordkorea ||| # nord korea
+gewarnt ||| # gewarnt
+traditionelles ||| # traditionelles
+militärmanöver ||| # militär manöver
+abzuhalten ||| # abzuhalten
+serotoninwiederaufnahmehemmer ||| # serotonin wiederaufnahme hemmer
+gedankenaustausch ||| # gedanke austausch
+nachbarschaftspolitik ||| # nachbarschaft politik
+frauenquote ||| # frauen quote
+aufsichtsräte ||| # aufsicht räte
+mindestens ||| # mindestens
+prozent ||| # prozent
+rechtsanspruch ||| # recht anspruch
+familienpflegezeit ||| # familie pflege zeit
+geeinigt ||| # geeinigt
+teilzeitarbeit ||| # teil zeit arbeit
+erleichtert ||| # erleichtert
+werden ||| # werden
+amtsperiode ||| # amtsperiode
+hälfte ||| # hälfte
+schwarzmeerregion ||| # schwarz meer region
+zentralasien ||| # zentral asien
+regierung ||| # regierung
+merkel ||| # merkel
+titelt ||| # titelt
+ugandisches ||| # ugandisches
+wochenmagazin ||| # woche magazin
+vergangenen ||| # vergangenen
+jahres ||| # jahres
+garantieerklärung ||| # garantie erklärung
+atomprogramms ||| # atom programms
+weltgemeinschaft ||| # welt gemeinschaft
+irakkrieg ||| # irak krieg
+strafsteuer ||| # straf steuer
+regierungsmethode ||| # regierung methode
+rechtsschutzversicherungsgesellschaften ||| # recht schutz versicherung gesellschaften
+umstand ||| # umstand
+auffassungen ||| # auffassungen
+wirklichkeiten ||| # wirklichkeiten
+subkultur ||| # subkultur
+akzeptieren ||| # akzeptieren
+ausdruck ||| # ausdruck
+bürgerlichen ||| # bürgerlichen
+ordnungspolitik ||| # ordnung politik
+verpflichteten ||| # verpflichteten
+gesellschaftsverständnisses ||| # gesellschaft verständnisses
+ultras ||| # ultras
+dschungelcamp ||| # dschungel camp
+verfolgen ||| # verfolgen
+millionen ||| # millionen
+zuschauer ||| # zuschauer
+winfried ||| # winfried
+glatzeder ||| # glatzeder
+schauspieler ||| # schauspieler
+offenbar ||| # offenbar
+aufmerksamkeit ||| # aufmerksamkeit
+wiedergutmachungskurs ||| # wiedergutmachung kurs
+südsudanesische ||| # süd sudanesische
+schlüsselstadt ||| # schlüssel stadt
+rebellen ||| # rebellen
+zurückerobert ||| # zurück erobert
+zehntausende ||| # zehn tausende
+demonstrieren ||| # demonstrieren
+dänemark ||| # dänemark
+gewinnt ||| # gewinnt
+spitzenspiel ||| # spitzenspiel
+spanien ||| # spanien
+agrarindustrie ||| # agrar industrie
+minoische ||| # minoische
+computertechniker ||| # computer techniker
+geheime ||| # geheime
+gesundheitsministerium ||| # gesundheit ministerium
+geschmuggelt ||| # geschmuggelt
+apotheker ||| # apotheker
+lobbyisten ||| # lobbyisten
+thomas ||| # thomas
+bellartz ||| # bellartz
+verkauft ||| # verkauft
+eruption ||| # eruption
+santorin ||| # santorin
+spätbronzezeitliche ||| # spät bronze zeitliche
+ausbruch ||| # ausbruch
+ägäischen ||| # ägäischen
+vulkaninsel ||| # vulkan insel
+santorin ||| # santorin
+bezeichnet ||| # bezeichnet
+jahrhundert ||| # jahrhundert
+minoischen ||| # minoischen
+kultur ||| # kultur
+verbundene ||| # verbundene
+siedlung ||| # siedlung
+akrotiri ||| # akrotiri
+moderner ||| # moderner
+begrub ||| # begrub
+molekulare ||| # molekulare
+lenkraketen ||| # lenk raketen
+schlafende ||| # schlafende
+erreger ||| # erreger
+forscher ||| # forscher
+tierversuch ||| # tier versuch
+gefunden ||| # gefunden
+schlafenden ||| # schlafenden
+anzugreifen ||| # anzugreifen
+hubschrauber ||| # hubschrauber
+aufwachen ||| # aufwachen
+sonnenaufgang ||| ((('#',0,1),),(('sonnenaufgang',0,2),('sonne',0,1),),(('aufgang',0,1),),)
+atlantik ||| # atlantik
+zähneputzen ||| # zähne putzen
+freiheitsstatue ||| # freiheit statue
+dinner ||| # dinner
+central ||| # central
+abendsonne ||| # abend sonne
+derselben ||| # derselben
+wohnung ||| # wohnung
+besser ||| # besser
+jeffrey ||| # jeffrey
+dvorett ||| # dvorett
+immobilienmanager ||| # immobilien manager
+lieblingsprojekts ||| # liebling projekts
+seiner ||| # seiner
+entwicklungsfirma ||| # entwicklung firma
+lächelt ||| # lächelt
+veleba ||| # veleba
+diente ||| # diente
+grundlage ||| # grundlage
+entschädigungsverhandlungen ||| # entschädigung verhandlungen
+gutachten ||| # gutachten
+universitätskrankenhaus ||| # universität krankenhaus
+erarbeitet ||| # erarbeitet
+hauptplattform ||| # haupt plattform
+hollywoodfilme ||| # hollywood filme
+montreal ||| # montreal
+bekommen ||| # bekommen
+geringerer ||| # geringerer
+terminator ||| # terminator
+united ||| # united
+internet ||| # internet
+anteil ||| # anteil
+prozent ||| # prozent
+telekommunikationsunternehmen ||| # telekommunikation unternehmen
+versatel ||| # versatel
+gesichert ||| # gesichert
+durchschnittspreis ||| # durchschnitt preis
+beträgt ||| # beträgt
+unternehmen ||| # unternehmen
+mittwochabend ||| # mittwoch abend
+mitteilte ||| # mitteilte
+nationale ||| # nationale
+sicherheitsberater ||| # sicherheit berater
+norberto ||| # norberto
+gonzales ||| # gonzales
+verurteilte ||| # verurteilte
+vorgehen ||| # vorgehen
+soldaten ||| # soldaten
+militärtransportflugzeug ||| # militär transport flugzeug
+zufrieden ||| # zufrieden
+aktiengesellschaft ||| # aktie gesellschaft
+wiederaufnahme ||| # wiederaufnahme
+tonbandaufnahme ||| # tonband aufnahme
+staatskrise ||| # staat krise
+madagaskars ||| # madagaskars
+präsident ||| # präsident
+bittet ||| # bittet
+schlagworte ||| # schlagworte
+demonstration ||| # demonstration
+putsch ||| # putsch
+machtkampf ||| # macht kampf
+zwischen ||| # zwischen
+opposition ||| # opposition
+regierungspartei ||| # regierung partei
+spitzt ||| # spitzt
+afrikanischen ||| # afrikanischen
+botschaft ||| # botschaft
+befürchtet ||| # befürchtet
+mitglieder ||| # mitglieder
+oppositionspartei ||| # opposition partei
+demonstrieren ||| # demonstrieren
+putsch ||| # putsch
+madagaskars ||| # madagaskars
+präsidenten ||| # präsidenten
+ravalomanana ||| # ravalomanana
+mitglieder ||| # mitglieder
+oppositionspartei ||| # opposition partei
+demonstrieren ||| # demonstrieren
+putsch ||| # putsch
+madagaskars ||| # madagaskars
+präsidenten ||| # präsidenten
+ravalomanana ||| # ravalomanana
+bedrängte ||| # bedrängte
+präsident ||| # präsident
+wandte ||| # wandte
+öffentlichen ||| # öffentlichen
+hilferuf ||| # hilfe ruf
+anhänger ||| # anhänger
+forderte ||| # forderte
+regierungssitz ||| # regierung sitz
+schützen ||| # schützen
+mitglieder ||| # mitglieder
+präsidentengarde ||| # präsidenten garde
+unbestätigten ||| # unbestätigten
+medienberichten ||| # medien berichten
+begonnen ||| # begonnen
+posten ||| # posten
+verlassen ||| # verlassen
+augenzeugen ||| # auge zeugen
+berichteten ||| # berichteten
+gepanzerte ||| # gepanzerte
+fahrzeuge ||| # fahrzeuge
+außenbezirken ||| # außen bezirken
+hauptstadt ||| # hauptstadt
+antananarivo ||| # antananarivo
+botschafter ||| # botschafter
+marquardt ||| # marquardt
+nationalen ||| # nationalen
+fernsehen ||| # fernsehen
+erklärt ||| # erklärt
+steuere ||| # steuere
+bürgerkrieg ||| ((('#',0,1),),(('bürger',0,1),('bürgerkrieg',0,2),),(('krieg',0,1),),)
+botschaft ||| # botschaft
+familien ||| # familien
+mitarbeiter ||| # mitarbeiter
+unbedingt ||| # unbedingt
+benötigt ||| # benötigt
+werden ||| # werden
+bürger ||| # bürger
+verlassen ||| # verlassen
+landes ||| # landes
+aufgefordert ||| # aufgefordert
+deutsche ||| # deutsche
+botschaft ||| # botschaft
+dagegen ||| # dagegen
+wollte ||| # wollte
+absprache ||| # absprache
+anderen ||| # anderen
+europäischen ||| # europäischen
+vertretungen ||| # vertretungen
+zunächst ||| # zunächst
+ausreise ||| # ausreise
+empfehlung ||| # empfehlung
+regierung ||| # regierung
+angeschlagenen ||| # angeschlagenen
+staatspräsidenten ||| # staat präsidenten
+ravalomanana ||| # ravalomanana
+demokratiebewegung ||| # demokratie bewegung
+selbst ||| # selbst
+ernannten ||| # ernannten
+präsidenten ||| # präsidenten
+übergangsregierung ||| # übergang regierung
+rajoelina ||| # rajoelina
+gegenüber ||| # gegenüber
+wochen ||| # wochen
+andauernde ||| # andauernde
+erbitterte ||| # erbitterte
+machtkampf ||| # macht kampf
+menschen ||| # menschen
+gekostet ||| # gekostet
+hunderte ||| # hunderte
+wurden ||| # wurden
+verletzt ||| # verletzt
+modernisierung ||| # modernisierung
+atomwaffen ||| # atom waffen
+umbauten ||| # umbauten
+marine ||| # marine
+russlands ||| # russlands
+präsident ||| # präsident
+medwedew ||| # medwedew
+aufrüstung ||| # aufrüstung
+begründung ||| # begründung
+versuche ||| # versuche
+präsenz ||| # präsenz
+grenzen ||| # grenzen
+landes ||| # landes
+verstärken ||| # verstärken
+anzeige ||| # anzeige
+moskau ||| # moskau
+dmitrij ||| # dmitrij
+medwedew ||| # medwedew
+begründet ||| # begründet
+bebaren ||| # bebaren
+russischen ||| # russischen
+streitkräfte ||| # streit kräfte
+sollten ||| # sollten
+massiv ||| # massiv
+gestärkt ||| # gestärkt
+atomwaffenarsenal ||| ((('#',0,1),),(('atom',0,1),('atomwaffen',0,2),),(('waffen',0,1),),)
+modernisiert ||| # modernisiert
+werden ||| # werden
+westliche ||| # westliche
+militärbündnis ||| # militär bündnis
+versuche ||| # versuche
+präsenz ||| # präsenz
+grenzen ||| # grenzen
+auszubauen ||| # auszubauen
+präsident ||| # präsident
+deshalb ||| # deshalb
+aufrüstung ||| # aufrüstung
+marine ||| # marine
+umfang ||| # umfang
+beginne ||| # beginne
+umfassende ||| # umfassende
+umrüstung ||| # umrüstung
+heeres ||| # heeres
+flotte ||| # flotte
+ernstes ||| # ernstes
+konfliktpotential ||| # konflikt potential
+infrastruktur ||| # infrastruktur
+kampfkraft ||| # kampf kraft
+streitkräfte ||| # streit kräfte
+strategischen ||| # strategischen
+atomwaffen ||| # atom waffen
+internationalen ||| # internationalen
+terrorismus ||| # terrorismus
+gefechtsbereitschaft ||| # gefecht bereitschaft
+strategischen ||| # strategischen
+atomwaffen ||| # atomwaffen
+militärs ||| # militärs
+aktuellen ||| # aktuellen
+haushaltsprobleme ||| # haushalt probleme
+auswirkungen ||| # auswirkungen
+regierung ||| # regierung
+streitkräfteetat ||| # streit kräfte etat
+infolge ||| # infolge
+finanzkrise ||| # finanz krise
+zusammengestrichen ||| # zusammen gestrichen
+weitere ||| # weitere
+kürzungen ||| # kürzungen
+ausgeschlossen ||| # ausgeschlossen
+medwedews ||| # medwedews
+vorgänger ||| # vorgänger
+wladimir ||| # wladimir
+wiederholt ||| # wiederholt
+modernisierung ||| # modernisierung
+waffenarsenals ||| # waffen arsenals
+verkündet ||| # verkündet
+umsetzung ||| # umsetzung
+ankündigungen ||| # ankündigungen
+großteil ||| # groß teil
+atomwaffen ||| # atom waffen
+sowjetzeiten ||| # sowjet zeiten
+stimmung ||| # stimmung
+streitkräften ||| # streit kräften
+rahmen ||| # rahmen
+reform ||| # reform
+offizierkorps ||| # offizier korps
+verkleinert ||| # verkleinert
+werden ||| # werden
+trifolium ||| # trifolium
+umfassende ||| # umfassende
+pflanzengattung ||| # pflanze gattung
+unterfamilie ||| # unterfamilie
+schmetterlingsblütler ||| # schmetterling blütler
+faboideae ||| # faboideae
+pflanzenfamilie ||| # pflanze familie
+hülsenfrüchtler ||| # hülse früchtler
+fabaceae ||| # fabaceae
+gezählt ||| # gezählt
+sprachgebrauch ||| # sprach gebrauch
+allerdings ||| # allerdings
+häufig ||| # häufig
+gattung ||| # gattung
+bezeichnet ||| # bezeichnet
+sondern ||| # sondern
+nahverwandten ||| # nah verwandten
+gattungen ||| # gattungen
+schneckenklee ||| # schnecke klee
+medicago ||| # medicago
+steinklee ||| # stein klee
+melilotus ||| # melilotus
+taxonomisch ||| # taxonomisch
+entfernten ||| # entfernten
+gattung ||| # gattung
+sauerklee ||| # sauer klee
+oxalis ||| # oxalis
+charakteristische ||| # charakteristische
+merkmale ||| # merkmale
+gattung ||| # gattung
+dreifiedrige ||| # drei fiedrige
+blätter ||| # blätter
+vielblütige ||| # viel blütige
+kopfige ||| # kopfige
+blütenstände ||| ((('#',0,1),),(('blüten',0,1),('blüte',0,1),),(('stände',0,1),),)
+kontinenten ||| # kontinenten
+ausnahme ||| # ausnahme
+australiens ||| # australiens
+antarktikas ||| # antarktikas
+natürlich ||| # natürlich
+verbreitet ||| # verbreitet
+australien ||| # australien
+wurden ||| # wurden
+verschiedene ||| # verschiedene
+kleearten ||| # klee arten
+menschen ||| # menschen
+eingeführt ||| # eingeführt
+landwirtschaft ||| # landwirtschaft
+werden ||| # werden
+verschiedene ||| # verschiedene
+kleearten ||| # klee arten
+futterpflanzen ||| # futter pflanzen
+verwendet ||| # verwendet
+kleeanbau ||| # klee anbau
+europa ||| # europa
+nordamerika ||| # nord amerika
+ökonomischer ||| # ökonomischer
+bedeutung ||| # bedeutung
+europa ||| # europa
+jahrhundert ||| # jahrhundert
+christus ||| # christus
+angebaut ||| # angebaut
+fähigkeit ||| # fähigkeit
+symbiose ||| # symbiose
+knöllchenbakterien ||| # knöllchen bakterien
+rhizobiaceae ||| # rhizobiaceae
+wurzeln ||| # wurzeln
+stickstoff ||| # stickstoff
+verbesserung ||| # verbesserung
+bodenfruchtbarkeit ||| # boden fruchtbarkeit
+bedeutend ||| # bedeutend
+kleeblatt ||| # klee blatt
+symbolik ||| # symbolik
+vieler ||| # vieler
+kulturen ||| # kulturen
+eingang ||| # eingang
+repräsentiert ||| # repräsentiert
+dreiheit ||| # dreiheit
+beispiel ||| # beispiel
+christentum ||| # christentum
+dreifaltigkeit ||| # dreifaltigkeit
+weiterhin ||| # weiterhin
+sommer ||| # sommer
+symbolisiert ||| # symbolisiert
+vierblättrige ||| # vier blättrige
+kleeblatt ||| # klee blatt
+abschnittsweise ||| # abschnittsweise
+glücksbringer ||| # glücks bringer
diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained
index 313d6ba9..ba6d0a87 100644
--- a/compound-split/de/weights.trained
+++ b/compound-split/de/weights.trained
@@ -1,20 +1,41 @@
-# Objective = 164.304 (eval count=118)
-WordCount 0.10973670965860199
-LettersSq -0.040894083779153829
-LettersSqrt 0.33757888570124861
-InDict 0.049573722026753933
-InDictSubWord 0.69975734577036308
-Short 0.33555471096277373
-Long -0.41832772458034762
-OOV 0.060162987632197122
-OOVSubWord 0.068471660184093452
-ShortRange -0.95127190946200446
-HighFreq -2.4179829648207223
-MedFreq -0.21881857269052826
-Freq -0.32292456278379877
-FreqLen1 -0.34734160349477439
-FreqLen2 -0.1574854779610021
-Bad -1.7868318814690027
-RevCharLM 0.52613329631178929
-FugS 0.028876419364008043
-FugN -0.086060954349416352
+# Objective = 373.014 (eval count=107)
+WordCount -1.8869327566343108
+LettersSq -0.022219159772322049
+LettersLog 1.5465219157578709
+LettersSqrt -0.6495272263749684
+InDict -2.332375087319726
+InDictSubWord 0.26452819026499702
+Short 0.13144850920386639
+Long -0.52710619358235422
+OOV 0.44544233068531919
+OOVSubWord 0.75125506082273197
+ShortRange -0.78230895533247025
+HighFreq -3.0655897924811724
+MedFreq -0.14369078175639161
+LogFreq -0.81311437004671527
+LogLogFreq 2.6206266390841026
+InDictFullWord -0.30581273013741311
+FreqLen1 -0.10873902414630844
+FreqLen2 -0.26027758996716255
+CS:deutschland 1.5696188595965801
+CS:gesamt 0.028560662880942392
+CS:haupt 0.1618063663954605
+CS:heraus -0.69628340540889733
+CS:leistung -2.1294187611277859
+CS:leistungen -2.4560473865535157
+CS:mittel -0.80510419589789817
+CS:nord 2.8271111296136722
+CS:steuer 0.9875598817062996
+CS:süd 2.3186645768514627
+CS:teil 2.1697059289701635
+CS:ver -2.558598750514931
+CS:weise -3.1535788459718188
+CS:wieder -1.5735927337584283
+RevCharLM 1.1301086841248393
+FugS 0.91824843000525525
+FugN 0.54856707576078012
+LenBias_3 -0.49935662411257448
+LenBias_4 -0.41252603120380671
+LenBias_5 -0.7385165671809879
+LenBias_6 -0.7920324526310959
+LenBias_7 0.55549891849415567
diff --git a/compound-split/de/wordlist.de b/compound-split/de/wordlist.de
new file mode 100644
index 00000000..3609b10b
--- /dev/null
+++ b/compound-split/de/wordlist.de
@@ -0,0 +1,18 @@
+deutschland
+gesamt
+haupt
+heraus
+herausforderung
+herausforderungen
+leistung
+leistungen
+mittel
+mitteln
+nord
+selbstmord
+steuer
+süd
+teil
+ver
+weise
+wieder
diff --git a/configure.ac b/configure.ac
index 8136a7c7..e5d2dadb 100644
--- a/configure.ac
+++ b/configure.ac
@@ -1,4 +1,5 @@
-AC_INIT([cdec],[2013-11-10])
+AC_CONFIG_MACRO_DIR([m4])
+AC_INIT([cdec],[2014-01-20])
AC_CONFIG_SRCDIR([decoder/cdec.cc])
AM_INIT_AUTOMAKE
AC_CONFIG_HEADERS(config.h)
@@ -9,7 +10,7 @@ case $LEX in
esac
AC_PROG_CC
AC_PROG_CXX
-AX_CXX_COMPILE_STDCXX_11
+AX_CXX_COMPILE_STDCXX_11([],[mandatory])
AC_LANG_CPLUSPLUS
AC_OPENMP
BOOST_REQUIRE([1.44])
diff --git a/corpus/support/fix-eos.pl b/corpus/support/fix-eos.pl
new file mode 100755
index 00000000..584f8b46
--- /dev/null
+++ b/corpus/support/fix-eos.pl
@@ -0,0 +1,10 @@
+#!/usr/bin/perl -w
+use strict;
+use utf8;
+
+binmode(STDIN, ":utf8");
+binmode(STDOUT, ":utf8");
+while(<STDIN>) {
+ s/(\p{Devanagari}{2}[A-Za-z0-9! ,.\@\p{Devanagari}]+?)\s+(\.)(\s*$|\s+\|\|\|)/$1 \x{0964}$3/s;
+ print;
+}
diff --git a/corpus/support/quote-norm.pl b/corpus/support/quote-norm.pl
index 57f4ad77..f677df66 100755
--- a/corpus/support/quote-norm.pl
+++ b/corpus/support/quote-norm.pl
@@ -7,31 +7,98 @@ binmode(STDOUT,"utf8");
while(<STDIN>) {
chomp;
$_ = " $_ ";
- s/&\s*lt\s*;/</gi;
- s/&\s*gt\s*;/>/gi;
- s/&\s*squot\s*;/'/gi;
- s/&\s*quot\s*;/"/gi;
- s/&\s*amp\s*;/&/gi;
- s/&\s*nbsp\s*;/&/gi;
- s/&\s*#\s*160\s*;/ /gi;
+
+ # Regularlize spaces:
+ s/\x{a0}/ /g; # non-breaking space
+ s/\x{2009}/ /g; # thin space
+ s/\x{2028}/ /g; # "line separator"
+ s/\x{2029}/ /g; # "paragraph separator"
+ s/\x{202a}/ /g; # "left-to-right embedding"
+ s/\x{202b}/ /g; # "right-to-left embedding"
+ s/\x{202c}/ /g; # "pop directional formatting"
+ s/\x{202d}/ /g; # "left-to-right override"
+ s/\x{202e}/ /g; # "right-to-left override"
+ s/\x{85}/ /g; # "next line"
+ s/\x{fffd}/ /g; # "replacement character"
+ s/\x{feff}/ /g; # byte-order mark
+ s/\x{fdd3}/ /g; # "unicode non-character"
+
+ # Regularize named HTML/XML escapes:
+ s/&\s*lt\s*;/</gi; # HTML opening angle bracket
+ s/&\s*gt\s*;/>/gi; # HTML closing angle bracket
+ s/&\s*squot\s*;/'/gi; # HTML single quote
+ s/&\s*quot\s*;/"/gi; # HTML double quote
+ s/&\s*nbsp\s*;/ /gi; # HTML non-breaking space
+ s/&apos;/\'/g; # HTML apostrophe
+ s/&\s*amp\s*;/&/gi; # HTML ampersand (last)
+
+ # Regularize known HTML numeric codes:
+ s/&\s*#\s*160\s*;/ /gi; # no-break space
+ s/&\s*#45\s*;\s*&\s*#45\s*;/--/g; # hyphen-minus hyphen-minus
+ s/&\s*#45\s*;/--/g; # hyphen-minus
+
+ # Convert arbitrary hex or decimal HTML entities to actual characters:
+ s/&\#x([0-9A-Fa-f]+);/pack("U", hex($1))/ge;
+ s/&\#([0-9]+);/pack("U", $1)/ge;
+
+ # Convert other Windows 1252 characters to UTF-8
+ s/\x{80}/\x{20ac}/g; # euro sign
+ s/\x{95}/\x{2022}/g; # bullet
+ s/\x{99}/\x{2122}/g; # trademark sign
+
+ # Currency and measure conversions:
s/ (\d\d): (\d\d)/ $1:$2/g;
s/[\x{20a0}]\x{20ac}]/ EUR /g;
s/[\x{00A3}]/ GBP /g;
s/(\W)([A-Z]+\$?)(\d*\.\d+|\d+)/$1$2 $3/g;
s/(\W)(euro?)(\d*\.\d+|\d+)/$1EUR $3/gi;
- s/&\s*#45\s*;\s*&\s*#45\s*;/--/g;
- s/&\s*#45\s*;/--/g;
- s/�c/--/g;
- s/ ,,/ "/g;
- s/„/"/g;
- s/``/"/g;
- s/''/"/g;
- s/[「」]/"/g;
- s/〃/"/g;
- s/¨/"/g;
+
+ # Ridiculous double conversions(?) (news commentary and Giga-FrEn):
+ s/�c/--/g; # long dash
+ s/\x{e2}\x{20ac}oe/\"/g; # opening double quote
+ s/\x{e2}\x{20ac}\x{9c}/\"/g; # opening double quote
+ s/\x{e2}\x{20ac}\x{9d}/\"/g; # closing double quote
+ s/\x{e2}\x{20ac}\x{2122}/\'/g; # apostrophe
+ s/\x{e2}\x{20ac}\x{201c}/ -- /g; # en dash?
+ s/\x{e2}\x{20ac}\x{201d}/ -- /g; # em dash?
+ s/â(\x{80}\x{99}|\x{80}\x{98})/'/g; # single quote?
+ s/â(\x{80}\x{9c}|\x{80}\x{9d})/"/g; # double quote?
+
+ # Regularize quotes:
+ s/ˇ/'/g; # caron
+ s/´/'/g; # acute accent
+ s/`/'/g; # grave accent
+ s/ˉ/'/g; # modified letter macron
+ s/ ,,/ "/g; # ghetto low-99 quote
+ s/``/"/g; # latex-style left quote
+ s/''/"/g; # latex-style right quote
+ s/\x{300c}/"/g; # left corner bracket
+ s/\x{300d}/"/g; # right corner bracket
+ s/\x{3003}/"/g; # ditto mark
+ s/\x{00a8}/"/g; # diaeresis
+ s/\x{92}/\'/g; # curly apostrophe
+ s/\x{2019}/\'/g; # curly apostrophe
+ s/\x{f03d}/\'/g; # curly apostrophe
+ s/\x{b4}/\'/g; # curly apostrophe
+ s/\x{2018}/\'/g; # curly single open quote
+ s/\x{201a}/\'/g; # low-9 quote
+ s/\x{93}/\"/g; # curly left quote
+ s/\x{201c}/\"/g; # curly left quote
+ s/\x{94}/\"/g; # curly right quote
+ s/\x{201d}/\"/g; # curly right quote
+ s/\x{2033}/\"/g; # curly right quote
+ s/\x{201e}/\"/g; # low-99 quote
+ s/\x{84}/\"/g; # low-99 quote (bad enc)
+ s/\x{201f}/\"/g; # high-rev-99 quote
+ s/\x{ab}/\"/g; # opening guillemet
+ s/\x{bb}/\"/g; # closing guillemet
+ s/\x{0301}/'/g; # combining acute accent
+
+ # Space inverted punctuation:
s/¡/ ¡ /g;
s/¿/ ¿ /g;
+ # Russian abbreviations:
s/ п. п. / п.п. /g;
s/ ст. л. / ст.л. /g;
s/ т. е. / т.е. /g;
@@ -45,24 +112,19 @@ while(<STDIN>) {
s/ т. н. / т.н. /g;
s/ т. ч. / т.ч. /g;
s/ н. э. / н.э. /g;
- # â<U+0080><U+0099>
- s/â(\x{80}\x{99}|\x{80}\x{98})/'/g;
- s/â(\x{80}\x{9c}|\x{80}\x{9d})/"/g;
- s/ˇ/'/g;
- s/´/'/g;
- s/`/'/g;
- s/’/'/g;
- s/ ́/'/g;
- s/‘/'/g;
- s/ˉ/'/g;
- s/β/ß/g; # WMT 2010 error
- s/“/"/g;
- s/”/"/g;
- s/«/"/g;
- s/»/"/g;
+
+ # Convert foreign numerals into Arabic numerals
+ tr/०-९/0-9/; # devangari
+ tr/౦-౯/0-9/; # telugu
+ tr/೦-೯/0-9/; # kannada
+ tr/೦-௯/0-9/; # tamil
+ tr/൦-൯/0-9/; # malayalam
+
+ # Random punctuation:
tr/!-~/!-~/;
s/、/,/g;
# s/。/./g;
+ s/\x{85}/.../g;
s/…/.../g;
s/―/--/g;
s/–/--/g;
@@ -77,11 +139,27 @@ while(<STDIN>) {
s/’/'/g;
s/â€"/"/g;
s/؛/;/g;
-
+
+ # Regularize ligatures:
+ s/\x{9c}/oe/g; # "oe" ligature
+ s/\x{0153}/oe/g; # "oe" ligature
+ s/\x{8c}/Oe/g; # "OE" ligature
+ s/\x{0152}/Oe/g; # "OE" ligature
+ s/\x{fb00}/ff/g; # "ff" ligature
+ s/\x{fb01}/fi/g; # "fi" ligature
+ s/\x{fb02}/fl/g; # "fl" ligature
+ s/\x{fb03}/ffi/g; # "ffi" ligature
+ s/\x{fb04}/ffi/g; # "ffl" ligature
+
+ s/β/ß/g; # WMT 2010 error
+
+ # Strip extra spaces:
s/\s+/ /g;
s/^\s+//;
s/\s+$//;
- s/[\x{00}-\x{1f}]//g;
+
+ # Delete control characters:
+ s/[\x{00}-\x{1f}]//g;
print "$_\n";
}
diff --git a/corpus/support/token_list b/corpus/support/token_list
index 43dd80d9..228663f6 100644
--- a/corpus/support/token_list
+++ b/corpus/support/token_list
@@ -1,6 +1,65 @@
##################### hyphenated words added by Fei since 3/7/05
##X-ray
+# hindi abbreviation patterns
+जन.
+फर.
+अग.
+सित.
+अक्टू.
+अक्तू.
+नव.
+दिस.
+डी.एल.
+डी.टी.ओ.
+डी.ए.
+ए.एस.आई.
+डी.टी.ओ.
+एम.एस.आर.टी.सी.
+बी.बी.एम.बी.
+डी.एस.पी.
+सी.आर.पी.
+एस.डी.एम.
+सी.डी.पी.ओ.
+बी.डी.ओ.
+एस.डी.ओ.
+एम.पी.पी.
+पी.एच.ई.
+एस.एच.ओ.
+ए.सी.पी.
+यू.पी.
+पी.एम.
+आर.बी.डी.
+वी.पी.
+सी.ए.डी.पी.
+ए.
+बी.
+सी.
+डी.
+ई.
+एफ.
+जी.
+एच.
+आई.
+जे.
+के.
+एल.
+एम.
+एन.
+ओ.
+पी.
+क़यू.
+आर.
+एस.
+टी.
+यू.
+वी.
+डबल्यू.
+एक्स.
+वाई.
+ज़ेड.
+ज़ी.
+
##################### words made of punct only
:-
:-)
diff --git a/corpus/support/tokenizer.pl b/corpus/support/tokenizer.pl
index e0df16a7..7771201f 100755
--- a/corpus/support/tokenizer.pl
+++ b/corpus/support/tokenizer.pl
@@ -65,7 +65,7 @@ my $Split_AposD = 1; ## 'd
### some patterns
-my $common_right_punc = '\.|\,|\;|:|\!|\?|\"|\)|\]|\}|\>|\-';
+my $common_right_punc = '\x{0964}|\.|\,|\;|\!|:|\?|\"|\)|\]|\}|\>|\-';
#### step 1: read files
@@ -112,7 +112,7 @@ my $new_token_total = 0;
while(<STDIN>){
chomp();
-
+ s/\x{0970}/./g; # dev abbreviation character
if(/^(\[b\s+|\]b|\]f|\[f\s+)/ || (/^\[[bf]$/) || (/^\s*$/) || /^<DOC/ || /^<\/DOC/) {
## markup
print STDOUT "$_\n";
@@ -121,7 +121,7 @@ while(<STDIN>){
my $orig_num = 0;
my $deep_proc_num = 0;
-
+ s/(\x{0964}+)/ $1/g; # Devangari end of sentence
my $new_line = proc_line($_, \$orig_num, \$deep_proc_num);
$orig_token_total += $orig_num;
@@ -148,7 +148,8 @@ while(<STDIN>){
$new_line =~ s/(set|src|tgt|trg)/ $1/g;
}
- print STDOUT " $new_line\n";
+ chomp $new_line;
+ print STDOUT "$new_line\n";
}
########################################################################
@@ -228,6 +229,7 @@ sub proc_token {
## step 1: check the most common case
if($token =~ /^[a-z0-9\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}\p{Devanagari}]+$/i){
+ #if($token =~ /^[a-z0-9\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}]+$/i){
### most common cases
return $token;
}
@@ -363,7 +365,7 @@ sub deep_proc_token {
##### step 0: if it mades up of all puncts, remove one punct at a time.
if($line !~ /[\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}\p{Devanagari}a-zA-Z\d]/){
- if($line =~ /^(\!+|\@+|\++|\=+|\*+|\<+|\>+|\|+|\?+|\.+|\-+|\_+|\&+)$/){
+ if($line =~ /^(\!+|\@+|\++|\=+|\*+|\<+|\>+|\|+|\?+|\x{0964}+|\.+|\-+|\_+|\&+)$/){
## ++ @@@@ !!! ....
return $line;
}
@@ -454,7 +456,7 @@ sub deep_proc_token {
### deal with ': e.g., 's, 't, 'm, 'll, 're, 've, n't
## 'there => ' there '98 => the same
- $suc += ($line =~ s/^(\'+)([a-z]+)/ $1 $2/gi);
+ $suc += ($line =~ s/^(\'+)([a-z\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}\p{Devanagari}]+)/ $1 $2/gi);
## note that \' and \. could interact: e.g., U.S.'s; 're.
if($Split_NAposT && ($line =~ /^(.*[a-z]+)(n\'t)([\.]*)$/i)){
@@ -664,10 +666,10 @@ sub deep_proc_token {
return $line;
}
- if($line =~ /^(([a-z]\.)+)(\.*)$/i){
+ if ($line =~ /^(([a-z]|ए|बी|सी|डी|ई|एफ|जी|एच|आई|जे|के|एल|एम|एन|ओ|पी|क़यू|आर|एस|टी|यू|वी|डबल्यू|एक्स|वाई|ज़ेड|ज़ी)(\.([a-z]|ए|बी|सी|डी|ई|एफ|जी|एच|आई|जे|के|एल|एम|एन|ओ|पी|क़यू|आर|एस|टी|यू|वी|डबल्यू|एक्स|वाई|ज़ेड|ज़ी))+)(\.?)(\.*)$/i){
## I.B.M.
- my $t1 = $1;
- my $t3 = $3;
+ my $t1 = $1 . $5;
+ my $t3 = $6;
return $t1 . " ". proc_token($t3);
}
@@ -701,10 +703,3 @@ sub deep_proc_token {
return $line;
}
-
-
-
-
-
-
-
diff --git a/corpus/tokenize-anything.sh b/corpus/tokenize-anything.sh
index 5b7933d8..bca954d1 100755
--- a/corpus/tokenize-anything.sh
+++ b/corpus/tokenize-anything.sh
@@ -14,6 +14,7 @@ fi
$SUPPORT/utf8-normalize.sh $NORMARGS |
$SUPPORT/quote-norm.pl |
$SUPPORT/tokenizer.pl |
+ $SUPPORT/fix-eos.pl |
sed $SEDFLAGS -e 's/ al - / al-/g' |
$SUPPORT/fix-contract.pl |
sed $SEDFLAGS -e 's/^ //' | sed $SEDFLAGS -e 's/ $//' |
diff --git a/decoder/decoder.cc b/decoder/decoder.cc
index 5bb62710..e02c7730 100644
--- a/decoder/decoder.cc
+++ b/decoder/decoder.cc
@@ -86,7 +86,7 @@ struct ELengthWeightFunction {
}
};
inline void ShowBanner() {
- cerr << "cdec (c) 2009--2013 by Chris Dyer\n";
+ cerr << "cdec (c) 2009--2014 by Chris Dyer\n";
}
inline string str(char const* name,po::variables_map const& conf) {
diff --git a/decoder/ff_csplit.cc b/decoder/ff_csplit.cc
index e6f78f84..a0e538d3 100644
--- a/decoder/ff_csplit.cc
+++ b/decoder/ff_csplit.cc
@@ -14,12 +14,19 @@
#include "stringlib.h"
#include "tdict.h"
+#ifndef HAVE_OLD_CPP
+# include <unordered_set>
+#else
+# include <tr1/unordered_set>
+namespace std { using std::tr1::unordered_set; }
+#endif
using namespace std;
struct BasicCSplitFeaturesImpl {
BasicCSplitFeaturesImpl(const string& param) :
word_count_(FD::Convert("WordCount")),
letters_sq_(FD::Convert("LettersSq")),
+ letters_log_(FD::Convert("LettersLog")),
letters_sqrt_(FD::Convert("LettersSqrt")),
in_dict_(FD::Convert("InDict")),
in_dict_sub_word_(FD::Convert("InDictSubWord")),
@@ -30,14 +37,16 @@ struct BasicCSplitFeaturesImpl {
short_range_(FD::Convert("ShortRange")),
high_freq_(FD::Convert("HighFreq")),
med_freq_(FD::Convert("MedFreq")),
- freq_(FD::Convert("Freq")),
+ logfreq_(FD::Convert("LogFreq")),
+ loglogfreq_(FD::Convert("LogLogFreq")),
+ in_dict_full_word_(FD::Convert("InDictFullWord")),
fl1_(FD::Convert("FreqLen1")),
fl2_(FD::Convert("FreqLen2")),
bad_(FD::Convert("Bad")) {
vector<string> argv;
int argc = SplitOnWhitespace(param, &argv);
- if (argc != 1 && argc != 2) {
- cerr << "Expected: freqdict.txt [badwords.txt]\n";
+ if (argc != 1 && argc != 2 && argc != 3) {
+ cerr << "Expected: freqdict.txt [badwords.txt] [sensitvewords.txt]\n";
abort();
}
freq_dict_.Load(argv[0]);
@@ -51,6 +60,14 @@ struct BasicCSplitFeaturesImpl {
bad_words_.insert(TD::Convert(badword));
}
}
+ if (argc == 3) {
+ ReadFile rf(argv[2]);
+ istream& in = *rf.stream();
+ string line;
+ while(getline(in, line)) {
+ special_feats_[TD::Convert(line)] = FD::Convert("CS:"+line);
+ }
+ }
}
void TraversalFeaturesImpl(const Hypergraph::Edge& edge,
@@ -59,6 +76,7 @@ struct BasicCSplitFeaturesImpl {
const int word_count_;
const int letters_sq_;
+ const int letters_log_;
const int letters_sqrt_;
const int in_dict_;
const int in_dict_sub_word_;
@@ -69,12 +87,15 @@ struct BasicCSplitFeaturesImpl {
const int short_range_;
const int high_freq_;
const int med_freq_;
- const int freq_;
+ const int logfreq_;
+ const int loglogfreq_;
+ const int in_dict_full_word_;
const int fl1_;
const int fl2_;
const int bad_;
FreqDict<float> freq_dict_;
set<WordID> bad_words_;
+ unordered_map<WordID, int> special_feats_;
};
BasicCSplitFeatures::BasicCSplitFeatures(const string& param) :
@@ -85,8 +106,15 @@ void BasicCSplitFeaturesImpl::TraversalFeaturesImpl(
const int src_word_length,
SparseVector<double>* features) const {
const bool subword = (edge.i_ > 0) || (edge.j_ < src_word_length);
+ string len_bias = "LenBias_0";
+ int swlen = log(src_word_length) / log(1.69);
+ if (swlen > 9) swlen = 9;
+ len_bias[8] += swlen;
+ int fid_len_bias_ = FD::Convert(len_bias);
+ features->set_value(fid_len_bias_, 1.0);
features->set_value(word_count_, 1.0);
features->set_value(letters_sq_, (edge.j_ - edge.i_) * (edge.j_ - edge.i_));
+ features->set_value(letters_log_, log(edge.j_ - edge.i_));
features->set_value(letters_sqrt_, sqrt(edge.j_ - edge.i_));
const WordID word = edge.rule_->e_[1];
const char* sword = TD::Convert(word).c_str();
@@ -113,14 +141,19 @@ void BasicCSplitFeaturesImpl::TraversalFeaturesImpl(
float freq = freq_dict_.LookUp(word);
if (freq) {
- features->set_value(freq_, freq);
+ features->set_value(logfreq_, freq);
+ features->set_value(loglogfreq_, log(freq) / log(1.69));
features->set_value(in_dict_, 1.0);
if (subword) features->set_value(in_dict_sub_word_, 1.0);
} else {
+ if (!subword) features->set_value(in_dict_full_word_, 1.0);
features->set_value(oov_, 1.0);
if (subword) features->set_value(oov_sub_word_, 1.0);
freq = 99.0f;
}
+ const unordered_map<WordID, int>::const_iterator it = special_feats_.find(word);
+ if (it != special_feats_.end())
+ features->set_value(it->second, 1.0);
if (bad_words_.count(word) != 0)
features->set_value(bad_, 1.0);
if (chars < 5)
@@ -139,6 +172,8 @@ void BasicCSplitFeaturesImpl::TraversalFeaturesImpl(
features->set_value(fl2_, freq / chars);
}
+void BasicCSplitFeatures::PrepareForInput(const SentenceMetadata& smeta) {}
+
void BasicCSplitFeatures::TraversalFeaturesImpl(
const SentenceMetadata& smeta,
const Hypergraph::Edge& edge,
diff --git a/decoder/ff_csplit.h b/decoder/ff_csplit.h
index 64d42526..79bf2886 100644
--- a/decoder/ff_csplit.h
+++ b/decoder/ff_csplit.h
@@ -10,6 +10,7 @@ class BasicCSplitFeaturesImpl;
class BasicCSplitFeatures : public FeatureFunction {
public:
BasicCSplitFeatures(const std::string& param);
+ virtual void PrepareForInput(const SentenceMetadata& smeta);
protected:
virtual void TraversalFeaturesImpl(const SentenceMetadata& smeta,
const HG::Edge& edge,
diff --git a/extractor/Makefile.am b/extractor/Makefile.am
index e5b439f9..a406d9dc 100644
--- a/extractor/Makefile.am
+++ b/extractor/Makefile.am
@@ -1,7 +1,5 @@
-bin_PROGRAMS = compile run_extractor extract
-
-if HAVE_CXX11
+bin_PROGRAMS = sacompile run_extractor extract
EXTRA_PROGRAMS = alignment_test \
data_array_test \
@@ -114,8 +112,8 @@ vocabulary_test_LDADD = $(GTEST_LDFLAGS) $(GTEST_LIBS) libextractor.a
noinst_LIBRARIES = libextractor.a
-compile_SOURCES = compile.cc
-compile_LDADD = libextractor.a
+sacompile_SOURCES = sacompile.cc
+sacompile_LDADD = libextractor.a
run_extractor_SOURCES = run_extractor.cc
run_extractor_LDADD = libextractor.a
extract_SOURCES = extract.cc
@@ -134,6 +132,14 @@ libextractor_a_SOURCES = \
features/max_lex_target_given_source.cc \
features/sample_source_count.cc \
features/target_given_source_coherent.cc \
+ features/count_source_target.h \
+ features/feature.h \
+ features/is_source_singleton.h \
+ features/is_source_target_singleton.h \
+ features/max_lex_source_given_target.h \
+ features/max_lex_target_given_source.h \
+ features/sample_source_count.h \
+ features/target_given_source_coherent.h \
grammar.cc \
grammar_extractor.cc \
matchings_finder.cc \
@@ -154,8 +160,33 @@ libextractor_a_SOURCES = \
target_phrase_extractor.cc \
time_util.cc \
translation_table.cc \
- vocabulary.cc
+ vocabulary.cc \
+ alignment.h \
+ backoff_sampler.h \
+ data_array.h \
+ fast_intersector.h \
+ grammar.h \
+ grammar_extractor.h \
+ matchings_finder.h \
+ matchings_sampler.h \
+ matchings_trie.h \
+ phrase.h \
+ phrase_builder.h \
+ phrase_location.h \
+ phrase_location_sampler.h \
+ precomputation.h \
+ rule.h \
+ rule_extractor.h \
+ rule_extractor_helper.h \
+ rule_factory.h \
+ sampler.h \
+ scorer.h \
+ suffix_array.h \
+ suffix_array_sampler.h \
+ target_phrase_extractor.h \
+ time_util.h \
+ translation_table.h \
+ vocabulary.h
-AM_CPPFLAGS = -W -Wall -Wno-sign-compare $(CXX11_SWITCH) -fopenmp $(GTEST_CPPFLAGS) $(GMOCK_CPPFLAGS)
-AM_LDFLAGS = -fopenmp
-endif
+AM_CPPFLAGS = -W -Wall -Wno-sign-compare $(OPENMP_CXXFLAGS) $(GTEST_CPPFLAGS) $(GMOCK_CPPFLAGS)
+AM_LDFLAGS = $(OPENMP_CXXFLAGS)
diff --git a/extractor/extract.cc b/extractor/extract.cc
index 387cbe9b..e5b6f6ff 100644
--- a/extractor/extract.cc
+++ b/extractor/extract.cc
@@ -8,7 +8,11 @@
#include <boost/filesystem.hpp>
#include <boost/program_options.hpp>
#include <boost/program_options/variables_map.hpp>
-#include <omp.h>
+#if HAVE_OPEN_MP
+ #include <omp.h>
+#else
+ const unsigned omp_get_num_threads() { return 1; }
+#endif
#include "alignment.h"
#include "data_array.h"
diff --git a/extractor/run_extractor.cc b/extractor/run_extractor.cc
index f1aa5e35..00564a36 100644
--- a/extractor/run_extractor.cc
+++ b/extractor/run_extractor.cc
@@ -8,7 +8,11 @@
#include <boost/filesystem.hpp>
#include <boost/program_options.hpp>
#include <boost/program_options/variables_map.hpp>
+#if HAVE_OPEN_MP
#include <omp.h>
+#else
+ const unsigned omp_get_num_threads() { return 1; }
+#endif
#include "alignment.h"
#include "data_array.h"
diff --git a/extractor/compile.cc b/extractor/sacompile.cc
index 3ee668ce..3ee668ce 100644
--- a/extractor/compile.cc
+++ b/extractor/sacompile.cc
diff --git a/m4/boost.m4 b/m4/boost.m4
index 027e039b..c8eb65ae 100644
--- a/m4/boost.m4
+++ b/m4/boost.m4
@@ -22,7 +22,7 @@
# along with this program. If not, see <http://www.gnu.org/licenses/>.
m4_define([_BOOST_SERIAL], [m4_translit([
-# serial 16
+# serial 18
], [#
], [])])
@@ -403,15 +403,25 @@ dnl generated only once above (before we start the for loops).
LDFLAGS=$boost_save_LDFLAGS
LIBS=$boost_save_LIBS
if test x"$Boost_lib" = xyes; then
- # Because Boost is often installed in non-standard locations we want to
- # hardcode the path to the library (with rpath). Here we assume that
- # Libtool's macro was already invoked so we can steal its variable
- # hardcode_libdir_flag_spec in order to get the right flags for ld.
- boost_save_libdir=$libdir
- libdir=$boost_ldpath
- eval boost_rpath=\"$hardcode_libdir_flag_spec\"
- libdir=$boost_save_libdir
- Boost_lib_LDFLAGS="-L$boost_ldpath $boost_rpath"
+ # Check or used cached result of whether or not using -R or -rpath makes sense.
+ # Some implementations of ld, such as for Mac OSX, require -rpath but
+ # -R is the flag known to work on other systems.
+ # https://github.com/tsuna/boost.m4/issues/19
+ AC_CACHE_VAL([boost_cv_rpath_link_ldflag],
+ [for boost_cv_rpath_link_ldflag in -Wl,-R, -Wl,-rpath,; do
+ LDFLAGS="$boost_save_LDFLAGS -L$boost_ldpath $boost_cv_rpath_link_ldflag$boost_ldpath"
+ LIBS="$boost_save_LIBS $Boost_lib_LIBS"
+ _BOOST_AC_LINK_IFELSE([],
+ [boost_rpath_link_ldflag_found=yes
+ break],
+ [boost_rpath_link_ldflag_found=no])
+ done
+ AS_IF([test "x$boost_rpath_link_ldflag_found" != "xyes"],
+ [AC_MSG_ERROR([Unable to determine whether to use -R or -rpath])])
+ LDFLAGS=$boost_save_LDFLAGS
+ LIBS=$boost_save_LIBS
+ ])
+ Boost_lib_LDFLAGS="-L$boost_ldpath $boost_cv_rpath_link_ldflag$boost_ldpath"
Boost_lib_LDPATH="$boost_ldpath"
break 6
else
@@ -496,21 +506,21 @@ BOOST_DEFUN([Chrono],
# added as of 1.35.0. If we have a version <1.35, we must not attempt to
# find Boost.System as it didn't exist by then.
if test $boost_major_version -ge 135; then
- BOOST_SYSTEM([$1])
+BOOST_SYSTEM([$1])
fi # end of the Boost.System check.
-boost_system_save_LIBS=$LIBS
-boost_system_save_LDFLAGS=$LDFLAGS
+boost_filesystem_save_LIBS=$LIBS
+boost_filesystem_save_LDFLAGS=$LDFLAGS
m4_pattern_allow([^BOOST_SYSTEM_(LIBS|LDFLAGS)$])dnl
LIBS="$LIBS $BOOST_SYSTEM_LIBS"
LDFLAGS="$LDFLAGS $BOOST_SYSTEM_LDFLAGS"
BOOST_FIND_LIB([chrono], [$1],
- [boost/chrono.hpp],
- [boost::chrono::system_clock::time_point d = boost::chrono::system_clock::now();])
+ [boost/chrono.hpp],
+ [boost::chrono::thread_clock d;])
if test $enable_static_boost = yes && test $boost_major_version -ge 135; then
- AC_SUBST([BOOST_SYSTEM_LIBS], ["$BOOST_SYSTEM_LIBS $BOOST_SYSTEM_LIBS"])
+ AC_SUBST([BOOST_FILESYSTEM_LIBS], ["$BOOST_FILESYSTEM_LIBS $BOOST_SYSTEM_LIBS"])
fi
-LIBS=$boost_system_save_LIBS
-LDFLAGS=$boost_system_save_LDFLAGS
+LIBS=$boost_filesystem_save_LIBS
+LDFLAGS=$boost_filesystem_save_LDFLAGS
])# BOOST_CHRONO
@@ -524,6 +534,14 @@ BOOST_FIND_HEADER([boost/lexical_cast.hpp])
])# BOOST_CONVERSION
+# BOOST_CRC()
+# -----------
+# Look for Boost.CRC
+BOOST_DEFUN([CRC],
+[BOOST_FIND_HEADER([boost/crc.hpp])
+])# BOOST_CRC
+
+
# BOOST_DATE_TIME([PREFERRED-RT-OPT])
# -----------------------------------
# Look for Boost.Date_Time. For the documentation of PREFERRED-RT-OPT, see the
@@ -534,25 +552,6 @@ BOOST_DEFUN([Date_Time],
[boost::posix_time::ptime t;])
])# BOOST_DATE_TIME
-# BOOST_TIMER([PREFERRED-RT-OPT])
-# -----------------------------------
-# Look for Boost.Timer. For the documentation of PREFERRED-RT-OPT, see the
-# documentation of BOOST_FIND_LIB above.
-BOOST_DEFUN([Timer],
-[#check for Boost.System
-BOOST_SYSTEM([$1])
-boost_system_save_LIBS=$LIBS
-boost_system_save_LDFLAGS=$LDFLAGS
-m4_pattern_allow([^BOOST_SYSTEM_(LIBS|LDFLAGS)$])dnl
-LIBS="$LIBS $BOOST_SYSTEM_LIBS"
-LDFLAGS="$LDFLAGS $BOOST_SYSTEM_LDFLAGS"
-BOOST_FIND_LIB([timer], [$1],
- [boost/timer/timer.hpp],
- [boost::timer::auto_cpu_timer t;])
-AC_SUBST([BOOST_SYSTEM_LIBS], ["$BOOST_SYSTEM_LIBS $BOOST_SYSTEM_LIBS"])
-LIBS=$boost_system_save_LIBS
-LDFLAGS=$boost_system_save_LDFLAGS
-])# BOOST_TIMER
# BOOST_FILESYSTEM([PREFERRED-RT-OPT])
# ------------------------------------
@@ -607,6 +606,14 @@ BOOST_DEFUN([Function],
[BOOST_FIND_HEADER([boost/function.hpp])])
+# BOOST_GEOMETRY()
+# ----------------
+# Look for Boost.Geometry (new since 1.47.0).
+BOOST_DEFUN([Geometry],
+[BOOST_FIND_HEADER([boost/geometry.hpp])
+])# BOOST_GEOMETRY
+
+
# BOOST_GRAPH([PREFERRED-RT-OPT])
# -------------------------------
# Look for Boost.Graphs. For the documentation of PREFERRED-RT-OPT, see the
@@ -802,6 +809,14 @@ BOOST_DEFUN([Signals],
])# BOOST_SIGNALS
+# BOOST_SIGNALS2()
+# ----------------
+# Look for Boost.Signals2 (new since 1.39.0).
+BOOST_DEFUN([Signals2],
+[BOOST_FIND_HEADER([boost/signals2.hpp])
+])# BOOST_SIGNALS2
+
+
# BOOST_SMART_PTR()
# -----------------
# Look for Boost.SmartPtr
@@ -949,6 +964,17 @@ BOOST_DEFUN([Variant],
[BOOST_FIND_HEADER([boost/variant/variant_fwd.hpp])
BOOST_FIND_HEADER([boost/variant.hpp])])
+# BOOST_POINTERCONTAINER()
+# ------------------------
+# Look for Boost.PointerContainer
+BOOST_DEFUN([Pointer_Container],
+[BOOST_FIND_HEADER([boost/ptr_container/ptr_deque.hpp])
+BOOST_FIND_HEADER([boost/ptr_container/ptr_list.hpp])
+BOOST_FIND_HEADER([boost/ptr_container/ptr_vector.hpp])
+BOOST_FIND_HEADER([boost/ptr_container/ptr_array.hpp])
+BOOST_FIND_HEADER([boost/ptr_container/ptr_set.hpp])
+BOOST_FIND_HEADER([boost/ptr_container/ptr_map.hpp])
+])# BOOST_POINTERCONTAINER
# BOOST_WAVE([PREFERRED-RT-OPT])
# ------------------------------
diff --git a/python/setup.py.in b/python/setup.py.in
index a2aa28f6..3da405a1 100644
--- a/python/setup.py.in
+++ b/python/setup.py.in
@@ -9,8 +9,6 @@ LIB = ['../decoder', '../utils', '../mteval', '../training/utils', '../klm/lm',
LIBS = re.findall('-l([^\s]+)', '@LIBS@')
CPPFLAGS = re.findall('-[^\s]+', '@CPPFLAGS@ @CXXFLAGS@')
LDFLAGS = re.findall('-[^\s]+', '@LDFLAGS@')
-# Make sure linker flags go only to the linker
-LDFLAGS = [opt.replace('-R', '-Wl,-rpath,') for opt in LDFLAGS]
ext_modules = [
Extension(name='cdec._cdec',
diff --git a/training/liblbfgs/Makefile.am b/training/liblbfgs/Makefile.am
index 272d6f56..aa3af377 100644
--- a/training/liblbfgs/Makefile.am
+++ b/training/liblbfgs/Makefile.am
@@ -1,10 +1,9 @@
-TESTS = ll_test
-noinst_PROGRAMS = ll_test
+noinst_LIBRARIES = liblbfgs.a
+noinst_PROGRAMS = ll_test
ll_test_SOURCES = ll_test.cc
ll_test_LDADD = liblbfgs.a -lz
-
-noinst_LIBRARIES = liblbfgs.a
+TESTS = ll_test
liblbfgs_a_SOURCES = \
lbfgs.c \
diff --git a/training/utils/parallelize.pl b/training/utils/parallelize.pl
index 4197e0e5..c9ab88ce 100755
--- a/training/utils/parallelize.pl
+++ b/training/utils/parallelize.pl
@@ -45,11 +45,22 @@ my $numnodes = 8;
my $user = $ENV{"USER"};
my $pmem = "9g";
my $basep=50300;
-my $randp=300;
my $tryp=50;
my $no_which;
my $no_cd;
+if (-r '/dev/urandom') {
+ open(RR,'</dev/urandom') or die "Failed to read /dev/urandom: $!";
+ my $buffer;
+ die "Failed to read 4 bytes of entropy" unless read(RR,$buffer,4) == 4;
+ close RR;
+ my ($val) = unpack 'L1', $buffer;
+ srand($val);
+} else {
+ srand();
+}
+my $randp=4000;
+
my $DEBUG=$ENV{DEBUG};
print STDERR "DEBUG=$DEBUG output enabled.\n" if $DEBUG;
my $verbose = 1;
@@ -206,8 +217,7 @@ chomp $host;
# find open port
-srand;
-my $port = 50300+int(rand($randp));
+my $port = $basep+int(rand($randp));
my $endp=$port+$tryp;
sub listening_port_lines {
my $quiet=$verbose?'':'2>/dev/null';
diff --git a/utils/stringlib.h b/utils/stringlib.h
index 1bb533d8..f60b7867 100644
--- a/utils/stringlib.h
+++ b/utils/stringlib.h
@@ -265,6 +265,8 @@ inline unsigned int UTF8Len(unsigned char x) {
else if ((x >> 5) == 0x06) return 2;
else if ((x >> 4) == 0x0e) return 3;
else if ((x >> 3) == 0x1e) return 4;
+ else if ((x >> 2) == 0x3e) return 5;
+ else if ((x >> 1) == 0x7e) return 6;
else return 0;
}