diff options
31 files changed, 2978 insertions, 1653 deletions
diff --git a/Makefile.am b/Makefile.am index 008dc704..598293d1 100644 --- a/Makefile.am +++ b/Makefile.am @@ -12,11 +12,10 @@ SUBDIRS = \ klm/search \ decoder \ training \ - training/liblbfgs \ word-aligner \ + extractor \ example_extff -# extractor EXTRA_DIST = corpus tests python/cdec python/tests python/examples compound-split environment AUTOMAKE_OPTIONS = foreign @@ -1,5 +1,16 @@ `cdec` is a research platform for machine translation and similar structured prediction problems. +## System requirements + +- A Linux or Mac OS X system +- A C++ compiler implementing the [C++-11 standard](http://www.stroustrup.com/C++11FAQ.html) <font color="red"><b>(NEW)</b></font> + - Unfortunately, many systems have compilers that predate C++-11 support. + - You may need to build your own C++ compiler or upgrade your operating system. +- [Boost C++ libraries (version 1.44 or later)](http://www.boost.org/) + - If you build your own boost, you _must install it_ using `bjam install`. + - Older versions of Boost _may_ work, but problems have been reported with command line option parsing on some platforms with older versions. +- [GNU Flex](http://flex.sourceforge.net/) + ## Building from a downloaded archive Instructions: @@ -8,13 +19,6 @@ Instructions: make ./tests/run-system-tests.pl -You will need the following software: - -- [Boost C++ libraries (version 1.44 or later)](http://www.boost.org/) - - If you build your own boost, you _must install it_ using `bjam install`. - - Older versions of Boost _may_ work, but problems have been reported with command line option parsing on some platforms with older versions. -- [GNU Flex](http://flex.sourceforge.net/) - ## Building from a git clone In addition to the standard `cdec` third party requirements, you will additionally need the following software: @@ -33,3 +37,8 @@ Instructions: [For more information, refer to the `cdec` documentation](http://www.cdec-decoder.org) +## Citation + +If you make use of cdec, please cite: + +C. Dyer, A. Lopez, J. Ganitkevitch, J. Weese, F. Ture, P. Blunsom, H. Setiawan, V. Eidelman, and P. Resnik. cdec: A Decoder, Alignment, and Learning Framework for Finite-State and Context-Free Translation Models. In *Proceedings of ACL*, July, 2010. [[bibtex](http://www.cdec-decoder.org/cdec.bibtex.txt)] [[pdf](http://www.aclweb.org/anthology/P/P10/P10-4002.pdf)] diff --git a/compound-split/cdec-de.ini b/compound-split/cdec-de.ini index 85424e91..1573dd52 100644 --- a/compound-split/cdec-de.ini +++ b/compound-split/cdec-de.ini @@ -2,5 +2,5 @@ formalism=csplit intersection_strategy=full weights=de/weights.trained #weights=de/weights.noun-only-1best-only -feature_function=CSplit_BasicFeatures de/large_dict.de.gz de/badlist.de.gz +feature_function=CSplit_BasicFeatures de/large_dict.de.gz de/badlist.de.gz de/wordlist.de feature_function=CSplit_ReverseCharLM de/charlm.rev.5gm.de.lm.gz diff --git a/compound-split/de/TRAIN b/compound-split/de/TRAIN index 2b48a8d2..835ffcfc 100755 --- a/compound-split/de/TRAIN +++ b/compound-split/de/TRAIN @@ -1,2 +1,2 @@ -~/cdec/training/mpi_batch_optimize -w weights.trained -t dev.in-ref -p -c cdec-train.ini -M 200 +mpirun -np 8 ~/cdec/training/crf/mpi_batch_optimize -w weights.trained -t train.in-ref -p -c cdec-train.ini -M 200 diff --git a/compound-split/de/cdec-train.ini b/compound-split/de/cdec-train.ini index 44f5934d..cd8e642d 100644 --- a/compound-split/de/cdec-train.ini +++ b/compound-split/de/cdec-train.ini @@ -1,5 +1,5 @@ formalism=csplit # crf_uniform_empirical=true intersection_strategy=full -feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz +feature_function=CSplit_BasicFeatures large_dict.de.gz badlist.de.gz wordlist.de feature_function=CSplit_ReverseCharLM charlm.rev.5gm.de.lm.gz diff --git a/compound-split/de/charlm.rev.5gm.de.lm.gz b/compound-split/de/charlm.rev.5gm.de.lm.gz Binary files differindex 1bae8cb9..80856f61 100644 --- a/compound-split/de/charlm.rev.5gm.de.lm.gz +++ b/compound-split/de/charlm.rev.5gm.de.lm.gz diff --git a/compound-split/de/dev.in-ref b/compound-split/de/dev.in-ref deleted file mode 100644 index b91daced..00000000 --- a/compound-split/de/dev.in-ref +++ /dev/null @@ -1,903 +0,0 @@ -untersuchungsausschuss ||| ((('#',0,1),),(('untersuchung',0,1),('untersuchungs',0,1),),(('ausschuss',0,1),),) -vielleicht ||| # vielleicht -hochzeiten ||| # hochzeiten -damalige ||| # damalige -siegfried ||| # siegfried -jaschinski ||| # jaschinski -verdächtigenkreis ||| ((('#',0,1),),(('verdächtige',0,1),('verdächtigen',0,1),),(('kreis',0,1),),) -staatsanwaltschaft ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('staatsanwaltschaft',0,1),),) -damals ||| # damals -gefeiert ||| # gefeiert -landesbank ||| ((('#',0,1),),(('landesbank',0,2),('landes',0,1),('land',0,1),),(('bank',0,1),),) -ungewöhnlich ||| # ungewöhnlich -schwäbischen ||| # schwäbischen -feldherrn ||| # feld herrn -handelsblatt ||| ((('#',0,1),),(('handels',0,1),('handel',0,1),('handelsblatt',0,2),),(('blatt',0,1),),) -alexander ||| # alexander -großen ||| # großen -promoviert ||| # promoviert -wachstumsplänen ||| ((('#',0,1),),(('wachstums',0,1),('wachstum',0,1),),(('plänen',0,1),),) -keinen ||| # keinen -unausweichlichen ||| # unausweichlichen -konsolidierung ||| # konsolidierung -branche ||| # branche -tragende ||| # tragende -träumt ||| # träumt -institut ||| # institut -glücklicherweise ||| # glücklicherweise -augenhöhe ||| ((('#',0,1),),(('auge',0,1),('augen',0,1),),(('höhe',0,1),),) -deutschen ||| # deutschen -wiederherstellung ||| # wiederherstellung -grundstück ||| ((('#',0,1),),(('grund',0,1),('grundstück',0,2),),(('stück',0,1),),) -ruhestand ||| # ruhestand -widerstand ||| # widerstand -verstrickt ||| # verstrickt -stellen ||| # stellen -zahlreichen ||| # zahlreichen -versammlungsgesetz ||| ((('#',0,1),),(('versammlung',0,1),('versammlungs',0,1),),(('gesetz',0,1),),) -verstöße ||| # verstöße -sachbeschädigung ||| # sach beschädigung -vereinigungen ||| # vereinigungen -glashaus ||| # glas haus -auenlandschaft ||| # auen landschaft -fundament ||| # fundament -vierhock ||| # vierhock -idylle ||| # idylle -plätschert ||| # plätschert -johannes ||| # johannes -angrenzenden ||| # angrenzenden -sportjacke ||| # sport jacke -mittelmeerinseln ||| # mittelmeer inseln -stiefelförmige ||| # stiefel förmige -wiederaufnahme ||| # wiederaufnahme -tonbandaufnahme ||| # tonband aufnahme -korrekturzucker ||| # korrektur zucker -meeresspiegel ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('spiegel',0,1),),) -gesamtausgabe ||| # gesamt ausgabe -losfertigung ||| # los fertigung -reichstag ||| # reichstag -monntag ||| # monntag -mittwoch ||| # mittwoch -freitag ||| # freitag -sonntag ||| # sonntag -nachbarschaftsbeziehungen ||| ((('#',0,1),),(('nachbarschafts',0,1),('nachbarschaft',0,1),),(('beziehungen',0,1),),) -saftbar ||| # saft bar -produktionsprozesses ||| # produktion prozesses -gesamtzusammenhang ||| # gesamt zusammenhang -volkswirtschaftslehre ||| # volk wirtschaft lehre -losverfahren ||| # los verfahren -schifffahrt ||| # schiff fahrt -dienstag ||| # dienstag -donnerstag ||| # donnerstag -samstag ||| # samstag -sonnabend ||| # sonnabend -mitglied ||| # mitglied -abblendlicht ||| # abblend licht -abbrucharbeiten ||| # abbruch arbeiten -abergläubischen ||| # abergläubischen -abfallbewirtschaftungshierarchie ||| # abfall bewirtschaftung hierarchie -abfallbewirtschaftungsplänen ||| # abfall bewirtschaftung plänen -abfertigungsgebühren ||| ((('#',0,1),),(('abfertigung',0,1),('abfertigungs',0,1),),(('gebühren',0,1),),) -beitragsunabhängig ||| ((('#',0,1),),(('beitrag',0,1),('beitrags',0,1),),(('unabhängig',0,1),),) -einreichungsfrist ||| ((('#',0,1),),(('einreichung',0,1),),(('frist',0,1),),) -europaabgeordnete ||| # europa abgeordnete -früherkennungskampagnen ||| ((('#',0,1),),(('früh',0,1),),(('erkennung',0,1),('erkennungs',0,1),),(('kampagnen',0,1),),) -hilfsagenturen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('agenturen',0,1),),) -hilfsinstitutionen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('institutionen',0,1),),) -kaisergranat ||| # kaiser granat -kalifornien ||| # kalifornien -kampfflugzeug ||| # kampf flugzeug -luftangriffen ||| # luft angriffen -luftsicherheit ||| # luft sicherheit -mithäftlingen ||| # mithäftlingen -wartungsarbeiten ||| # wartung arbeiten -wasseraufbereitungsanlagen ||| ((('#',0,1),),(('wasser',0,1),),(('aufbereitungs',0,1),('aufbereitung',0,1),),(('anlagen',0,1),),) -wasserdienstleistungen ||| # wasser dienstleistungen -weihnachtsgeschenk ||| # weihnacht geschenk -weltarbeitsorganisation ||| # welt arbeit organisation -zeitdruck ||| # zeit druck -bundesagentur ||| ((('#',0,1),),(('bund',0,1),('bundes',0,1),),(('agentur',0,1),),) -fahrstuhlschächten ||| # fahrstuhl schächten -elektroindustrie ||| # elektro industrie -sonderpreis ||| # sonder preis -modellrechnung ||| # modell rechnung -treibhauseffekt ||| # treibhaus effekt -europatournee ||| # europa tournee -wirtschaftskrise ||| ((('#',0,1),),(('wirtschafts',0,1),('wirtschaft',0,1),),(('krise',0,1),),) -mittwochabend ||| # mittwoch abend -abschiedsgala ||| ((('#',0,1),),(('abschied',0,1),('abschieds',0,1),),(('gala',0,1),),) -betriebstag ||| # betrieb tag -flughafen ||| # flughafen -truthahn ||| # truthahn -gehirnregion ||| # gehirn region -feststellung ||| # feststellung -thanksgiving ||| # thanks giving -börsenhändler ||| ((('#',0,1),),(('börsen',0,1),('börse',0,1),),(('händler',0,1),),) -risikoforschung ||| # risiko forschung -finanzkrise ||| # finanz krise -erkenntnis ||| # erkenntnis -vergangenheit ||| # vergangenheit -festtagsbratenesser ||| # festtag braten esser -ungemütlichkeit ||| # ungemütlichkeit -privatanlegern ||| # privat anlegern -finanzmakler ||| # finanz makler -immobilienfonds ||| # immobilien fonds -wertzuwachs ||| # wert zuwachs -marmelade ||| # marmelade -roboterzofe ||| # roboter zofe -heinrich ||| # heinrich -zeitdehnung ||| # zeit dehnung -zeitlosigkeit ||| # zeitlosigkeit -auseinandersetzung ||| # auseinandersetzung -immobilienfondskrise ||| ((('#',0,1),),(('immobilien',0,1),),(('fonds',0,1),('fond',0,1),),(('krise',0,1),),) -stackelberg ||| # stackelberg -bodenseedampfschifffahrtsgesellschaftskapitänsmütze ||| # bodensee dampf schiff fahrt gesellschaft kapitän mütze -hamburg ||| # hamburg -inzwischen ||| # inzwischen -deutsche ||| # deutsche -justiz ||| # justiz -britische ||| # britische -bischof ||| # bischof -richard ||| # richard -williamson ||| # williamson -respektablen ||| # respektablen -standes ||| # standes -soutane ||| # soutane -unfassbare ||| # unfassbare -millionen ||| # millionen -gaskammern ||| # gas kammern -holocaustleugner ||| # holocaust leugner -großansicht ||| # groß ansicht -überraschte ||| # überraschte -gegenfrage ||| # gegen frage -journalisten ||| # journalisten -fernsehsender ||| # fernseh sender -schließlich ||| # schließlich -revisionisten ||| # revisionisten -dreihunderttausend ||| # drei hundert tausend -konzentrationslagern ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lagern',0,1),),) -schwadroniert ||| # schwadroniert -schornsteinhöhen ||| # schornstein höhen -touristen ||| # touristen -auschwitz ||| # auschwitz -birkenau ||| # birkenau -antisemitismus ||| ((('#',0,1),),(('anti',0,1),('antisemitismus',0,2),),(('semitismus',0,1),),) -schwedische ||| # schwedische -interviewer ||| # interviewer -bischof ||| # bischof -williamson ||| # williamson -wahrheit ||| # wahrheit -schlecht ||| # schlecht -interessiert ||| # interessiert -entrückte ||| # entrückte -deutscher ||| # deutscher -blamiert ||| # blamiert -katholische ||| # katholische -ausgabe ||| # ausgabe -skandal ||| # skandal -interview ||| # interview -berichtet ||| # berichtet -bayerischen ||| # bayerischen -zaitzhofen ||| # zaitzhofen -fernsehen ||| # fernsehen -regensburger ||| # regensburger -ruckdäschel ||| # ruckdäschel -artikel ||| # artikel -leitete ||| # leitete -angaben ||| # angaben -ermittlungsverfahren ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('verfahren',0,1),),) -verdacht ||| # verdacht -volksverhetzung ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),),) -inzwischen ||| # inzwischen -rechtsanwalt ||| # rechtsanwalt -einlassung ||| # einlassung -behörde ||| # behörde -geistliche ||| # geistliche -gespräch ||| # gespräch -ausschließlich ||| # ausschließlich -auszustrahlen ||| # auszustrahlen -veröffentlichung ||| # veröffentlichung -deutschland ||| # deutschland -exkommunikation ||| # exkommunikation -hintergrund ||| # hintergrund -juristischen ||| # juristischen -volksverhetzungsparagrafen ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),('verhetzungs',0,1),),(('paragrafen',0,1),),) -strafgesetzbuchs ||| # straf gesetz buchs -leugnung ||| # leugnung -strafverfolgung ||| # straf verfolgung -hintertür ||| # hintertür -entziehen ||| # entziehen -inzwischen ||| # inzwischen -einsicht ||| # einsicht -ermittlungsakten ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('akten',0,1),),) -ruckdäschel ||| # ruckdäschel -überlegen ||| # überlegen -schwedischen ||| # schwedischen -journalisten ||| # journalisten -hintergründen ||| # hintergründen -absprachen ||| # absprachen -vorfeld ||| # vorfeld -oberstaatsanwalt ||| ((('#',0,1),),(('ober',0,1),),(('staat',0,1),('staats',0,1),('staatsanwalt',0,2),),(('anwalt',0,1),),) -mendelssohn ||| # mendelssohn -bartholdy ||| # bartholdy -entstammte ||| # entstammte -angesehenen ||| # angesehenen -wohlhabenden ||| # wohlhabenden -bürgerlichen ||| # bürgerlichen -jüdischen ||| # jüdischen -familie ||| # familie -väterlicherseits ||| # väterlicherseits -bedeutenden ||| # bedeutenden -philosophen ||| # philosophen -abraham ||| # abraham -bankkaufmannslehre ||| ((('#',0,1),),(('bank',0,1),),(('kaufmanns',0,1),('kaufmann',0,1),),(('lehre',0,1),),) -kompagnon ||| # kompagnon -mutter ||| # mutter -salomon ||| # salomon -fabrikantenfamilie ||| # fabrikanten familie -schwester ||| # schwester -hensel ||| # hensel -geschwister ||| # geschwister -rebecca ||| # rebecca -mathematiker ||| # mathematiker -dirichlet ||| # dirichlet -kinder ||| # kinder -pfarrer ||| # pfarrer -reformierten ||| # reformierten -gemeinde ||| # gemeinde -berliner ||| # berliner -jerusalems ||| # jerusalems -haustaufe ||| # haus taufe -protestantisch ||| # protestantisch -gelegenheit ||| # gelegenheit -taufnamen ||| # tauf namen -ludwig ||| # ludwig -darüber ||| # darüber -familiennamen ||| ((('#',0,1),),(('familie',0,1),('familien',0,1),),(('namen',0,1),),) -christliche ||| # christliche -beigefügt ||| # beigefügt -vorbesitzers ||| # vorbesitzers -gartens ||| # gartens -abraham ||| # abraham -mendelssohn ||| # mendelssohn -konvertierten ||| # konvertierten -christentum ||| # christentum -kindheit ||| # kindheit -französischen ||| # französischen -besetzung ||| # besetzung -familie ||| # familie -verwitwete ||| # verwitwete -großmutter ||| ((('#',0,1),),(('groß',0,1),('großmutter',0,2),),(('mutter',0,1),),) -musikunterricht ||| # musik unterricht -schülerin ||| # schülerin -philipp ||| # philipp -kirnbergers ||| # kirnbergers -unmittelbaren ||| # unmittelbaren -großtante ||| # groß tante -tochter ||| # tochter -finanzmanns ||| # finanzmanns -daniel ||| # daniel -preußischer ||| # preußischer -friedrich ||| # friedrich -wilhelm ||| # wilhelm -naturalisationspatent ||| ((('#',0,1),),(('naturalisation',0,1),('naturalisations',0,1),),(('patent',0,1),),) -vermittelte ||| # vermittelte -tradition ||| # tradition -gönnerin ||| # gönnerin -lehrerin ||| # lehrerin -vorübergehenden ||| # vorübergehenden -aufenthalts ||| # aufenthalts -rückkehr ||| # rückkehr -unterricht ||| # unterricht -komposition ||| # komposition -ausbildung ||| # ausbildung -schriftstellers ||| # schriftstellers -neunjähriger ||| # neun jähriger -klavierpart ||| # klavier part -klaviertrio ||| # klavier trio -altsänger ||| # alt sänger -akademie ||| # akademie -kirchenmusik ||| ((('#',0,1),),(('kirchen',0,1),('kirche',0,1),),(('musik',0,1),),) -außergewöhnlicher ||| # außergewöhnlicher -schnelligkeit ||| # schnelligkeit -klaviersonaten ||| # klavier sonaten -klaviertrio ||| # klavier trio -orgelstücke ||| # orgel stücke -dreisätzige ||| # drei sätzige -streichersinfonien ||| # streicher sinfonien -motetten ||| # motetten -singspiele ||| # singspiele -soldatenliebschaft ||| # soldaten liebschaft -singspiels ||| # singspiels -komödianten ||| # komödianten -freundschaft ||| # freundschaft -barack ||| # barack -getappt ||| # getappt -anstehenden ||| # anstehenden -herkulesaufgaben ||| # herkules aufgaben -zugleich ||| # zugleich -blütenweiße ||| # blütenweiße -westen ||| # westen -regierungsgrundsätzen ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('grundsätzen',0,1),),) -genügen ||| # genügen -problem ||| # problem -fachlich ||| # fachlich -ansteckenden ||| # ansteckenden -krankheit ||| # krankheit -washington ||| # washington -befallen ||| # befallen -symptome ||| # symptome -verquickung ||| # verquickung -öffentlichen ||| # öffentlichen -interessen ||| # interessen -lobbyistenumtriebe ||| # lobbyisten umtriebe -steuerzahlungsphobie ||| ((('#',0,1),),(('steuer',0,1),),(('zahlung',0,1),('zahlungs',0,1),),(('phobie',0,1),),) -eigentlich ||| # eigentlich -ausgezogen ||| # ausgezogen -krankheit ||| # krankheit -auszurotten ||| # auszurotten -probleme ||| # probleme -gewaltig ||| # gewaltig -problembewältiger ||| # problem bewältiger -verzichten ||| # verzichten -ausnahmen ||| # ausnahmen -nachsichtig ||| # nachsichtig -nachlässig ||| # nachlässig -nummer ||| # nummer -verteidigungsministerium ||| ((('#',0,1),),(('verteidigung',0,1),('verteidigungs',0,1),),(('ministerium',0,1),),) -fachmann ||| # fachmann -rüstungslobbyist ||| ((('#',0,1),),(('rüstung',0,1),('rüstungs',0,1),),(('lobbyist',0,1),),) -geithner ||| # geithner -finanzminister ||| # finanz minister -fiskus ||| # fiskus -vorenthalten ||| # vorenthalten -daschle ||| # daschle -obamas ||| # obamas -wunschkandidat ||| # wunsch kandidat -gesundheitsministerium ||| ((('#',0,1),),(('gesundheit',0,1),('gesundheits',0,1),),(('ministerium',0,1),),) -schuldete ||| # schuldete -begleichung ||| # begleichung -feststand ||| ((('#',0,1),),(('fest',0,1),('feststand',0,2),),(('stand',0,1),),) -tatsächlich ||| # tatsächlich -regierung ||| # regierung -aufrücken ||| # aufrücken -übergelaufen ||| ((('#',0,1),),(('über',0,1),('übergelaufen',0,2),),(('gelaufen',0,1),),) -proteststurm ||| # protest sturm -handtuch ||| ((('#',0,1),),(('hand',0,1),('handtuch',0,2),),(('tuch',0,1),),) -konzentrationslager ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lager',0,1),),) -entwicklungspolitik ||| ((('#',0,1),),(('entwicklung',0,1),('entwicklungs',0,1),),(('politik',0,1),),) -zeitungsbericht ||| ((('#',0,1),),(('zeitung',0,1),('zeitungs',0,1),),(('bericht',0,1),),) -managergehälter ||| # manager gehälter -begrenzen ||| # begrenzen -unternehmen ||| # unternehmen -staatshilfen ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('hilfen',0,1),),) -bescheidener ||| # bescheidener -präsidenten ||| # präsidenten -gehaltsobergrenze ||| ((('#',0,1),),(('gehalt',0,1),('gehalts',0,1),),(('ober',0,1),('obergrenze',0,2),),(('grenze',0,1),),) -sonnensystems ||| # sonnen systems -kreist ||| # kreist -erdähnlicher ||| # erd ähnlicher -planet ||| # planet -exoplanet ||| ((('#',0,1),),(('exo',0,1),('exoplanet',0,2),),(('planet',0,1),),) -durchbruch ||| ((('#',0,1),),(('durch',0,1),('durchbruch',0,2),),(('bruch',0,1),),) -fremden ||| # fremden -ulrich ||| # ulrich -schnabel ||| # schnabel -kulturgeschichte ||| # kultur geschichte -milchwirtschaft ||| # milch wirtschaft -menschen ||| # menschen -geschäftsführung ||| ((('#',0,1),),(('geschäft',0,1),('geschäfts',0,1),),(('führung',0,1),),) -zuständigen ||| # zuständigen -amtsgericht ||| ((('#',0,1),),(('amt',0,1),('amts',0,1),),(('gericht',0,1),),) -göppingen ||| # göppingen -antrag ||| # antrag -eröffnung ||| # eröffnung -insolvenzverfahrens ||| # insolvenz verfahrens -dieter ||| # dieter -ausgewählte ||| # ausgewählte -informationsangebote ||| ((('#',0,1),),(('information',0,1),('informations',0,1),),(('angebote',0,1),),) -deutschen ||| # deutschen -vereinfacht ||| # vereinfacht -vokabelglossar ||| # vokabel glossar -gewaltige ||| # gewaltige -haushohe ||| # haushohe -segler ||| # segler -oktober ||| # oktober -gibraltar ||| # gibraltar -verschwand ||| # verschwand -verfügte ||| # verfügte -bronzekanonen ||| # bronze kanonen -tonnen ||| # tonnen -portugiesischer ||| # portugiesischer -goldmünzen ||| # gold münzen -kaufleute ||| # kauf leute -schätzungen ||| # schätzungen -vergangenen ||| # vergangenen -millionen ||| # millionen -schiffe ||| # schiffe -meeresgrund ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('grund',0,1),),) -unterschiedliche ||| # unterschiedliche -wasserfahrzeuge ||| # wasser fahrzeuge -kriegsschiffe ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('schiffe',0,1),),) -passagierdampfer ||| # passagier dampfer -handelsflotten ||| ((('#',0,1),),(('handel',0,1),('handels',0,1),),(('flotten',0,1),),) -piratenboote ||| ((('#',0,1),),(('pirate',0,1),('piraten',0,1),),(('boote',0,1),),) -tanker ||| # tanker -großbritannien ||| # groß britannien -ältesten ||| # ältesten -seefahrernationen ||| ((('#',0,1),),(('see',0,1),('seefahrer',0,2),),(('fahrer',0,1),),(('nationen',0,1),),) -auffassung ||| # auffassung -marinehistoriker ||| # marine historiker -irgendein ||| # irgendein -anderes ||| # anderes -allein ||| # allein -havarierten ||| # havarierten -registrierte ||| # registrierte -schiffe ||| # schiffe -küstennähe ||| ((('#',0,1),),(('küste',0,1),('küsten',0,1),),(('nähe',0,1),),) -ortung ||| # ortung -victory ||| # victory -amerikanisches ||| # amerikanisches -bergungsunternehmen ||| ((('#',0,1),),(('bergung',0,1),('bergungs',0,1),),(('unternehmen',0,1),),) -wichtigsten ||| # wichtigsten -meeresfunde ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('funde',0,1),),) -geschichte ||| # geschichte -entdeckern ||| # entdeckern -historisches ||| # historisches -kriegsboot ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('boot',0,1),),) -jahrhundert ||| # jahrhundert -tausend ||| # tausend -untergegangenen ||| ((('#',0,1),),(('unter',0,1),('untergegangenen',0,2),),(('gegangenen',0,1),),) -schiffen ||| # schiffen -kostbarsten ||| # kostbarsten -schätzen ||| # schätzen -entdeckung ||| # entdeckung -warten ||| # warten -tauchjagd ||| # tauch jagd -Überreste ||| # Überreste -längst ||| # längst -vergangener ||| # vergangener -epochen ||| # epochen -länder ||| # länder -streiten ||| # streiten -schiffsfriedhöfe ||| ((('#',0,1),),(('schiff',0,1),('schiffs',0,1),),(('friedhöfe',0,1),),) -tauchjagd ||| # tauch jagd -schatzjäger ||| # schatz jäger -moderne ||| # moderne -technik ||| # technik -jahrhundertealte ||| # jahrhunderte alte -wracks ||| # wracks -geheimnisse ||| # geheimnisse -besitzrechte ||| # besitz rechte -wahrscheinlichkeit ||| # wahrscheinlichkeit -minimaltemperatur ||| # minimal temperatur -winterhalbjahr ||| ((('#',0,1),),(('winter',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),) -celsius ||| # celsius -durchschnittliche ||| # durchschnittliche -sommerhalbjahr ||| ((('#',0,1),),(('sommer',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),) -maximaltemperatur ||| # maximal temperatur -kreuzungsversuche ||| ((('#',0,1),),(('kreuzung',0,1),('kreuzungs',0,1),),(('versuche',0,1),),) -erbsenpflanzen ||| ((('#',0,1),),(('erbsen',0,1),('erbse',0,1),),(('pflanzen',0,1),),) -klostergarten ||| # kloster garten -befruchtungen ||| # befruchtungen -zehntausende ||| # zehn tausende -pflanzenhybriden ||| ((('#',0,1),),(('pflanze',0,1),('pflanzen',0,1),),(('hybriden',0,1),),) -fleißaufgabe ||| ((('#',0,1),),(('fleiß',0,1),('fleißaufgabe',0,2),),(('aufgabe',0,1),),) -ungewöhnliche ||| # ungewöhnliche -hartnäckigkeit ||| # hartnäckigkeit -naturforschers ||| # natur forschers -innenminister ||| # innen minister -verbreitete ||| # verbreitete -falschinformationen ||| # falsch informationen -analysen ||| # analysen -hintergründe ||| # hintergründe -menschen ||| # menschen -gekostet ||| # gekostet -hunderte ||| # hunderte -wurden ||| # wurden -verletzt ||| # verletzt -containerschiff ||| # container schiff -unfall ||| # unfall -umweltdesaster ||| # umwelt desaster -australien ||| # australien -größer ||| # größer -bisher ||| # bisher -befürchtet ||| # befürchtet -containerschiff ||| # container schiff -unfall ||| # unfall -australien ||| # australien -deutlich ||| # deutlich -schweröl ||| # schweröl -zunächst ||| # zunächst -angenommen ||| # angenommen -freitag ||| # freitag -schwappte ||| # schwappte -schwarze ||| # schwarze -flüssigkeit ||| # flüssigkeit -strände ||| # strände -kilometern ||| # kilometern -kapitän ||| # kapitän -langen ||| # langen -pacific ||| # pacific -adventurer ||| # adventurer -hongkong ||| # hong kong -verlust ||| # verlust -zunächst ||| # zunächst -tonnen ||| # tonnen -angegeben ||| # angegeben -regierungschef ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('chef',0,1),),) -queensland ||| # queensland -samstag ||| # samstag -kapitän ||| # kapitän -vortag ||| # vortag -vertuschung ||| # vertuschung -vorgeworfen ||| # vorgeworfen -mittwoch ||| # mittwoch -containerschiff ||| # container schiff -naturreservate ||| # natur reservate -touristenstrände ||| # touristen strände -ostküste ||| # ost küste -nördlich ||| # nördlich -brisbane ||| # brisbane -bestechungsversuch ||| ((('#',0,1),),(('bestechungs',0,1),('bestechung',0,1),),(('versuch',0,1),),) -campingkocher ||| # camping kocher -später ||| # später -ermöglichte ||| # ermöglichte -verstärkte ||| # verstärkte -integration ||| # integration -funktechnik ||| # funk technik -mobiltelefone ||| # mobil telefone -aktenkoffers ||| ((('#',0,1),),(('akten',0,1),('aktenkoffers',0,2),),(('koffers',0,1),),) -vorstufe ||| # vorstufe -bedrohlich ||| # bedrohlich -anstieg ||| # anstieg -kohlendioxids ||| ((('#',0,1),),(('kohle',0,1),('kohlen',0,1),),(('dioxids',0,1),),) -computermodelle ||| # computer modelle -überhaupt ||| # überhaupt -schützen ||| # schützen -welchem ||| # welchem -climategate ||| ((('#',0,1),),(('climate',0,1),('climategate',0,2),),(('gate',0,1),),) -genannte ||| # genannte -skandal ||| # skandal -britische ||| # britische -forschungsinstitut ||| ((('#',0,1),),(('forschung',0,1),('forschungs',0,1),),(('institut',0,1),),) -climate ||| # climate -research ||| # research -folgenschwerste ||| ((('#',0,1),),(('folgenschwerste',0,2),('folgen',0,1),('folge',0,1),),(('schwerste',0,1),),) -wissenschaftsdebatte ||| ((('#',0,1),),(('wissenschaft',0,1),('wissenschafts',0,1),),(('debatte',0,1),),) -unserer ||| # unserer -erneut ||| # erneut -computerhacker ||| # computer hacker -hatten ||| # hatten -instituts ||| # instituts -gestohlen ||| # gestohlen -veröffentlicht ||| # veröffentlicht -forscher ||| # forscher -manipulierten ||| # manipulierten -prognose ||| # prognose -baldigen ||| # baldigen -erwärmung ||| # erwärmung -passten ||| # passten -andersdenkende ||| # anders denkende -wissenschaftler ||| # wissenschaftler -wurden ||| # wurden -gezielt ||| # gezielt -diffamiert ||| # diffamiert -wichtigsten ||| # wichtigsten -datenlieferanten ||| # daten lieferanten -weltklimarats ||| # welt klima rats -wesentlichen ||| # wesentlichen -fraktionen ||| # fraktionen -debatte ||| # debatte -herrschende ||| # herrschende -schule ||| # schule -vertreten ||| # vertreten -repräsentiert ||| # repräsentiert -mehrheit ||| # mehrheit -wissenschaftler ||| # wissenschaftler -führender ||| # führender -stelle ||| # stelle -stehen ||| # stehen -forscher ||| # forscher -klimamodelle ||| # klimamodelle -entwickeln ||| # entwickeln -computersimulationen ||| # computer simulationen -künftige ||| # künftige -errechnen ||| # errechnen -sollen ||| # sollen -hauptverantwortlichen ||| # haupt verantwortlichen -prognostizierte ||| # prognostizierte -erwärmung ||| # erwärmung -menschen ||| # menschen -zusätzlich ||| # zusätzlich -natürlichen ||| # natürlichen -geschehen ||| # geschehen -verursachte ||| # verursachte -ermittelt ||| # ermittelt -spatenstich ||| # spaten stich -teuersten ||| # teuersten -kirchenneubau ||| # kirche neu bau -ostdeutschlands ||| # ost deutschlands -erfolgen ||| # erfolgen -rumänien ||| # rumänien -empört ||| # empört -berlin ||| # berlin -rumänische ||| # rumänische -regierung ||| # regierung -empört ||| # empört -ankündigung ||| # ankündigung -deutschlands ||| # deutschlands -frankreichs ||| # frankreichs -beitritt ||| # beitritt -rumäniens ||| # rumäniens -bulgariens ||| # bulgariens -schengen ||| # schengen -nicht ||| # nicht -zuzustimmen ||| # zuzustimmen -bukarest ||| # bukarest -informationen ||| # informationen -verletzung ||| # verletzung -vertrags ||| # vertrags -lissabon ||| # lissabon -rumänischer ||| # rumänischer -zollbeamter ||| ((('#',0,1),),(('zoll',0,1),('zollbeamter',0,2),),(('beamter',0,1),),) -grenze ||| # grenze -zwischen ||| # zwischen -rumänien ||| # rumänien -republik ||| # republik -moldau ||| # moldau -dezember ||| # dezember -regierung ||| # regierung -bukarest ||| # bukarest -empört ||| # empört -treten ||| # treten -kontrollen ||| # kontrollen -grenzen ||| # grenzen -rumänien ||| # rumänien -bulgarien ||| # bulgarien -solange ||| # solange -beizubehalten ||| # beizubehalten -länder ||| # länder -unumkehrbare ||| # unumkehrbare -fortschritte ||| # fortschritte -korruption ||| # korruption -organisierte ||| # organisierte -kriminalität ||| # kriminalität -vorweisen ||| # vorweisen -bukarest ||| # bukarest -informationen ||| # informationen -dieser ||| # dieser -zeitung ||| # zeitung -überlegt ||| # überlegt -vertragsverletzung ||| ((('#',0,1),),(('vertrag',0,1),('vertrags',0,1),),(('verletzung',0,1),),) -einzureichen ||| # einzureichen -sollten ||| # sollten -deutschland ||| # deutschland -frankreich ||| # frankreich -haltung ||| # haltung -durchsetzen ||| # durchsetzen -rumäniens ||| # rumäniens -außenministerium ||| ((('#',0,1),),(('außen',0,1),),(('ministerium',0,1),),) -spricht ||| # spricht -unannehmbaren ||| # unannehmbaren -präzedenzfall ||| ((('#',0,1),),(('präzedenzfall',0,2),('präzedenz',0,1),),(('fall',0,1),),) -sondern ||| # sondern -staatspräsident ||| ((('#',0,1),),(('staatspräsident',0,2),('staats',0,1),('staat',0,1),),(('präsident',0,1),),) -georgi ||| # georgi -parwanow ||| # parwanow -verständnis ||| # verständnis -bulgarien ||| # bulgarien -verstehen ||| # verstehen -auflagen ||| # auflagen -erfüllen ||| # erfüllen -eigentliche ||| # eigentliche -erklärung ||| # erklärung -verzögerung ||| # verzögerung -mittwoch ||| # mittwoch -haltung ||| # haltung -hintergrund ||| # hintergrund -streits ||| # streits -regierung ||| # regierung -ministerpräsident ||| ((('#',0,1),),(('minister',0,1),),(('präsident',0,1),),) -grenzkontrollen ||| ((('#',0,1),),(('grenz',0,1),),(('kontrollen',0,1),),) -entfallen ||| # entfallen -zweiten ||| # zweiten -weltkrieg ||| ((('#',0,1),),(('welt',0,1),('weltkrieg',0,2),),(('krieg',0,1),),) -versteckte ||| # versteckte -abwehr ||| # abwehr -admirals ||| # admirals -canaris ||| # canaris -sprengsätze ||| # sprengsätze -apfelsinenkisten ||| ((('#',0,1),),(('apfelsinen',0,1),('apfelsine',0,1),),(('kisten',0,1),),) -britische ||| # britische -hafenarbeiter ||| ((('#',0,1),),(('hafen',0,1),),(('arbeiter',0,1),),) -weigerten ||| # weigerten -schiffe ||| # schiffe -entladen ||| # entladen -zeiten ||| # zeiten -griechischen ||| # griechischen -militärdiktatur ||| ((('#',0,1),),(('militär',0,1),),(('diktatur',0,1),),) -warnte ||| # warnte -widerstandsgruppe ||| ((('#',0,1),),(('widerstand',0,1),('widerstands',0,1),),(('gruppe',0,1),),) -pfirsiche ||| # pfirsiche -aprikosen ||| # aprikosen -vergiftet ||| # vergiftet -kuklina ||| # kuklina -trägerin ||| # trägerin -alternativen ||| # alternativen -nobelpreis ||| ((('#',0,1),),(('nobel',0,1),),(('preis',0,1),),) -kämpft ||| # kämpft -rechte ||| # rechte -soldaten ||| # soldaten -russlands ||| # russlands -online ||| # online -sprach ||| # sprach -menschenrechte ||| ((('#',0,1),),(('menschen',0,1),('mensch',0,1),),(('rechte',0,1),),) -heimat ||| # heimat -kaufrausch ||| ((('#',0,1),),(('kauf',0,1),),(('rausch',0,1),),) -kommerzialisierung ||| # kommerzialisierung -weihnachten ||| # weihnachten -funktioniert ||| # funktioniert -zittert ||| # zittert -wikileaks ||| # wikileaks -verfassungsgericht ||| ((('#',0,1),),(('verfassung',0,1),('verfassungs',0,1),),(('gericht',0,1),),) -berlusconis ||| # berlusconis -immunität ||| # immunität -teilweise ||| # teilweise -zinspolitik ||| # zins politik -trichet ||| # trichet -inflation ||| # inflation -eurozone ||| ((('#',0,1),),(('euro',0,1),('eurozone',0,2),),(('zone',0,1),),) -effektive ||| # effektive -kontrolle ||| # kontrolle -futtermittelindustrie ||| # futtermittel industrie -deutschland ||| # deutschland -verspielt ||| # verspielt -regierung ||| # regierung -vertrauen ||| # vertrauen -westerwelle ||| # westerwelle -abzugsdatum ||| ((('#',0,1),),(('abzugs',0,1),('abzug',0,1),),(('datum',0,1),),) -ghettoblaster ||| # ghetto blaster -unserem ||| # unserem -alltag ||| # alltag -verschwunden ||| # verschwunden -trotzdem ||| # trotzdem -ikonen ||| # ikonen -jugendkultur ||| # jugend kultur -tatsächlich ||| # tatsächlich -deuten ||| # deuten -hochrechnungen ||| # hochrechnungen -mckinsey ||| # mckinsey -company ||| # company -darauf ||| # darauf -kaufkraft ||| # kauf kraft -dieser ||| # dieser -aufstrebenden ||| # aufstrebenden -mittelschicht ||| # mittel schicht -nächsten ||| # nächsten -jahrzehnts ||| # jahrzehnts -billionen ||| # billionen -dollar ||| # dollar -anwachsen ||| # anwachsen -könnte ||| # könnte -doppelt ||| # doppelt -aktuellen ||| # aktuellen -erbrauchsniveau ||| ((('#',0,1),),(('erbrauch',0,1),('erbrauchs',0,1),),(('niveau',0,1),),) -vereinigten ||| # vereinigten -staaten ||| # staaten -größten ||| # größten -schwellenländer ||| ((('#',0,1),),(('schwellen',0,1),('schwelle',0,1),),(('länder',0,1),),) -brasilien ||| # brasilien -russland ||| # russland -indien ||| # indien -frühstück ||| # frühstück -fortschritt ||| # fortschritt -frühstückstisch ||| ((('#',0,1),),(('frühstück',0,1),('frühstücks',0,1),),(('tisch',0,1),),) -unserer ||| # unserer -familie ||| # familie -vielen ||| # vielen -jahren ||| # jahren -tageszeitung ||| ((('#',0,1),),(('tag',0,1),('tages',0,1),),(('zeitung',0,1),),) -washington ||| # washington -wahlschlacht ||| # wahl schlacht -letzte ||| # letzte -milliarden ||| # milliarden -dollar ||| # dollar -sollen ||| # sollen -wahlkämpfer ||| # wahlkämpfer -bislang ||| # bislang -kampagnen ||| # kampagnen -ausgegeben ||| # ausgegeben -abstimmung ||| # abstimmung -mobilisieren ||| # mobilisieren -letzten ||| # letzten -reserven ||| # reserven -wähler ||| # wähler -bekommen ||| # bekommen -herausforderer ||| # herausforderer -romney ||| # romney -kündigte ||| # kündigte -wahltag ||| # wahltag -selbst ||| # selbst -mehreren ||| # mehreren -bundesstaaten ||| # bundesstaaten -aufzutreten ||| # aufzutreten -ursprünglich ||| # ursprünglich -abschlussveranstaltung ||| # abschluss veranstaltung -montagabend ||| # montag abend -vorgesehen ||| # vorgesehen -schließung ||| # schließung -wahllokale ||| # wahl lokale -stimmen ||| # stimmen -werben ||| # werben -sprecher ||| # sprecher -wahlkampfteams ||| # wahlkampf teams -pennsylvania ||| # pennsylvania -natürlich ||| # natürlich -schicksalstaat ||| # schicksal staat -republikaner ||| # republikaner -präsident ||| # präsident -geworden ||| # geworden -gewonnen ||| # gewonnen -auswertung ||| # auswertung -portals ||| # portals -national ||| # national -sieben ||| # sieben -november ||| # november -umfragen ||| # umfragen -meistumkämpfte ||| # meist umkämpfte -mehrheit ||| # mehrheit -feststeht ||| # feststeht -wahlkämpfer ||| # wahlkämpfer -besonders ||| # besonders -relevant ||| # relevant -direkt ||| # direkt -gewählt ||| # gewählt -präsident ||| # präsident -wahlmännergremium ||| # wahlmänner gremium -spiegeln ||| # spiegeln -ergebnisse ||| # ergebnisse -einzelnen ||| # einzelnen -bundesstaaten ||| # bundesstaaten -präsident ||| # präsident -letzten ||| # letzten -seiner ||| # seiner -kampagne ||| # kampagne -vorgelegt ||| # vorgelegt -rocklegende ||| # rock legende -springsteen ||| # springsteen -botschafter ||| # botschafter -seiner ||| # seiner -kampagne ||| # kampagne -wisconsin ||| # wisconsin -dankte ||| # dankte -präsidenten ||| # präsidenten -während ||| # während -konzerts ||| # konzerts -gesundheitsreform ||| ((('#',0.0,1),),(('gesundheits',0.0,1),('gesundheit',0.0,1),),(('reform',0.0,1),),) -regulierung ||| # regulierung -street ||| # street -später ||| # später -auftritte ||| # auftritte -natürlich ||| # natürlich -summen ||| # summen -vibrieren ||| # vibrieren -duftstoffe ||| ((('#',0.0,1),),(('duftstoffe',0.0,2),('duft',0.0,1),),(('stoffe',0.0,1),),) -echten ||| # echten -verströmen ||| # verströmen -roboterbiene ||| # roboter biene -entwickelt ||| # entwickelt -wissenschaftlern ||| # wissenschaftlern -freien ||| # freien -universität ||| # universität -berlin ||| # berlin -künstlichen ||| # künstlichen -insekt ||| # insekt -wollen ||| # wollen -forscher ||| # forscher -futterquellen ||| # futter quellen -lotsen ||| # lotsen -geheimnis ||| # geheimnis -bienentanzes ||| # biene tanzes -entschlüsseln ||| # entschlüsseln -klimawandel ||| # klima wandel diff --git a/compound-split/de/large_dict.de.gz b/compound-split/de/large_dict.de.gz Binary files differindex f5b1b9d3..c7db323c 100644 --- a/compound-split/de/large_dict.de.gz +++ b/compound-split/de/large_dict.de.gz diff --git a/compound-split/de/test b/compound-split/de/test deleted file mode 100644 index 8dac76cd..00000000 --- a/compound-split/de/test +++ /dev/null @@ -1,302 +0,0 @@ -aktiengesellschaft -aktiengesellschaft -wiederaufnahme -tonbandaufnahme -staatskrise -staatskrise -madagaskars -präsident -bittet -schlagworte -demonstration -putsch -machtkampf -zwischen -opposition -regierungspartei -regierungspartei -spitzt -afrikanischen -botschaft -befürchtet -bürgerkrieg -mitglieder -oppositionspartei -oppositionspartei -demonstrieren -putsch -madagaskars -präsidenten -ravalomanana -mitglieder -oppositionspartei -oppositionspartei -demonstrieren -putsch -madagaskars -präsidenten -ravalomanana -bedrängte -präsident -wandte -öffentlichen -hilferuf -anhänger -forderte -regierungssitz -regierungssitz -schützen -mitglieder -präsidentengarde -präsidentengarde -unbestätigten -medienberichten -medienberichten -begonnen -posten -verlassen -augenzeugen -augenzeugen -berichteten -gepanzerte -fahrzeuge -außenbezirken -hauptstadt -hauptstadt -antananarivo -botschafter -marquardt -nationalen -fernsehen -erklärt -steuere -bürgerkrieg -botschaft -familien -mitarbeiter -unbedingt -benötigt -werden -bürger -verlassen -landes -aufgefordert -deutsche -botschaft -dagegen -wollte -absprache -anderen -europäischen -vertretungen -zunächst -ausreise -empfehlung -regierung -angeschlagenen -staatspräsidenten -staatspräsidenten -ravalomanana -demokratiebewegung -selbst -ernannten -präsidenten -übergangsregierung -übergangsregierung -rajoelina -gegenüber -wochen -andauernde -erbitterte -machtkampf -menschen -gekostet -hunderte -wurden -verletzt -modernisierung -atomwaffen -umbauten -marine -russlands -präsident -medwedew -aufrüstung -begründung -versuche -präsenz -grenzen -landes -verstärken -anzeige -moskau -dmitrij -medwedew -begründet -bebaren -russischen -streitkräfte -sollten -massiv -gestärkt -atomwaffenarsenal -atomwaffenarsenal -modernisiert -werden -westliche -militärbündnis -versuche -präsenz -grenzen -auszubauen -präsident -deshalb -aufrüstung -marine -umfang -beginne -umfassende -umrüstung -heeres -flotte -ernstes -konfliktpotential -infrastruktur -kampfkraft -streitkräfte -strategischen -atomwaffen -internationalen -terrorismus -gefechtsbereitschaft -gefechtsbereitschaft -strategischen -atomwaffen -militärs -aktuellen -haushaltsprobleme -haushaltsprobleme -auswirkungen -regierung -streitkräfteetat -infolge -finanzkrise -zusammengestrichen -zusammengestrichen -weitere -kürzungen -ausgeschlossen -medwedews -vorgänger -wladimir -wiederholt -modernisierung -waffenarsenals -verkündet -umsetzung -ankündigungen -großteil -atomwaffen -sowjetzeiten -stimmung -streitkräften -rahmen -reform -offizierkorps -verkleinert -werden -trifolium -umfassende -pflanzengattung -pflanzengattung -unterfamilie -schmetterlingsblütler -schmetterlingsblütler -faboideae -pflanzenfamilie -pflanzenfamilie -hülsenfrüchtler -hülsenfrüchtler -fabaceae -gezählt -sprachgebrauch -allerdings -häufig -gattung -bezeichnet -sondern -nahverwandten -gattungen -schneckenklee -schneckenklee -medicago -steinklee -melilotus -taxonomisch -entfernten -gattung -sauerklee -oxalis -charakteristische -merkmale -gattung -dreifiedrige -blätter -vielblütige -kopfige -blütenstände -blütenstände -kontinenten -ausnahme -australiens -antarktikas -natürlich -verbreitet -australien -wurden -verschiedene -kleearten -menschen -eingeführt -landwirtschaft -werden -verschiedene -kleearten -futterpflanzen -verwendet -kleeanbau -europa -nordamerika -ökonomischer -bedeutung -europa -jahrhundert -christus -angebaut -fähigkeit -symbiose -knöllchenbakterien -rhizobiaceae -wurzeln -stickstoff -verbesserung -bodenfruchtbarkeit -bedeutend -kleeblatt -symbolik -vieler -kulturen -eingang -repräsentiert -dreiheit -beispiel -christentum -dreifaltigkeit -weiterhin -sommer -symbolisiert -vierblättrige -kleeblatt -glücksbringer -glücksbringer -XX diff --git a/compound-split/de/test.ref b/compound-split/de/test.ref deleted file mode 100644 index 4b3c7abc..00000000 --- a/compound-split/de/test.ref +++ /dev/null @@ -1,302 +0,0 @@ -aktien gesellschaft -aktie gesellschaft -wiederaufnahme -tonband aufnahme -staats krise -staat krise -madagaskars -präsident -bittet -schlagworte -demonstration -putsch -macht kampf -zwischen -opposition -regierungs partei -regierung partei -spitzt -afrikanischen -botschaft -befürchtet -bürger krieg -mitglieder -oppositions partei -opposition partei -demonstrieren -putsch -madagaskars -präsidenten -ravalomanana -mitglieder -oppositions partei -opposition partei -demonstrieren -putsch -madagaskars -präsidenten -ravalomanana -bedrängte -präsident -wandte -öffentlichen -hilfe ruf -anhänger -forderte -regierungs sitz -regierung sitz -schützen -mitglieder -präsidenten garde -präsidenten garde -unbestätigten -medien berichten -medie berichten -begonnen -posten -verlassen -augen zeugen -auge zeugen -berichteten -gepanzerte -fahrzeuge -außen bezirken -haupt stadt -hauptstadt -antananarivo -botschafter -marquardt -nationalen -fernsehen -erklärt -steuere -bürger krieg -botschaft -familien -mitarbeiter -unbedingt -benötigt -werden -bürger -verlassen -landes -aufgefordert -deutsche -botschaft -dagegen -wollte -absprache -anderen -europäischen -vertretungen -zunächst -ausreise -empfehlung -regierung -angeschlagenen -staats präsidenten -staat präsidenten -ravalomanana -demokratie bewegung -selbst -ernannten -präsidenten -übergangs regierung -übergang regierung -rajoelina -gegenüber -wochen -andauernde -erbitterte -macht kampf -menschen -gekostet -hunderte -wurden -verletzt -modernisierung -atom waffen -umbauten -marine -russlands -präsident -medwedew -aufrüstung -begründung -versuche -präsenz -grenzen -landes -verstärken -anzeige -moskau -dmitrij -medwedew -begründet -bebaren -russischen -streit kräfte -sollten -massiv -gestärkt -atom waffen arsenal -atomwaffen arsenal -modernisiert -werden -westliche -militärbündnis -versuche -präsenz -grenzen -auszubauen -präsident -deshalb -aufrüstung -marine -umfang -beginne -umfassende -umrüstung -heeres -flotte -ernstes -konflikt potential -infrastruktur -kampf kraft -streit kräfte -strategischen -atom waffen -internationalen -terrorismus -gefechts bereitschaft -gefecht bereitschaft -strategischen -atomwaffen -militärs -aktuellen -haushalts probleme -haushalt probleme -auswirkungen -regierung -streit kräfte etat -infolge -finanz krise -zusammengestrichen -zusammen gestrichen -weitere -kürzungen -ausgeschlossen -medwedews -vorgänger -wladimir -wiederholt -modernisierung -waffen arsenals -verkündet -umsetzung -ankündigungen -groß teil -atom waffen -sowjet zeiten -stimmung -streit kräften -rahmen -reform -offizier korps -verkleinert -werden -trifolium -umfassende -pflanzen gattung -pflanze gattung -unterfamilie -schmetterlings blütler -schmetterling blütler -faboideae -pflanzen familie -pflanze familie -hülsen früchtler -hülse früchtler -fabaceae -gezählt -sprach gebrauch -allerdings -häufig -gattung -bezeichnet -sondern -nah verwandten -gattungen -schnecken klee -schnecke klee -medicago -stein klee -melilotus -taxonomisch -entfernten -gattung -sauer klee -oxalis -charakteristische -merkmale -gattung -drei fiedrige -blätter -viel blütige -kopfige -blüten stände -blüte stände -kontinenten -ausnahme -australiens -antarktikas -natürlich -verbreitet -australien -wurden -verschiedene -klee arten -menschen -eingeführt -landwirtschaft -werden -verschiedene -klee arten -futter pflanzen -verwendet -klee anbau -europa -nord amerika -ökonomischer -bedeutung -europa -jahrhundert -christus -angebaut -fähigkeit -symbiose -knöllchen bakterien -rhizobiaceae -wurzeln -stickstoff -verbesserung -boden fruchtbarkeit -bedeutend -klee blatt -symbolik -vieler -kulturen -eingang -repräsentiert -dreiheit -beispiel -christentum -dreifaltigkeit -weiterhin -sommer -symbolisiert -vier blättrige -klee blatt -glücks bringer -glück bringer -XX diff --git a/compound-split/de/train.in-ref b/compound-split/de/train.in-ref new file mode 100644 index 00000000..80251b4a --- /dev/null +++ b/compound-split/de/train.in-ref @@ -0,0 +1,2531 @@ +niederlande ||| # niederlande +hauptstadt ||| # hauptstadt +untersuchungsausschuss ||| ((('#',0,1),),(('untersuchung',0,1),('untersuchungs',0,1),),(('ausschuss',0,1),),) +vielleicht ||| # vielleicht +hochzeiten ||| # hochzeiten +damalige ||| # damalige +siegfried ||| # siegfried +jaschinski ||| # jaschinski +verdächtigenkreis ||| ((('#',0,1),),(('verdächtige',0,1),('verdächtigen',0,1),),(('kreis',0,1),),) +staatsanwaltschaft ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('staatsanwaltschaft',0,1),),) +damals ||| # damals +gefeiert ||| # gefeiert +landesbank ||| ((('#',0,1),),(('landesbank',0,2),('landes',0,1),('land',0,1),),(('bank',0,1),),) +ungewöhnlich ||| # ungewöhnlich +schwäbischen ||| # schwäbischen +feldherrn ||| # feld herrn +handelsblatt ||| ((('#',0,1),),(('handels',0,1),('handel',0,1),('handelsblatt',0,2),),(('blatt',0,1),),) +alexander ||| # alexander +großen ||| # großen +promoviert ||| # promoviert +wachstumsplänen ||| ((('#',0,1),),(('wachstums',0,1),('wachstum',0,1),),(('plänen',0,1),),) +keinen ||| # keinen +unausweichlichen ||| # unausweichlichen +konsolidierung ||| # konsolidierung +branche ||| # branche +tragende ||| # tragende +träumt ||| # träumt +institut ||| # institut +glücklicherweise ||| # glücklicherweise +augenhöhe ||| ((('#',0,1),),(('auge',0,1),('augen',0,1),),(('höhe',0,1),),) +deutschen ||| # deutschen +wiederherstellung ||| # wiederherstellung +grundstück ||| ((('#',0,1),),(('grund',0,1),('grundstück',0,2),),(('stück',0,1),),) +ruhestand ||| # ruhestand +widerstand ||| # widerstand +verstrickt ||| # verstrickt +stellen ||| # stellen +zahlreichen ||| # zahlreichen +versammlungsgesetz ||| ((('#',0,1),),(('versammlung',0,1),('versammlungs',0,1),),(('gesetz',0,1),),) +verstöße ||| # verstöße +sachbeschädigung ||| # sach beschädigung +vereinigungen ||| # vereinigungen +glashaus ||| # glas haus +auenlandschaft ||| # auen landschaft +fundament ||| # fundament +vierhock ||| # vierhock +idylle ||| # idylle +plätschert ||| # plätschert +johannes ||| # johannes +angrenzenden ||| # angrenzenden +sportjacke ||| # sport jacke +mittelmeerinseln ||| # mittelmeer inseln +stiefelförmige ||| # stiefel förmige +wiederaufnahme ||| # wiederaufnahme +tonbandaufnahme ||| # tonband aufnahme +korrekturzucker ||| # korrektur zucker +meeresspiegel ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('spiegel',0,1),),) +gesamtausgabe ||| # gesamt ausgabe +losfertigung ||| # los fertigung +reichstag ||| # reichstag +monntag ||| # monntag +mittwoch ||| # mittwoch +freitag ||| # freitag +sonntag ||| # sonntag +nachbarschaftsbeziehungen ||| ((('#',0,1),),(('nachbarschafts',0,1),('nachbarschaft',0,1),),(('beziehungen',0,1),),) +saftbar ||| # saft bar +produktionsprozesses ||| # produktion prozesses +gesamtzusammenhang ||| # gesamt zusammenhang +volkswirtschaftslehre ||| # volk wirtschaft lehre +losverfahren ||| # los verfahren +schifffahrt ||| # schiff fahrt +dienstag ||| # dienstag +donnerstag ||| # donnerstag +samstag ||| # samstag +sonnabend ||| # sonnabend +mitglied ||| # mitglied +abblendlicht ||| # abblend licht +abbrucharbeiten ||| # abbruch arbeiten +abergläubischen ||| # abergläubischen +abfallbewirtschaftungshierarchie ||| # abfall bewirtschaftung hierarchie +abfallbewirtschaftungsplänen ||| # abfall bewirtschaftung plänen +abfertigungsgebühren ||| ((('#',0,1),),(('abfertigung',0,1),('abfertigungs',0,1),),(('gebühren',0,1),),) +beitragsunabhängig ||| ((('#',0,1),),(('beitrag',0,1),('beitrags',0,1),),(('unabhängig',0,1),),) +einreichungsfrist ||| ((('#',0,1),),(('einreichung',0,1),),(('frist',0,1),),) +europaabgeordnete ||| # europa abgeordnete +früherkennungskampagnen ||| ((('#',0,1),),(('früh',0,1),),(('erkennung',0,1),('erkennungs',0,1),),(('kampagnen',0,1),),) +hilfsagenturen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('agenturen',0,1),),) +hilfsinstitutionen ||| ((('#',0,1),),(('hilf',0,1),('hilfs',0,1),),(('institutionen',0,1),),) +kaisergranat ||| # kaiser granat +kalifornien ||| # kalifornien +kampfflugzeug ||| # kampf flugzeug +luftangriffen ||| # luft angriffen +luftsicherheit ||| # luft sicherheit +mithäftlingen ||| # mithäftlingen +wartungsarbeiten ||| # wartung arbeiten +wasseraufbereitungsanlagen ||| ((('#',0,1),),(('wasser',0,1),),(('aufbereitungs',0,1),('aufbereitung',0,1),),(('anlagen',0,1),),) +wasserdienstleistungen ||| # wasser dienstleistungen +weihnachtsgeschenk ||| # weihnacht geschenk +weltarbeitsorganisation ||| # welt arbeit organisation +zeitdruck ||| # zeit druck +bundesagentur ||| ((('#',0,1),),(('bund',0,1),('bundes',0,1),),(('agentur',0,1),),) +fahrstuhlschächten ||| # fahrstuhl schächten +elektroindustrie ||| # elektro industrie +sonderpreis ||| # sonder preis +modellrechnung ||| # modell rechnung +treibhauseffekt ||| # treibhaus effekt +europatournee ||| # europa tournee +wirtschaftskrise ||| ((('#',0,1),),(('wirtschafts',0,1),('wirtschaft',0,1),),(('krise',0,1),),) +mittwochabend ||| # mittwoch abend +abschiedsgala ||| ((('#',0,1),),(('abschied',0,1),('abschieds',0,1),),(('gala',0,1),),) +betriebstag ||| # betrieb tag +flughafen ||| # flughafen +truthahn ||| # truthahn +gehirnregion ||| # gehirn region +feststellung ||| # feststellung +thanksgiving ||| # thanks giving +börsenhändler ||| ((('#',0,1),),(('börsen',0,1),('börse',0,1),),(('händler',0,1),),) +risikoforschung ||| # risiko forschung +finanzkrise ||| # finanz krise +erkenntnis ||| # erkenntnis +vergangenheit ||| # vergangenheit +festtagsbratenesser ||| # festtag braten esser +ungemütlichkeit ||| # ungemütlichkeit +privatanlegern ||| # privat anlegern +finanzmakler ||| # finanz makler +immobilienfonds ||| # immobilien fonds +wertzuwachs ||| # wert zuwachs +marmelade ||| # marmelade +roboterzofe ||| # roboter zofe +heinrich ||| # heinrich +zeitdehnung ||| # zeit dehnung +zeitlosigkeit ||| # zeitlosigkeit +auseinandersetzung ||| # auseinandersetzung +immobilienfondskrise ||| ((('#',0,1),),(('immobilien',0,1),),(('fonds',0,1),('fond',0,1),),(('krise',0,1),),) +stackelberg ||| # stackelberg +bodenseedampfschifffahrtsgesellschaftskapitänsmütze ||| # bodensee dampf schiff fahrt gesellschaft kapitän mütze +hamburg ||| # hamburg +inzwischen ||| # inzwischen +deutsche ||| # deutsche +justiz ||| # justiz +britische ||| # britische +bischof ||| # bischof +richard ||| # richard +williamson ||| # williamson +respektablen ||| # respektablen +standes ||| # standes +soutane ||| # soutane +unfassbare ||| # unfassbare +millionen ||| # millionen +gaskammern ||| # gas kammern +holocaustleugner ||| # holocaust leugner +großansicht ||| # groß ansicht +überraschte ||| # überraschte +gegenfrage ||| # gegen frage +journalisten ||| # journalisten +fernsehsender ||| # fernseh sender +schließlich ||| # schließlich +revisionisten ||| # revisionisten +dreihunderttausend ||| # drei hundert tausend +konzentrationslagern ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lagern',0,1),),) +schwadroniert ||| # schwadroniert +schornsteinhöhen ||| # schornstein höhen +touristen ||| # touristen +auschwitz ||| # auschwitz +birkenau ||| # birkenau +antisemitismus ||| ((('#',0,1),),(('anti',0,1),('antisemitismus',0,2),),(('semitismus',0,1),),) +schwedische ||| # schwedische +interviewer ||| # interviewer +bischof ||| # bischof +williamson ||| # williamson +wahrheit ||| # wahrheit +schlecht ||| # schlecht +interessiert ||| # interessiert +entrückte ||| # entrückte +deutscher ||| # deutscher +blamiert ||| # blamiert +katholische ||| # katholische +ausgabe ||| # ausgabe +skandal ||| # skandal +interview ||| # interview +berichtet ||| # berichtet +bayerischen ||| # bayerischen +zaitzhofen ||| # zaitzhofen +fernsehen ||| # fernsehen +regensburger ||| # regensburger +ruckdäschel ||| # ruckdäschel +artikel ||| # artikel +leitete ||| # leitete +angaben ||| # angaben +ermittlungsverfahren ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('verfahren',0,1),),) +verdacht ||| # verdacht +volksverhetzung ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),),) +inzwischen ||| # inzwischen +rechtsanwalt ||| # rechtsanwalt +einlassung ||| # einlassung +behörde ||| # behörde +geistliche ||| # geistliche +gespräch ||| # gespräch +ausschließlich ||| # ausschließlich +auszustrahlen ||| # auszustrahlen +veröffentlichung ||| # veröffentlichung +deutschland ||| # deutschland +deutschland ||| # deutschland +deutschland ||| # deutschland +deutschland ||| # deutschland +deutschland ||| # deutschland +exkommunikation ||| # exkommunikation +hintergrund ||| # hintergrund +juristischen ||| # juristischen +volksverhetzungsparagrafen ||| ((('#',0,1),),(('volk',0,1),('volks',0,1),),(('verhetzung',0,1),('verhetzungs',0,1),),(('paragrafen',0,1),),) +strafgesetzbuchs ||| # straf gesetz buchs +leugnung ||| # leugnung +strafverfolgung ||| # straf verfolgung +hintertür ||| # hintertür +entziehen ||| # entziehen +inzwischen ||| # inzwischen +einsicht ||| # einsicht +ermittlungsakten ||| ((('#',0,1),),(('ermittlung',0,1),('ermittlungs',0,1),),(('akten',0,1),),) +ruckdäschel ||| # ruckdäschel +überlegen ||| # überlegen +schwedischen ||| # schwedischen +journalisten ||| # journalisten +hintergründen ||| # hintergründen +absprachen ||| # absprachen +vorfeld ||| # vorfeld +oberstaatsanwalt ||| ((('#',0,1),),(('ober',0,1),),(('staat',0,1),('staats',0,1),('staatsanwalt',0,2),),(('anwalt',0,1),),) +mendelssohn ||| # mendelssohn +bartholdy ||| # bartholdy +entstammte ||| # entstammte +angesehenen ||| # angesehenen +wohlhabenden ||| # wohlhabenden +bürgerlichen ||| # bürgerlichen +jüdischen ||| # jüdischen +familie ||| # familie +väterlicherseits ||| # väterlicherseits +bedeutenden ||| # bedeutenden +philosophen ||| # philosophen +abraham ||| # abraham +bankkaufmannslehre ||| ((('#',0,1),),(('bank',0,1),),(('kaufmanns',0,1),('kaufmann',0,1),),(('lehre',0,1),),) +kompagnon ||| # kompagnon +mutter ||| # mutter +salomon ||| # salomon +fabrikantenfamilie ||| # fabrikanten familie +schwester ||| # schwester +hensel ||| # hensel +geschwister ||| # geschwister +rebecca ||| # rebecca +mathematiker ||| # mathematiker +dirichlet ||| # dirichlet +kinder ||| # kinder +pfarrer ||| # pfarrer +reformierten ||| # reformierten +gemeinde ||| # gemeinde +berliner ||| # berliner +jerusalems ||| # jerusalems +haustaufe ||| # haus taufe +protestantisch ||| # protestantisch +gelegenheit ||| # gelegenheit +taufnamen ||| # tauf namen +ludwig ||| # ludwig +darüber ||| # darüber +familiennamen ||| ((('#',0,1),),(('familie',0,1),('familien',0,1),),(('namen',0,1),),) +christliche ||| # christliche +beigefügt ||| # beigefügt +vorbesitzers ||| # vorbesitzers +gartens ||| # gartens +abraham ||| # abraham +mendelssohn ||| # mendelssohn +konvertierten ||| # konvertierten +christentum ||| # christentum +kindheit ||| # kindheit +französischen ||| # französischen +besetzung ||| # besetzung +familie ||| # familie +verwitwete ||| # verwitwete +großmutter ||| ((('#',0,1),),(('groß',0,1),('großmutter',0,2),),(('mutter',0,1),),) +musikunterricht ||| # musik unterricht +schülerin ||| # schülerin +philipp ||| # philipp +kirnbergers ||| # kirnbergers +unmittelbaren ||| # unmittelbaren +großtante ||| # groß tante +tochter ||| # tochter +finanzmanns ||| # finanzmanns +daniel ||| # daniel +preußischer ||| # preußischer +friedrich ||| # friedrich +wilhelm ||| # wilhelm +naturalisationspatent ||| ((('#',0,1),),(('naturalisation',0,1),('naturalisations',0,1),),(('patent',0,1),),) +vermittelte ||| # vermittelte +tradition ||| # tradition +gönnerin ||| # gönnerin +lehrerin ||| # lehrerin +vorübergehenden ||| # vorübergehenden +aufenthalts ||| # aufenthalts +rückkehr ||| # rückkehr +unterricht ||| # unterricht +komposition ||| # komposition +ausbildung ||| # ausbildung +schriftstellers ||| # schriftstellers +neunjähriger ||| # neun jähriger +klavierpart ||| # klavier part +klaviertrio ||| # klavier trio +altsänger ||| # alt sänger +akademie ||| # akademie +kirchenmusik ||| ((('#',0,1),),(('kirchen',0,1),('kirche',0,1),),(('musik',0,1),),) +außergewöhnlicher ||| # außergewöhnlicher +schnelligkeit ||| # schnelligkeit +klaviersonaten ||| # klavier sonaten +klaviertrio ||| # klavier trio +orgelstücke ||| # orgel stücke +dreisätzige ||| # drei sätzige +streichersinfonien ||| # streicher sinfonien +motetten ||| # motetten +singspiele ||| # singspiele +soldatenliebschaft ||| # soldaten liebschaft +singspiels ||| # singspiels +komödianten ||| # komödianten +freundschaft ||| # freundschaft +barack ||| # barack +getappt ||| # getappt +anstehenden ||| # anstehenden +herkulesaufgaben ||| # herkules aufgaben +zugleich ||| # zugleich +blütenweiße ||| # blütenweiße +westen ||| # westen +regierungsgrundsätzen ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('grundsätzen',0,1),),) +genügen ||| # genügen +problem ||| # problem +fachlich ||| # fachlich +ansteckenden ||| # ansteckenden +krankheit ||| # krankheit +washington ||| # washington +befallen ||| # befallen +symptome ||| # symptome +verquickung ||| # verquickung +öffentlichen ||| # öffentlichen +interessen ||| # interessen +lobbyistenumtriebe ||| # lobbyisten umtriebe +steuerzahlungsphobie ||| ((('#',0,1),),(('steuer',0,1),),(('zahlung',0,1),('zahlungs',0,1),),(('phobie',0,1),),) +eigentlich ||| # eigentlich +ausgezogen ||| # ausgezogen +krankheit ||| # krankheit +auszurotten ||| # auszurotten +probleme ||| # probleme +gewaltig ||| # gewaltig +problembewältiger ||| # problem bewältiger +verzichten ||| # verzichten +ausnahmen ||| # ausnahmen +nachsichtig ||| # nachsichtig +nachlässig ||| # nachlässig +nummer ||| # nummer +verteidigungsministerium ||| ((('#',0,1),),(('verteidigung',0,1),('verteidigungs',0,1),),(('ministerium',0,1),),) +fachmann ||| # fachmann +rüstungslobbyist ||| ((('#',0,1),),(('rüstung',0,1),('rüstungs',0,1),),(('lobbyist',0,1),),) +geithner ||| # geithner +finanzminister ||| # finanz minister +fiskus ||| # fiskus +vorenthalten ||| # vorenthalten +daschle ||| # daschle +obamas ||| # obamas +wunschkandidat ||| # wunsch kandidat +gesundheitsministerium ||| ((('#',0,1),),(('gesundheit',0,1),('gesundheits',0,1),),(('ministerium',0,1),),) +schuldete ||| # schuldete +begleichung ||| # begleichung +feststand ||| ((('#',0,1),),(('fest',0,1),('feststand',0,2),),(('stand',0,1),),) +tatsächlich ||| # tatsächlich +regierung ||| # regierung +aufrücken ||| # aufrücken +übergelaufen ||| ((('#',0,1),),(('über',0,1),('übergelaufen',0,2),),(('gelaufen',0,1),),) +proteststurm ||| # protest sturm +handtuch ||| ((('#',0,1),),(('hand',0,1),('handtuch',0,2),),(('tuch',0,1),),) +konzentrationslager ||| ((('#',0,1),),(('konzentration',0,1),('konzentrations',0,1),),(('lager',0,1),),) +entwicklungspolitik ||| ((('#',0,1),),(('entwicklung',0,1),('entwicklungs',0,1),),(('politik',0,1),),) +zeitungsbericht ||| ((('#',0,1),),(('zeitung',0,1),('zeitungs',0,1),),(('bericht',0,1),),) +managergehälter ||| # manager gehälter +begrenzen ||| # begrenzen +unternehmen ||| # unternehmen +staatshilfen ||| ((('#',0,1),),(('staat',0,1),('staats',0,1),),(('hilfen',0,1),),) +bescheidener ||| # bescheidener +präsidenten ||| # präsidenten +gehaltsobergrenze ||| ((('#',0,1),),(('gehalt',0,1),('gehalts',0,1),),(('ober',0,1),('obergrenze',0,2),),(('grenze',0,1),),) +sonnensystems ||| # sonnen systems +kreist ||| # kreist +erdähnlicher ||| # erd ähnlicher +planet ||| # planet +exoplanet ||| ((('#',0,1),),(('exo',0,1),('exoplanet',0,2),),(('planet',0,1),),) +durchbruch ||| ((('#',0,1),),(('durch',0,1),('durchbruch',0,2),),(('bruch',0,1),),) +fremden ||| # fremden +ulrich ||| # ulrich +schnabel ||| # schnabel +kulturgeschichte ||| # kultur geschichte +milchwirtschaft ||| # milch wirtschaft +menschen ||| # menschen +geschäftsführung ||| ((('#',0,1),),(('geschäft',0,1),('geschäfts',0,1),),(('führung',0,1),),) +zuständigen ||| # zuständigen +amtsgericht ||| ((('#',0,1),),(('amt',0,1),('amts',0,1),),(('gericht',0,1),),) +göppingen ||| # göppingen +antrag ||| # antrag +eröffnung ||| # eröffnung +insolvenzverfahrens ||| # insolvenz verfahrens +dieter ||| # dieter +ausgewählte ||| # ausgewählte +informationsangebote ||| ((('#',0,1),),(('information',0,1),('informations',0,1),),(('angebote',0,1),),) +deutschen ||| # deutschen +vereinfacht ||| # vereinfacht +vokabelglossar ||| # vokabel glossar +gewaltige ||| # gewaltige +haushohe ||| # haushohe +segler ||| # segler +oktober ||| # oktober +gibraltar ||| # gibraltar +verschwand ||| # verschwand +verfügte ||| # verfügte +bronzekanonen ||| # bronze kanonen +tonnen ||| # tonnen +portugiesischer ||| # portugiesischer +goldmünzen ||| # gold münzen +kaufleute ||| # kauf leute +schätzungen ||| # schätzungen +vergangenen ||| # vergangenen +millionen ||| # millionen +schiffe ||| # schiffe +meeresgrund ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('grund',0,1),),) +unterschiedliche ||| # unterschiedliche +wasserfahrzeuge ||| # wasser fahrzeuge +kriegsschiffe ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('schiffe',0,1),),) +passagierdampfer ||| # passagier dampfer +handelsflotten ||| ((('#',0,1),),(('handel',0,1),('handels',0,1),),(('flotten',0,1),),) +piratenboote ||| ((('#',0,1),),(('pirate',0,1),('piraten',0,1),),(('boote',0,1),),) +tanker ||| # tanker +großbritannien ||| # groß britannien +ältesten ||| # ältesten +seefahrernationen ||| ((('#',0,1),),(('see',0,1),('seefahrer',0,2),),(('fahrer',0,1),),(('nationen',0,1),),) +auffassung ||| # auffassung +marinehistoriker ||| # marine historiker +irgendein ||| # irgendein +anderes ||| # anderes +allein ||| # allein +havarierten ||| # havarierten +registrierte ||| # registrierte +schiffe ||| # schiffe +küstennähe ||| ((('#',0,1),),(('küste',0,1),('küsten',0,1),),(('nähe',0,1),),) +ortung ||| # ortung +victory ||| # victory +amerikanisches ||| # amerikanisches +bergungsunternehmen ||| ((('#',0,1),),(('bergung',0,1),('bergungs',0,1),),(('unternehmen',0,1),),) +wichtigsten ||| # wichtigsten +meeresfunde ||| ((('#',0,1),),(('meer',0,1),('meeres',0,1),),(('funde',0,1),),) +geschichte ||| # geschichte +entdeckern ||| # entdeckern +historisches ||| # historisches +kriegsboot ||| ((('#',0,1),),(('krieg',0,1),('kriegs',0,1),),(('boot',0,1),),) +jahrhundert ||| # jahrhundert +tausend ||| # tausend +untergegangenen ||| ((('#',0,1),),(('unter',0,1),('untergegangenen',0,2),),(('gegangenen',0,1),),) +schiffen ||| # schiffen +kostbarsten ||| # kostbarsten +schätzen ||| # schätzen +entdeckung ||| # entdeckung +warten ||| # warten +tauchjagd ||| # tauch jagd +Überreste ||| # Überreste +längst ||| # längst +vergangener ||| # vergangener +epochen ||| # epochen +länder ||| # länder +streiten ||| # streiten +schiffsfriedhöfe ||| ((('#',0,1),),(('schiff',0,1),('schiffs',0,1),),(('friedhöfe',0,1),),) +tauchjagd ||| # tauch jagd +schatzjäger ||| # schatz jäger +moderne ||| # moderne +technik ||| # technik +jahrhundertealte ||| # jahrhunderte alte +wracks ||| # wracks +geheimnisse ||| # geheimnisse +besitzrechte ||| # besitz rechte +wahrscheinlichkeit ||| # wahrscheinlichkeit +minimaltemperatur ||| # minimal temperatur +winterhalbjahr ||| ((('#',0,1),),(('winter',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),) +celsius ||| # celsius +durchschnittliche ||| # durchschnittliche +sommerhalbjahr ||| ((('#',0,1),),(('sommer',0,1),),(('halb',0,1),('halbjahr',0,2),),(('jahr',0,1),),) +maximaltemperatur ||| # maximal temperatur +kreuzungsversuche ||| ((('#',0,1),),(('kreuzung',0,1),('kreuzungs',0,1),),(('versuche',0,1),),) +erbsenpflanzen ||| ((('#',0,1),),(('erbsen',0,1),('erbse',0,1),),(('pflanzen',0,1),),) +klostergarten ||| # kloster garten +befruchtungen ||| # befruchtungen +zehntausende ||| # zehn tausende +pflanzenhybriden ||| ((('#',0,1),),(('pflanze',0,1),('pflanzen',0,1),),(('hybriden',0,1),),) +fleißaufgabe ||| ((('#',0,1),),(('fleiß',0,1),('fleißaufgabe',0,2),),(('aufgabe',0,1),),) +ungewöhnliche ||| # ungewöhnliche +hartnäckigkeit ||| # hartnäckigkeit +naturforschers ||| # natur forschers +innenminister ||| # innen minister +verbreitete ||| # verbreitete +falschinformationen ||| # falsch informationen +analysen ||| # analysen +hintergründe ||| # hintergründe +menschen ||| # menschen +gekostet ||| # gekostet +hunderte ||| # hunderte +wurden ||| # wurden +verletzt ||| # verletzt +containerschiff ||| # container schiff +unfall ||| # unfall +umweltdesaster ||| # umwelt desaster +australien ||| # australien +größer ||| # größer +bisher ||| # bisher +befürchtet ||| # befürchtet +containerschiff ||| # container schiff +unfall ||| # unfall +australien ||| # australien +deutlich ||| # deutlich +schweröl ||| # schweröl +zunächst ||| # zunächst +angenommen ||| # angenommen +freitag ||| # freitag +schwappte ||| # schwappte +schwarze ||| # schwarze +flüssigkeit ||| # flüssigkeit +strände ||| # strände +kilometern ||| # kilometern +kapitän ||| # kapitän +langen ||| # langen +pacific ||| # pacific +adventurer ||| # adventurer +hongkong ||| # hong kong +verlust ||| # verlust +zunächst ||| # zunächst +tonnen ||| # tonnen +angegeben ||| # angegeben +regierungschef ||| ((('#',0,1),),(('regierung',0,1),('regierungs',0,1),),(('chef',0,1),),) +queensland ||| # queensland +samstag ||| # samstag +kapitän ||| # kapitän +vortag ||| # vortag +vertuschung ||| # vertuschung +vorgeworfen ||| # vorgeworfen +mittwoch ||| # mittwoch +containerschiff ||| # container schiff +naturreservate ||| # natur reservate +touristenstrände ||| # touristen strände +ostküste ||| # ost küste +nördlich ||| # nördlich +brisbane ||| # brisbane +bestechungsversuch ||| ((('#',0,1),),(('bestechungs',0,1),('bestechung',0,1),),(('versuch',0,1),),) +campingkocher ||| # camping kocher +später ||| # später +ermöglichte ||| # ermöglichte +verstärkte ||| # verstärkte +integration ||| # integration +funktechnik ||| # funk technik +mobiltelefone ||| # mobil telefone +aktenkoffers ||| ((('#',0,1),),(('akten',0,1),('aktenkoffers',0,2),),(('koffers',0,1),),) +vorstufe ||| # vorstufe +bedrohlich ||| # bedrohlich +anstieg ||| # anstieg +kohlendioxids ||| ((('#',0,1),),(('kohle',0,1),('kohlen',0,1),),(('dioxids',0,1),),) +computermodelle ||| # computer modelle +hauptbahnhof ||| # haupt bahnhof +hauptziel ||| # haupt ziel +hauptunterschied ||| # haupt unterschied +überhaupt ||| # überhaupt +schützen ||| # schützen +welchem ||| # welchem +climategate ||| ((('#',0,1),),(('climate',0,1),('climategate',0,2),),(('gate',0,1),),) +genannte ||| # genannte +skandal ||| # skandal +britische ||| # britische +forschungsinstitut ||| ((('#',0,1),),(('forschung',0,1),('forschungs',0,1),),(('institut',0,1),),) +climate ||| # climate +research ||| # research +folgenschwerste ||| ((('#',0,1),),(('folgenschwerste',0,2),('folgen',0,1),('folge',0,1),),(('schwerste',0,1),),) +wissenschaftsdebatte ||| ((('#',0,1),),(('wissenschaft',0,1),('wissenschafts',0,1),),(('debatte',0,1),),) +unserer ||| # unserer +erneut ||| # erneut +computerhacker ||| # computer hacker +hatten ||| # hatten +instituts ||| # instituts +gestohlen ||| # gestohlen +veröffentlicht ||| # veröffentlicht +forscher ||| # forscher +manipulierten ||| # manipulierten +prognose ||| # prognose +baldigen ||| # baldigen +erwärmung ||| # erwärmung +passten ||| # passten +andersdenkende ||| # anders denkende +wissenschaftler ||| # wissenschaftler +wurden ||| # wurden +gezielt ||| # gezielt +diffamiert ||| # diffamiert +wichtigsten ||| # wichtigsten +datenlieferanten ||| # daten lieferanten +weltklimarats ||| # welt klima rats +wesentlichen ||| # wesentlichen +fraktionen ||| # fraktionen +debatte ||| # debatte +herrschende ||| # herrschende +schule ||| # schule +vertreten ||| # vertreten +repräsentiert ||| # repräsentiert +mehrheit ||| # mehrheit +wissenschaftler ||| # wissenschaftler +führender ||| # führender +stelle ||| # stelle +stehen ||| # stehen +forscher ||| # forscher +klimamodelle ||| # klimamodelle +entwickeln ||| # entwickeln +computersimulationen ||| # computer simulationen +künftige ||| # künftige +errechnen ||| # errechnen +sollen ||| # sollen +hauptverantwortlichen ||| # haupt verantwortlichen +prognostizierte ||| # prognostizierte +erwärmung ||| # erwärmung +menschen ||| # menschen +zusätzlich ||| # zusätzlich +natürlichen ||| # natürlichen +geschehen ||| # geschehen +verursachte ||| # verursachte +ermittelt ||| # ermittelt +spatenstich ||| # spaten stich +teuersten ||| # teuersten +kirchenneubau ||| # kirche neu bau +ostdeutschlands ||| # ost deutschlands +erfolgen ||| # erfolgen +rumänien ||| # rumänien +empört ||| # empört +berlin ||| # berlin +rumänische ||| # rumänische +regierung ||| # regierung +empört ||| # empört +ankündigung ||| # ankündigung +deutschlands ||| # deutschlands +frankreichs ||| # frankreichs +beitritt ||| # beitritt +rumäniens ||| # rumäniens +bulgariens ||| # bulgariens +schengen ||| # schengen +nicht ||| # nicht +zuzustimmen ||| # zuzustimmen +bukarest ||| # bukarest +informationen ||| # informationen +verletzung ||| # verletzung +vertrags ||| # vertrags +lissabon ||| # lissabon +rumänischer ||| # rumänischer +zollbeamter ||| ((('#',0,1),),(('zoll',0,1),('zollbeamter',0,2),),(('beamter',0,1),),) +grenze ||| # grenze +zwischen ||| # zwischen +rumänien ||| # rumänien +republik ||| # republik +moldau ||| # moldau +dezember ||| # dezember +regierung ||| # regierung +bukarest ||| # bukarest +empört ||| # empört +treten ||| # treten +kontrollen ||| # kontrollen +grenzen ||| # grenzen +rumänien ||| # rumänien +bulgarien ||| # bulgarien +solange ||| # solange +beizubehalten ||| # beizubehalten +länder ||| # länder +unumkehrbare ||| # unumkehrbare +fortschritte ||| # fortschritte +korruption ||| # korruption +organisierte ||| # organisierte +kriminalität ||| # kriminalität +vorweisen ||| # vorweisen +bukarest ||| # bukarest +informationen ||| # informationen +dieser ||| # dieser +zeitung ||| # zeitung +überlegt ||| # überlegt +vertragsverletzung ||| ((('#',0,1),),(('vertrag',0,1),('vertrags',0,1),),(('verletzung',0,1),),) +einzureichen ||| # einzureichen +sollten ||| # sollten +deutschland ||| # deutschland +frankreich ||| # frankreich +haltung ||| # haltung +durchsetzen ||| # durchsetzen +rumäniens ||| # rumäniens +außenministerium ||| ((('#',0,1),),(('außen',0,1),),(('ministerium',0,1),),) +spricht ||| # spricht +unannehmbaren ||| # unannehmbaren +präzedenzfall ||| ((('#',0,1),),(('präzedenzfall',0,2),('präzedenz',0,1),),(('fall',0,1),),) +sondern ||| # sondern +staatspräsident ||| ((('#',0,1),),(('staatspräsident',0,2),('staats',0,1),('staat',0,1),),(('präsident',0,1),),) +georgi ||| # georgi +parwanow ||| # parwanow +verständnis ||| # verständnis +bulgarien ||| # bulgarien +verstehen ||| # verstehen +auflagen ||| # auflagen +erfüllen ||| # erfüllen +eigentliche ||| # eigentliche +erklärung ||| # erklärung +verzögerung ||| # verzögerung +mittwoch ||| # mittwoch +haltung ||| # haltung +hintergrund ||| # hintergrund +streits ||| # streits +regierung ||| # regierung +ministerpräsident ||| ((('#',0,1),),(('minister',0,1),),(('präsident',0,1),),) +grenzkontrollen ||| ((('#',0,1),),(('grenz',0,1),),(('kontrollen',0,1),),) +entfallen ||| # entfallen +zweiten ||| # zweiten +weltkrieg ||| ((('#',0,1),),(('welt',0,1),('weltkrieg',0,2),),(('krieg',0,1),),) +versteckte ||| # versteckte +abwehr ||| # abwehr +admirals ||| # admirals +canaris ||| # canaris +sprengsätze ||| # sprengsätze +apfelsinenkisten ||| ((('#',0,1),),(('apfelsinen',0,1),('apfelsine',0,1),),(('kisten',0,1),),) +britische ||| # britische +hafenarbeiter ||| ((('#',0,1),),(('hafen',0,1),),(('arbeiter',0,1),),) +weigerten ||| # weigerten +schiffe ||| # schiffe +entladen ||| # entladen +zeiten ||| # zeiten +griechischen ||| # griechischen +militärdiktatur ||| ((('#',0,1),),(('militär',0,1),),(('diktatur',0,1),),) +warnte ||| # warnte +widerstandsgruppe ||| ((('#',0,1),),(('widerstand',0,1),('widerstands',0,1),),(('gruppe',0,1),),) +pfirsiche ||| # pfirsiche +aprikosen ||| # aprikosen +vergiftet ||| # vergiftet +kuklina ||| # kuklina +trägerin ||| # trägerin +alternativen ||| # alternativen +nobelpreis ||| ((('#',0,1),),(('nobel',0,1),),(('preis',0,1),),) +kämpft ||| # kämpft +rechte ||| # rechte +soldaten ||| # soldaten +russlands ||| # russlands +online ||| # online +sprach ||| # sprach +menschenrechte ||| ((('#',0,1),),(('menschen',0,1),('mensch',0,1),),(('rechte',0,1),),) +heimat ||| # heimat +kaufrausch ||| ((('#',0,1),),(('kauf',0,1),),(('rausch',0,1),),) +kommerzialisierung ||| # kommerzialisierung +weihnachten ||| # weihnachten +funktioniert ||| # funktioniert +zittert ||| # zittert +wikileaks ||| # wikileaks +verfassungsgericht ||| ((('#',0,1),),(('verfassung',0,1),('verfassungs',0,1),),(('gericht',0,1),),) +berlusconis ||| # berlusconis +immunität ||| # immunität +teilweise ||| # teilweise +zinspolitik ||| # zins politik +trichet ||| # trichet +inflation ||| # inflation +eurozone ||| ((('#',0,1),),(('euro',0,1),('eurozone',0,2),),(('zone',0,1),),) +effektive ||| # effektive +kontrolle ||| # kontrolle +futtermittelindustrie ||| # futtermittel industrie +deutschland ||| # deutschland +verspielt ||| # verspielt +regierung ||| # regierung +vertrauen ||| # vertrauen +westerwelle ||| # westerwelle +abzugsdatum ||| ((('#',0,1),),(('abzugs',0,1),('abzug',0,1),),(('datum',0,1),),) +ghettoblaster ||| # ghetto blaster +unserem ||| # unserem +alltag ||| # alltag +verschwunden ||| # verschwunden +trotzdem ||| # trotzdem +ikonen ||| # ikonen +jugendkultur ||| # jugend kultur +tatsächlich ||| # tatsächlich +deuten ||| # deuten +hochrechnungen ||| # hochrechnungen +mckinsey ||| # mckinsey +company ||| # company +darauf ||| # darauf +kaufkraft ||| # kauf kraft +dieser ||| # dieser +aufstrebenden ||| # aufstrebenden +mittelschicht ||| # mittel schicht +nächsten ||| # nächsten +jahrzehnts ||| # jahrzehnts +billionen ||| # billionen +dollar ||| # dollar +anwachsen ||| # anwachsen +könnte ||| # könnte +doppelt ||| # doppelt +aktuellen ||| # aktuellen +erbrauchsniveau ||| ((('#',0,1),),(('erbrauch',0,1),('erbrauchs',0,1),),(('niveau',0,1),),) +vereinigten ||| # vereinigten +staaten ||| # staaten +größten ||| # größten +schwellenländer ||| ((('#',0,1),),(('schwellen',0,1),('schwelle',0,1),),(('länder',0,1),),) +brasilien ||| # brasilien +russland ||| # russland +indien ||| # indien +frühstück ||| # frühstück +fortschritt ||| # fortschritt +frühstückstisch ||| ((('#',0,1),),(('frühstück',0,1),('frühstücks',0,1),),(('tisch',0,1),),) +unserer ||| # unserer +familie ||| # familie +vielen ||| # vielen +jahren ||| # jahren +tageszeitung ||| ((('#',0,1),),(('tag',0,1),('tages',0,1),),(('zeitung',0,1),),) +washington ||| # washington +wahlschlacht ||| # wahl schlacht +letzte ||| # letzte +milliarden ||| # milliarden +dollar ||| # dollar +sollen ||| # sollen +wahlkämpfer ||| # wahlkämpfer +bislang ||| # bislang +kampagnen ||| # kampagnen +ausgegeben ||| # ausgegeben +abstimmung ||| # abstimmung +mobilisieren ||| # mobilisieren +letzten ||| # letzten +reserven ||| # reserven +wähler ||| # wähler +bekommen ||| # bekommen +herausforderer ||| # herausforderer +herausforederung ||| # herausforderung +herauseforderungen ||| # herauseforderungen +romney ||| # romney +kündigte ||| # kündigte +wahltag ||| # wahltag +selbst ||| # selbst +mehreren ||| # mehreren +bundesstaaten ||| # bundesstaaten +aufzutreten ||| # aufzutreten +ursprünglich ||| # ursprünglich +abschlussveranstaltung ||| # abschluss veranstaltung +montagabend ||| # montag abend +vorgesehen ||| # vorgesehen +schließung ||| # schließung +wahllokale ||| # wahl lokale +stimmen ||| # stimmen +werben ||| # werben +sprecher ||| # sprecher +wahlkampfteams ||| # wahlkampf teams +pennsylvania ||| # pennsylvania +natürlich ||| # natürlich +schicksalstaat ||| # schicksal staat +republikaner ||| # republikaner +präsident ||| # präsident +geworden ||| # geworden +gewonnen ||| # gewonnen +auswertung ||| # auswertung +portals ||| # portals +national ||| # national +sieben ||| # sieben +november ||| # november +umfragen ||| # umfragen +meistumkämpfte ||| # meist umkämpfte +mehrheit ||| # mehrheit +feststeht ||| # feststeht +wahlkämpfer ||| # wahlkämpfer +besonders ||| # besonders +relevant ||| # relevant +direkt ||| # direkt +gewählt ||| # gewählt +präsident ||| # präsident +wahlmännergremium ||| # wahlmänner gremium +spiegeln ||| # spiegeln +ergebnisse ||| # ergebnisse +einzelnen ||| # einzelnen +bundesstaaten ||| # bundesstaaten +präsident ||| # präsident +letzten ||| # letzten +seiner ||| # seiner +kampagne ||| # kampagne +vorgelegt ||| # vorgelegt +rocklegende ||| # rock legende +springsteen ||| # springsteen +botschafter ||| # botschafter +seiner ||| # seiner +kampagne ||| # kampagne +wisconsin ||| # wisconsin +dankte ||| # dankte +präsidenten ||| # präsidenten +während ||| # während +konzerts ||| # konzerts +gesundheitsreform ||| ((('#',0.0,1),),(('gesundheits',0.0,1),('gesundheit',0.0,1),),(('reform',0.0,1),),) +regulierung ||| # regulierung +street ||| # street +später ||| # später +auftritte ||| # auftritte +natürlich ||| # natürlich +summen ||| # summen +vibrieren ||| # vibrieren +duftstoffe ||| ((('#',0.0,1),),(('duftstoffe',0.0,2),('duft',0.0,1),),(('stoffe',0.0,1),),) +echten ||| # echten +verströmen ||| # verströmen +roboterbiene ||| # roboter biene +entwickelt ||| # entwickelt +wissenschaftlern ||| # wissenschaftlern +freien ||| # freien +universität ||| # universität +berlin ||| # berlin +künstlichen ||| # künstlichen +insekt ||| # insekt +wollen ||| # wollen +forscher ||| # forscher +futterquellen ||| # futter quellen +lotsen ||| # lotsen +geheimnis ||| # geheimnis +bienentanzes ||| # biene tanzes +entschlüsseln ||| # entschlüsseln +klimawandel ||| # klima wandel +empörend ||| # empörend +ernannt ||| # ernannt +wirtschaftliche ||| # wirtschaftliche +offiziell ||| # offiziell +abgefangen ||| # abgefangen +abgehört ||| # abgehört +abgehört ||| # abgehört +abgeschafft ||| # abgeschafft +abgesetzt ||| # abgesetzt +abhängen ||| # abhängen +abhöraktion ||| # abhör aktion +abhörsichere ||| # abhör sichere +abkommen ||| # abkommen +absage ||| # absage +abschaffung ||| # abschaffung +affronts ||| # affronts +agenten ||| # agenten +aktion ||| # aktion +aktivisten ||| # aktivisten +aktivisten ||| # aktivisten +alexander ||| # alexander +alledem ||| # alledem +allgemeine ||| # allgemeine +amerikaner ||| # amerikaner +amtsübergabe ||| ((('#',0,1),),(('amts',0,1),('amt',0,1),),(('übergabe',0,1),),) +analysiert ||| # analysiert +anderen ||| # anderen +anderen ||| # anderen +anderer ||| # anderer +anderes ||| # anderes +andernfalls ||| # andernfalls +anders ||| # anders +anders ||| # anders +anfangen ||| # anfangen +anführer ||| # anführer +anführer ||| # anführer +angeblich ||| # angeblich +angeblich ||| # angeblich +angela ||| # angela +anklopft ||| # anklopft +anspruch ||| # anspruch +anspruch ||| # anspruch +antreten ||| # antreten +antworten ||| # antworten +arbeitet ||| # arbeitet +argwöhnisch ||| # argwöhnisch +atomvertrag ||| # atom vertrag +aufbewahrt ||| # aufbewahrt +aufgehen ||| # aufgehen +aufgezeichnet ||| # aufgezeichnet +aufhören ||| # aufhören +aufklärung ||| # aufklärung +aufklärung ||| # aufklärung +aufklärungsarbeit ||| ((('#',0,1),),(('aufklärungs',0,1),('aufklärung',0,1),),(('arbeit',0,1),),) +aufzeichnete ||| # aufzeichnete +auseinandersetzung ||| # auseinandersetzung +ausforschungsprogramm ||| ((('#',0,1),),(('ausforschungs',0,1),('ausforschung',0,1),),(('programm',0,1),),) +ausforschungstechniken ||| ((('#',0,1),),(('ausforschungs',0,1),('ausforschung',0,1),),(('techniken',0,1),),) +ausgewählten ||| # ausgewählten +auslöser ||| # auslöser +auslöser ||| # auslöser +ausmacht ||| # ausmacht +ausmacht ||| # ausmacht +ausmaß ||| # ausmaß +ausprobieren ||| # ausprobieren +ausprobiert ||| # ausprobiert +ausrufezeichen ||| # ausrufezeichen +autokrat ||| # autokrat +autorität ||| # autorität +außenminister ||| # außen minister +außenministerium ||| # außen ministerium +außenpolitischen ||| # außen politischen +außenpolitischen ||| # außenpolitischen +barack ||| # barack +barmherzig ||| # barmherzig +bedankte ||| # bedankte +bedeutet ||| # bedeutet +bedeutung ||| # bedeutung +befürchtet ||| # befürchtet +beginn ||| # beginn +behauptet ||| # behauptet +beiden ||| # beiden +beides ||| # beides +beiseiteschieben ||| # beiseite schieben +beispielsweise ||| # beispielsweise +bekanntwerden ||| # bekannt werden +belauschen ||| # belauschen +belauscht ||| # belauscht +belege ||| # belege +benötigt ||| # benötigt +bereits ||| # bereits +bericht ||| # bericht +bericht ||| # bericht +berichtet ||| # berichtet +berlin ||| # berlin +berliner ||| # berliner +berufung ||| # berufung +beschränkt ||| # beschränkt +besetzen ||| # besetzen +besetzt ||| # besetzt +besonders ||| # besonders +besorgt ||| # besorgt +besser ||| # besser +besser ||| # besser +bestehen ||| # bestehen +bestellt ||| # bestellt +bestimmen ||| # bestimmen +bestätigen ||| # bestätigen +bestätigt ||| # bestätigt +betrachtet ||| # betrachtet +betritt ||| # betritt +beunruhigend ||| # beunruhigend +bewundern ||| # bewundern +bewusstzuwerden ||| # bewusstzuwerden +beziehungen ||| # beziehungen +beäugen ||| # beäugen +bieten ||| # bieten +billigte ||| # billigte +bisher ||| # bisher +botschaft ||| # botschaft +botschaft ||| # botschaft +brandenburger ||| # brandenburger +brandenburger ||| # brandenburger +brauchen ||| # brauchen +brauchen ||| # brauchen +braucht ||| # braucht +braucht ||| # braucht +bundespräsident ||| # bundespräsident +bundeswehr ||| # bundeswehr +bändigen ||| # bändigen +bürger ||| # bürger +bürger ||| # bürger +bürger ||| # bürger +bürger ||| # bürger +bürger ||| # bürger +bürger ||| # bürger +bürger ||| # bürger +bürgerkrieg ||| # bürger krieg +bürgerlichen ||| # bürgerlichen +bürgerrechte ||| # bürger rechte +bürgerrechte ||| # bürger rechte +bürgerrechten ||| # bürger rechten +channel ||| # channel +chefin ||| # chefin +chinesen ||| # chinesen +chodorkowski ||| # chodorkowski +chodorkowski ||| # chodorkowski +chodorkowski ||| # chodorkowski +chodorkowski ||| # chodorkowski +dachte ||| # dachte +damals ||| # damals +damals ||| # damals +damals ||| # damals +danach ||| # danach +danach ||| # danach +darauf ||| # darauf +darauf ||| # darauf +darauf ||| # darauf +dauern ||| # dauern +definitionen ||| # definitionen +demnach ||| # demnach +demokratie ||| # demokratie +demokratische ||| # demokratische +demokratische ||| # demokratische +demokratischen ||| # demokratischen +denken ||| # denken +derweil ||| # derweil +derzeit ||| # derzeit +deshalb ||| # deshalb +dessen ||| # dessen +dessen ||| # dessen +deutsche ||| # deutsche +deutschen ||| # deutschen +deutscher ||| # deutscher +dezentralisiert ||| # dezentralisiert +diesem ||| # diesem +diesem ||| # diesem +diesem ||| # diesem +diesem ||| # diesem +diesen ||| # diesen +diesen ||| # diesen +dieser ||| # dieser +dieser ||| # dieser +dieser ||| # dieser +dimension ||| # dimension +direkt ||| # direkt +direkt ||| # direkt +dossier ||| # dossier +dreckiges ||| # dreckiges +dringlichkeit ||| # dringlichkeit +drucken ||| # drucken +drängen ||| # drängen +durcheinander ||| # durcheinander +edward ||| # edward +edward ||| # edward +edward ||| # edward +edward ||| # edward +edward ||| # edward +edward ||| # edward +edward ||| # edward +edward ||| # edward +eigenes ||| # eigenes +eindrückliche ||| # eindrückliche +eindrücklichen ||| # eindrücklichen +einfach ||| # einfach +einfach ||| # einfach +eingeräumt ||| # eingeräumt +einmal ||| # einmal +einschnitt ||| # einschnitt +einsichten ||| # einsichten +einzelnen ||| # einzelnen +element ||| # element +element ||| # element +elemente ||| # elemente +eltern ||| # eltern +eltern ||| # eltern +empfangen ||| # empfangen +endgültig ||| # endgültig +englischen ||| # englischen +englischen ||| # englischen +enthüllungen ||| # enthüllungen +enthüllungen ||| # enthüllungen +entlässt ||| # entlässt +entmachtet ||| # entmachtet +entscheiden ||| # entscheiden +entscheidende ||| # entscheidende +entscheidet ||| # entscheidet +entscheidungen ||| # entscheidungen +entstanden ||| # entstanden +entstehen ||| # entstehen +entwickeln ||| # entwickeln +entwickeln ||| # entwickeln +entwickeln ||| # entwickeln +episode ||| # episode +epochalen ||| # epochalen +erfahren ||| # erfahren +erfolgsgeschichten ||| ((('#',0,1),),(('erfolgs',0,1),('erfolg',0,1),),(('geschichten',0,1),),) +erfolgsgeschichten ||| ((('#',0,1),),(('erfolgs',0,1),('erfolg',0,1),),(('geschichten',0,1),),) +ergebnissen ||| # ergebnissen +erhalten ||| # erhalten +erhielt ||| # erhielt +erinnern ||| # erinnern +erkenntnisse ||| # erkenntnisse +erneut ||| # erneut +ernstfall ||| # ernstfall +erscheint ||| # erscheint +ersetzt ||| # ersetzt +erstickt ||| # erstickt +erstmals ||| # erstmals +erwachsen ||| # erwachsen +erweitert ||| # erweitert +europäer ||| # europäer +ewigen ||| # ewigen +existiert ||| # existiert +februar ||| # februar +februar ||| # februar +fehler ||| # fehler +felder ||| # felder +fernsehen ||| # fernsehen +festgehalten ||| # festgehalten +festnetzanschluss ||| # festnetzanschluss +festnetzanschluss ||| # festnetzanschluss +finden ||| # finden +finden ||| # finden +fliehen ||| # fliehen +forbes ||| # forbes +frankfurter ||| # frankfurter +freien ||| # freien +freiheit ||| # freiheit +freiheit ||| # freiheit +freiheit ||| # freiheit +freiheiten ||| # freiheiten +freilassung ||| # freilassung +freilassung ||| # freilassung +freilich ||| # freilich +freiräume ||| # freiräume +freundschaftlichen ||| # freundschaftlichen +funktionieren ||| # funktionieren +fußball ||| # fußball +führer ||| # führer +führten ||| # führten +gaucks ||| # gaucks +geachtet ||| # geachtet +gearbeitet ||| # gearbeitet +geborenes ||| # geborenes +gedanken ||| # gedanken +geeint ||| # geeint +gefahr ||| # gefahr +gefangenen ||| # gefangenen +gefragt ||| # gefragt +gefragt ||| # gefragt +gefängnisse ||| # gefängnisse +geführt ||| # geführt +gegeneinander ||| # gegeneinander +gegenleistung ||| # gegenleistung +gegenteil ||| # gegenteil +gegenüber ||| # gegenüber +gehalten ||| # gehalten +dienstleistung ||| # dienstleistung +dienstleistungen ||| # dienstleistungen +geheimdienst ||| # geheim dienst +geheimdienste ||| # geheim dienste +geheimdienstes ||| # geheim dienstes +geheimdienstkreise ||| # geheim dienst kreise +geheimdiensttruppe ||| # geheim dienst truppe +geheimdienstzentrale ||| # geheim dienst zentrale +geheime ||| # geheime +geheimoperation ||| # geheim operation +gehört ||| # gehört +geknackt ||| # geknackt +geknackt ||| # geknackt +gemacht ||| # gemacht +genfer ||| # genfer +genutzt ||| # genutzt +geordnet ||| # geordnet +george ||| # george +gerhard ||| # gerhard +gerichten ||| # gerichten +gesammelt ||| # gesammelt +geschäftsleute ||| # geschäft leute +gesellschaft ||| # gesellschaft +gesellschaft ||| # gesellschaft +gesellschaft ||| # gesellschaft +gesellschaftliche ||| # gesellschaftliche +gesellschaftssystem ||| # gesellschaft system +gesetze ||| # gesetze +gesicherten ||| # gesicherten +gespräch ||| # gespräch +gestartet ||| # gestartet +gestellt ||| # gestellt +gestoppt ||| # gestoppt +gestoppt ||| # gestoppt +gewaltig ||| # gewaltig +gewehrt ||| # gewehrt +gewesen ||| # gewesen +gewesen ||| # gewesen +gewusst ||| # gewusst +gewählt ||| # gewählt +gewährte ||| # gewährte +geändert ||| # geändert +gingen ||| # gingen +gingen ||| # gingen +glauben ||| # glauben +gleichziehen ||| # gleichziehen +gnädig ||| # gnädig +greenpeace ||| # greenpeace +greenpeace ||| # greenpeace +greift ||| # greift +grimmig ||| # grimmig +gründen ||| # gründen +gründete ||| # gründete +gudkow ||| # gudkow +gudkow ||| # gudkow +gudkow ||| # gudkow +gudkow ||| # gudkow +halten ||| # halten +halten ||| # halten +helfen ||| # helfen +herauszufinden ||| # herauszufinden +hinaus ||| # hinaus +hindurch ||| # hindurch +hingewiesen ||| # hingewiesen +hinschauen ||| # hinschauen +hinzufügen ||| # hinzufügen +hochrangiger ||| # hochrangiger +hochrangiger ||| # hochrangiger +hätten ||| # hätten +images ||| # images +indirekt ||| # indirekt +informationen ||| # informationen +informationen ||| # informationen +informationen ||| # informationen +informationen ||| # informationen +informiert ||| # informiert +inhalt ||| # inhalt +innenpolitisch ||| # innen politisch +insgesamt ||| # insgesamt +institut ||| # institut +instituts ||| # instituts +interesse ||| # interesse +internat ||| # internat +intervention ||| # intervention +irgendwohin ||| # irgendwohin +jahren ||| # jahren +jahrtausends ||| # jahrtausends +jahrzehnte ||| # jahrzehnte +januar ||| # januar +jedenfalls ||| # jedenfalls +jedenfalls ||| # jedenfalls +jelzin ||| # jelzin +jeweiligen ||| # jeweiligen +joachim ||| # joachim +jährlich ||| # jährlich +jüngste ||| # jüngste +kampfzone ||| # kampf zone +kandidaten ||| # kandidaten +kannten ||| # kannten +kanzler ||| # kanzler +kanzleramt ||| # kanzleramt +kanzleramt ||| # kanzleramt +kanzlerin ||| # kanzlerin +kanzlerin ||| # kanzlerin +kanzlerin ||| # kanzlerin +kanzlers ||| # kanzlers +kanzlers ||| # kanzlers +katastrophal ||| # katastrophal +keinen ||| # keinen +kinder ||| # kinder +kinder ||| # kinder +kleine ||| # kleine +knackten ||| # knackten +knalliges ||| # knalliges +kommen ||| # kommen +kommen ||| # kommen +kommen ||| # kommen +konnte ||| # konnte +konnte ||| # konnte +konnten ||| # konnten +konsultation ||| # konsultation +kontrollieren ||| # kontrollieren +kontrollorgane ||| # kontroll organe +korruption ||| # korruption +kremls ||| # kremls +kritiker ||| # kritiker +kritiker ||| # kritiker +kritiker ||| # kritiker +kritiker ||| # kritiker +kunstgriffen ||| # kunst griffen +kurzum ||| # kurzum +kämpfer ||| # kämpfer +können ||| # können +können ||| # können +können ||| # können +können ||| # können +können ||| # können +könnte ||| # könnte +könnten ||| # könnten +könnten ||| # könnten +kümmert ||| # kümmert +kürzlich ||| # kürzlich +landbevölkerung ||| # land bevölkerung +landes ||| # landes +lassen ||| # lassen +lassen ||| # lassen +laufen ||| # laufen +lausch ||| # lausch +lauschaktivitäten ||| # lausch aktivitäten +lauschangriff ||| # lausch angriff +lauschangriff ||| # lausch angriff +lediglich ||| # lediglich +leiter ||| # leiter +letzteren ||| # letzteren +lewada ||| # lewada +lewada ||| # lewada +lieber ||| # lieber +machen ||| # machen +machen ||| # machen +machen ||| # machen +mannes ||| # mannes +markiert ||| # markiert +marktwirtschaft ||| # markt wirtschaft +massenüberwachung ||| ((('#',0,1),),(('massen',0,1),('masse',0,1),),(('überwachung',0,1),),) +massenüberwachung ||| ((('#',0,1),),(('massen',0,1),('masse',0,1),),(('überwachung',0,1),),) +medien ||| # medien +medien ||| # medien +meinungsforscher ||| # meinung forscher +meinungsforschungsinstitut ||| # meinung forschung institut +meinungsforschungsinstituts ||| # meinung forschung instituts +meiste ||| # meiste +meisten ||| # meisten +menschen ||| # menschen +menschen ||| # menschen +menschen ||| # menschen +menschen ||| # menschen +menschen ||| # menschen +menschlichkeit ||| # menschlichkeit +menschsein ||| # menschsein +menschsein ||| ((('#',0,1),),(('menschsein',0,2),('mensch',0,1),),(('sein',0,1),),) +merkel ||| # merkel +merkel ||| # merkel +merkel ||| # merkel +merkel ||| # merkel +merkel ||| # merkel +merkel ||| # merkel +merkel ||| # merkel +merkel ||| # merkel +merkel ||| # merkel +michail ||| # michail +militärintervention ||| # militär intervention +milliardenkredit ||| # milliarden kredit +mitarbeiter ||| # mitarbeiter +mitarbeiter ||| # mitarbeiter +mitarbeitern ||| # mitarbeitern +mitarbeiters ||| # mitarbeiters +mitglieder ||| # mitglieder +mithalten ||| # mithalten +mittags ||| # mittags +mitteilen ||| # mitteilen +mittwoch ||| # mittwoch +modernster ||| # modernster +moment ||| # moment +moskau ||| # moskau +musste ||| # musste +mächtige ||| # mächtige +mächtigste ||| # mächtigste +mögliche ||| # mögliche +möglicher ||| # möglicher +müssen ||| # müssen +müssen ||| # müssen +nachdem ||| # nachdem +nachrichten ||| # nachrichten +nannte ||| # nannte +natürlich ||| # natürlich +nebenbei ||| # nebenbei +nehmen ||| # nehmen +neuesten ||| # neuesten +neunzigern ||| # neunzigern +neunzigern ||| # neunzigern +nichts ||| # nichts +nichts ||| # nichts +nichts ||| # nichts +nichts ||| # nichts +nichtstaatliche ||| # nicht staatliche +niemand ||| # niemand +nominiert ||| # nominiert +notlage ||| # notlage +nutzen ||| # nutzen +nötige ||| # nötige +obamas ||| # obamas +oligarchen ||| # oligarchen +olympischen ||| # olympischen +olympischen ||| # olympischen +olympischen ||| # olympischen +online ||| # online +operation ||| # operation +optimistisch ||| # optimistisch +organisatoren ||| # organisatoren +parlamentarismus ||| # parlamentarismus +parlamenten ||| # parlamenten +partei ||| # partei +passiert ||| # passiert +persönlich ||| # persönlich +plötzlich ||| # plötzlich +politik ||| # politik +politiker ||| # politiker +politisch ||| # politisch +politische ||| # politische +politischen ||| # politischen +politischen ||| # politischen +polizei ||| # polizei +positionen ||| # positionen +positives ||| # positives +postsowjetischen ||| # post sowjetischen +potenzielle ||| # potenzielle +prekären ||| # prekären +pressekonferenz ||| # presse konferenz +prinzip ||| # prinzip +privaten ||| # privaten +privatheit ||| # privatheit +privatheit ||| # privatheit +privatleben ||| # privat leben +privatleben ||| # privat leben +problem ||| # problem +profilseite ||| # profil seite +prozent ||| # prozent +prozent ||| # prozent +präsident ||| # präsident +präsident ||| # präsident +präsident ||| # präsident +präsident ||| # präsident +präsident ||| # präsident +präsidenten ||| # präsidenten +präsidenten ||| # präsidenten +präsidenten ||| # präsidenten +präsidenten ||| # präsidenten +präsidenten ||| # präsidenten +präsidenten ||| # präsidenten +präsidenten ||| # präsidenten +pubertät ||| # pubertät +punksängerinnen ||| # punk sängerinnen +putins ||| # putins +quellennennung ||| # quelle nennung +radikal ||| # radikal +reformen ||| # reformen +regierung ||| # regierung +regierung ||| # regierung +regierung ||| # regierung +regierungschefs ||| # regierung chefs +regionen ||| # regionen +reisepläne ||| # reisepläne +rezitierte ||| # rezitierte +richter ||| # richter +riesigen ||| # riesigen +russen ||| # russen +russen ||| # russen +russen ||| # russen +russen ||| # russen +russische ||| # russische +russische ||| # russische +russischen ||| # russischen +russischen ||| # russischen +russland ||| # russland +russland ||| # russland +russland ||| # russland +russland ||| # russland +russland ||| # russland +russland ||| # russland +russland ||| # russland +russlands ||| # russlands +russlands ||| # russlands +schafft ||| # schafft +schaut ||| # schaut +schenkt ||| # schenkt +schließen ||| # schließen +schlimm ||| # schlimm +schlüsselstellen ||| # schlüssel stellen +schmiergelder ||| # schmier gelder +schrecken ||| # schrecken +schreibt ||| # schreibt +schrie ||| # schrie +schrieb ||| # schrieb +schritt ||| # schritt +schritte ||| # schritte +schröder ||| # schröder +schröder ||| # schröder +schröder ||| # schröder +schröders ||| # schröders +schwarzen ||| # schwarzen +schweigen ||| # schweigen +schützen ||| # schützen +seinen ||| # seinen +seinen ||| # seinen +seiner ||| # seiner +seiner ||| # seiner +selbst ||| # selbst +selbst ||| # selbst +selbst ||| # selbst +selbst ||| # selbst +selbst ||| # selbst +selbst ||| # selbst +selbstbewusstseins ||| # selbstbewusstseins +selten ||| # selten +setzte ||| # setzte +sicherheit ||| # sicherheit +sicherung ||| # sicherung +snowden ||| # snowden +snowden ||| # snowden +snowden ||| # snowden +snowden ||| # snowden +snowden ||| # snowden +snowden ||| # snowden +snowden ||| # snowden +snowden ||| # snowden +snowdens ||| # snowdens +snowdens ||| # snowdens +snowdens ||| # snowdens +snowdens ||| # snowdens +sofort ||| # sofort +solche ||| # solche +sommer ||| # sommer +sommerurlaubsort ||| # sommer urlaub ort +sondern ||| # sondern +sondern ||| # sondern +sondern ||| # sondern +sonntag ||| # sonntag +sonntag ||| # sonntag +sonntagszeitung ||| # sonntag zeitung +sotschi ||| # sotschi +sotschi ||| # sotschi +sotschi ||| # sotschi +sowjetunion ||| # sowjet union +spektakel ||| # spektakel +sperre ||| # sperre +spezialisten ||| # spezialisten +spezialisten ||| # spezialisten +spiegel ||| # spiegel +spiele ||| # spiele +spielen ||| # spielen +spielen ||| # spielen +spione ||| # spione +sportereignisse ||| # sport ereignisse +sportliche ||| # sportliche +spreche ||| # spreche +spricht ||| # spricht +spräche ||| # spräche +später ||| # später +später ||| # später +staaten ||| # staaten +staatsaufträgen ||| # staat aufträgen +staatsgewalt ||| ((('#',0,1),),(('staats',0,1),('staat',0,1),),(('gewalt',0,1),),) +stabilisiert ||| # stabilisiert +stagniert ||| # stagniert +starken ||| # starken +starken ||| # starken +starker ||| # starker +starker ||| # starker +starker ||| # starker +starten ||| # starten +stationiert ||| # stationiert +status ||| # status +stehen ||| # stehen +steinmeier ||| # steinmeier +steinmeier ||| # steinmeier +steinmeiers ||| # steinmeiers +straflager ||| # straflager +ständig ||| # ständig +stärkt ||| # stärkt +stärkung ||| # stärkung +syrischen ||| # syrischen +system ||| # system +system ||| # system +system ||| # system +system ||| # system +sämtliche ||| # sämtliche +sängerinnen ||| # sängerinnen +sängerinnen ||| # sängerinnen +sätzen ||| # sätzen +technik ||| # technik +teilnahme ||| # teilnahme +telefonat ||| # telefonat +telefongespräche ||| # telefon gespräche +themas ||| # themas +tragen ||| # tragen +transparenz ||| # transparenz +trauen ||| # trauen +traute ||| # traute +ukraine ||| # ukraine +ukraine ||| # ukraine +umfassendes ||| # umfassendes +umgang ||| # umgang +umweltschützer ||| # umwelt schützer +unabhängige ||| # unabhängige +unabhängigen ||| # unabhängigen +unbeobachteten ||| # unbeobachteten +unmenschlicher ||| # unmenschlicher +unseren ||| # unseren +unserer ||| # unserer +unserer ||| # unserer +unserer ||| # unserer +unserer ||| # unserer +unternehmen ||| # unternehmen +unterordnen ||| # unterordnen +unterstützen ||| # unterstützen +unterstützung ||| # unterstützung +untersuchten ||| # untersuchten +verbrachte ||| # verbrachte +verfahren ||| # verfahren +vergangenheit ||| # vergangenheit +vergessene ||| # vergessene +vergünstigungen ||| # vergünstigungen +verhinderte ||| # verhinderte +verhängnisvoller ||| # verhängnisvoller +verkündet ||| # verkündet +verlangen ||| # verlangen +verlassen ||| # verlassen +verloren ||| # verloren +vernichtet ||| # vernichtet +vernichtung ||| # vernichtung +versichert ||| # versichert +verspielen ||| # verspielen +verspielen ||| # verspielen +verstärkt ||| # verstärkt +versuchen ||| # versuchen +vertrauen ||| # vertrauen +vertraut ||| # vertraut +vertrauten ||| # vertrauten +verträglichkeit ||| # verträglichkeit +verwendet ||| # verwendet +veränderungen ||| # veränderungen +veränderungen ||| # veränderungen +vielen ||| # vielen +vierten ||| # vierten +visier ||| # visier +vollends ||| # vollends +vorbeischauen ||| # vorbeischauen +vorgänger ||| # vorgänger +vorrangig ||| # vorrangig +vorrecht ||| # vorrecht +vorstellen ||| # vorstellen +vorwerfen ||| # vorwerfen +vorwürfe ||| # vorwürfe +vorzeitig ||| # vorzeitig +wahlerfolg ||| # wahlerfolg +wahljahr ||| # wahljahr +walter ||| # walter +washington ||| # washington +weihnachten ||| # weihnachten +weihnachtsansprache ||| ((('#',0,1),),(('weihnachts',0,1),('weihnacht',0,1),),(('ansprache',0,1),),) +weihnachtsbotschaft ||| ((('#',0,1),),(('weihnachts',0,1),('weihnacht',0,1),),(('botschaft',0,1),),) +weiter ||| # weiter +weiter ||| # weiter +weiter ||| # weiter +weiter ||| # weiter +weiterarbeiten ||| # weiterarbeiten +weitere ||| # weitere +weißen ||| # weißen +weltöffentlichkeit ||| # welt öffentlichkeit +wenige ||| # wenige +wenigen ||| # wenigen +weniger ||| # weniger +werden ||| # werden +werden ||| # werden +werden ||| # werden +werden ||| # werden +werden ||| # werden +werden ||| # werden +werden ||| # werden +werden ||| # werden +wesentliches ||| # wesentliches +wesentliches ||| # wesentliches +westerwelle ||| # westerwelle +whistleblower ||| ((('#',0,1),),(('whistleblower',0,2),('whistle',0,1),),(('blower',0,1),),) +wichtig ||| # wichtig +wichtige ||| # wichtige +wichtigsten ||| # wichtigsten +widmann ||| # widmann +wieder ||| # wieder +wieder ||| # wieder +wieder ||| # wieder +wieder ||| # wieder +winterspiele ||| # winter spiele +wirken ||| # wirken +wirtschaftlich ||| # wirtschaftlich +wissen ||| # wissen +wissen ||| # wissen +wissen ||| # wissen +wissen ||| # wissen +wladimir ||| # wladimir +wladimir ||| # wladimir +wladimir ||| # wladimir +wladimir ||| # wladimir +wohlstand ||| # wohlstand +wollen ||| # wollen +wollen ||| # wollen +wollen ||| # wollen +wollen ||| # wollen +wollen ||| # wollen +wollte ||| # wollte +wollten ||| # wollten +worden ||| # worden +worden ||| # worden +worden ||| # worden +wurden ||| # wurden +wurden ||| # wurden +wusste ||| # wusste +wussten ||| # wussten +wählen ||| # wählen +während ||| # während +würden ||| # würden +wüssten ||| # wüssten +zeitung ||| # zeitung +zerfall ||| # zerfall +zimmer ||| # zimmer +zimmer ||| # zimmer +zitiert ||| # zitiert +zitierte ||| # zitierte +zivilgesellschaft ||| # zivil gesellschaft +zuflucht ||| # zuflucht +zufolge ||| # zufolge +zufolge ||| # zufolge +zunächst ||| # zunächst +zustand ||| # zustand +zweiminütigen ||| ((('#',0,1),),(('zweiminütigen',0,2),('zwei',0,1),),(('minütigen',0,1),),) +zweiten ||| # zweiten +zwischen ||| # zwischen +ähnlich ||| # ähnlich +ändern ||| # ändern +änderte ||| # änderte +ökonomische ||| # ökonomische +überhaupt ||| # überhaupt +überstehen ||| # überstehen +überwachung ||| # überwachung +überwachungstechniken ||| ((('#',0,1),),(('überwachungs',0,1),('überwachung',0,1),),(('techniken',0,1),),) +üblich ||| # üblich +cyberbullying ||| ((('#',0,1),),(('cyberbullying',0,2),('cyber',0,1),),(('bullying',0,1),),) +erklärt ||| # erklärt +chinesischen ||| # chinesischen +behörden ||| # behörden +keiner ||| # keiner +schuld ||| # schuld +bewusst ||| # bewusst +verbietet ||| # verbietet +anderer ||| # anderer +propheten ||| # propheten +mohammed ||| # mohammed +gesandten ||| # gesandten +beleidigen ||| # beleidigen +verleumden ||| # verleumden +tatsächlich ||| # tatsächlich +gewinnt ||| # gewinnt +westjordanland ||| # west jordanland +rivalisierenden ||| # rivalisierenden +gemäßigten ||| # gemäßigten +palästinensergruppe ||| # palästinens ergruppe +kontrolliert ||| # kontrolliert +meinen ||| # meinen +wallten ||| # wallten +tränen ||| # tränen +machen ||| # machen +ancelotti ||| # ancelotti +eingeführte ||| # eingeführte +konkurrenz ||| # konkurrenz +zunutze ||| # zunutze +sieben ||| # sieben +jahren ||| # jahren +kämpft ||| # kämpft +konzern ||| # konzern +chinesischen ||| # chinesischen +plagiator ||| # plagiator +derzeit ||| # derzeit +mindestlohn ||| # mindestlohn +föderaler ||| # föderaler +yorker ||| # yorker +gesetzgebung ||| # gesetzgebung +dollar ||| # dollar +stunde ||| # stunde +imbongi ||| # imbongi +bedeutet ||| # bedeutet +geschichtenerzähler ||| # geschichte erzähler +lobpreiser ||| # lob preiser +polizei ||| # polizei +weiterhin ||| # weiterhin +städtische ||| # städtische +vorgaben ||| # vorgaben +regulierung ||| # regulierung +anbauern ||| # anbauern +medizinischem ||| # medizinischem +marihuana ||| # marihuana +durchsetzen ||| # durchsetzen +drogenhändler ||| # drogen händler +weiterhin ||| # weiterhin +verfolgt ||| # verfolgt +würden ||| # würden +beleidigung ||| # beleidigung +geahndet ||| # geahndet +werden ||| # werden +bleibt ||| # bleibt +unklar ||| # unklar +ungebildet ||| # ungebildet +schließlich ||| # schließlich +eintritt ||| # eintritt +kostet ||| # kostet +kinder ||| # kinder +jahren ||| # jahren +kostenlos ||| # kostenlos +karten ||| # karten +vorverkauf ||| # vorverkauf +bohemiaticket ||| # bohemia ticket +erhältlich ||| # erhältlich +berufungsgericht ||| # berufung gericht +berücksichtigt ||| # berücksichtigt +schnee ||| # schnee +spektakuläre ||| # spektakuläre +landschaften ||| # landschaften +diesen ||| # diesen +hartnäckigen ||| # hartnäckigen +geruch ||| # geruch +einfach ||| # einfach +verschwinden ||| # verschwinden +walmart ||| # walmart +verkauft ||| # verkauft +produkte ||| # produkte +windeln ||| # windeln +jagdgewehre ||| # jagdgewehre +autobatterien ||| # auto batterien +staubsaugern ||| # staub saugern +einige ||| # einige +personen ||| # personen +langweilen ||| # langweilen +leichter ||| # leichter +andere ||| # andere +pragmatische ||| # pragmatische +präsident ||| # präsident +barack ||| # barack +zusammentat ||| # zusammentat +waffenstillstand ||| # waffen stillstand +erreichen ||| # erreichen +könnte ||| # könnte +verheißungsvolles ||| # verheißungs volles +zeichen ||| # zeichen +vielleicht ||| # vielleicht +beginn ||| # beginn +symbolisieren ||| # symbolisieren +staatsanwaltschaft ||| # staat anwaltschaft +freitag ||| # freitag +versucht ||| # versucht +festzustellen ||| # festzustellen +armeegefreite ||| # armee gefreite +bradley ||| # bradley +manning ||| # manning +angeklagt ||| # angeklagt +größte ||| # größte +enthüllung ||| # enthüllung +vertraulicher ||| # vertraulicher +informationen ||| # informationen +amerikanischen ||| # amerikanischen +geschichte ||| # geschichte +mehrere ||| # mehrere +gelegenheiten ||| # gelegenheiten +versäumte ||| # versäumte +angeblich ||| # angeblich +erlittene ||| # erlittene +misshandlung ||| # misshandlung +militärhaft ||| # militärhaft +beschweren ||| # beschweren +glaube ||| # glaube +dieses ||| # dieses +richtige ||| # richtige +ebenfalls ||| # ebenfalls +diesem ||| # diesem +gesetz ||| # gesetz +ausgenommen ||| # ausgenommen +personen ||| # personen +ausbildungszeugnisse ||| # ausbildung zeugnisse +diplome ||| # diplome +zerfall ||| # zerfall +erhalten ||| # erhalten +wütend ||| # wütend +diesen ||| # diesen +forcierten ||| # forcierten +verfassungsprozess ||| # verfassung prozess +eigentlich ||| # eigentlich +februar ||| # februar +gesellschaftlichen ||| # gesellschaftlichen +kräfte ||| # kräfte +einbinden ||| # einbinden +sollen ||| # sollen +verruf ||| # verruf +gebracht ||| # gebracht +meisten ||| # meisten +selbst ||| # selbst +kämpfen ||| # kämpfen +beteiligt ||| # beteiligt +meinem ||| # meinem +erzählte ||| # erzählte +oxford ||| # oxford +hasste ||| # hasste +zufrieden ||| # zufrieden +russischen ||| # russischen +behörden ||| # behörden +probleme ||| # probleme +anziehung ||| # anziehung +schrauben ||| # schrauben +bekämpfen ||| # bekämpfen +wollen ||| # wollen +danach ||| # danach +sendete ||| # sendete +präsidentenamt ||| # präsidenten amt +medien ||| # medien +abschlusserklärung ||| # abschluss erklärung +gipfeltreffens ||| # gipfel treffens +erklärung ||| # erklärung +humala ||| # humala +handelte ||| # handelte +offizielle ||| # offizielle +dokument ||| # dokument +abschluss ||| # abschluss +gipfeltreffens ||| # gipfel treffens +doppelt ||| # doppelt +kosten ||| # kosten +offiziellen ||| # offiziellen +dieser ||| # dieser +kostet ||| # kostet +arbeitsmigranten ||| # arbeit migranten +dreitausend ||| # dreitausend +selbst ||| # selbst +kommunistischen ||| # kommunistischen +freunde ||| # freunde +legten ||| # legten +einwandfreie ||| # einwandfreie +manieren ||| # manieren +polizei ||| # polizei +tragen ||| # tragen +tödlicher ||| # tödlicher +waffen ||| # waffen +öffentlichkeit ||| # öffentlichkeit +verbieten ||| # verbieten +besitz ||| # besitz +schusswaffen ||| # schuss waffen +heraufsetzen ||| # heraufsetzen +nukleares ||| # nukleares +material ||| # material +terroristen ||| # terroristen +gelangt ||| # gelangt +könnte ||| # könnte +beispielsweise ||| # beispielsweise +ausbrechen ||| # ausbrechen +zweiten ||| # zweiten +kommen ||| # kommen +illegale ||| # illegale +waffen ||| # waffen +ordnungshütern ||| # ordnung hütern +kriminellen ||| # kriminellen +gestohlen ||| # gestohlen +werden ||| # werden +dieser ||| # dieser +kundinnen ||| # kundinnen +valentino ||| # valentino +unvergesslich ||| # unvergesslich +schützen ||| # schützen +innerhalb ||| # innerhalb +mannschaft ||| # mannschaft +respektieren ||| # respektieren +sowohl ||| # sowohl +spieler ||| # spieler +person ||| # person +tatbestand ||| # tat bestand +blasphemie ||| # blasphemie +aufrechterhalten ||| # aufrecht erhalten +beleidigungen ||| # beleidigungen +verboten ||| # verboten +schwerwiegende ||| # schwerwiegende +folgen ||| # folgen +meinungsäußerung ||| # meinung äußerung +könnte ||| # könnte +insbesondere ||| # insbesondere +presse ||| # presse +kirill ||| # kirill +miller ||| # miller +typischen ||| # typischen +petersburger ||| # petersburger +sozial ||| # sozial +philosophischen ||| # philosophischen +künstler ||| # künstler +mythen ||| # mythen +erschaffen ||| # erschaffen +frauen ||| # frauen +fliegen ||| # fliegen +bereits ||| # bereits +jahren ||| # jahren +änderung ||| # änderung +verbesserung ||| # verbesserung +ernähre ||| # ernähre +treibe ||| # treibe +medikamente ||| # medikamente +gefährliche ||| # gefährliche +smogglocke ||| # smog glocke +peking ||| # peking +stadtregierung ||| # stadt regierung +verschmutzung ||| # verschmutzung +begrenzen ||| # begrenzen +vorerst ||| # vorerst +husten ||| # husten +weiter ||| # weiter +repräsentantenhaus ||| # repräsentanten haus +großes ||| # großes +gerangel ||| # gerangel +haushaltsgesetz ||| # haushalt gesetz +verabschiedet ||| # verabschiedet +untergrenze ||| ((('#',0,1),),(('untergrenze',0,2),('unter',0,1),),(('grenze',0,1),),) +preissturz ||| # preis sturz +verschmutzungsrechte ||| # verschmutzung rechte +verhindern ||| # verhindern +informationen ||| # informationen +frankfurter ||| # frankfurter +allgemeinen ||| # allgemeinen +zeitung ||| # zeitung +sollen ||| # sollen +zeiten ||| # zeiten +zusätzliche ||| # zusätzliche +emissionszertifikate ||| # emission zertifikate +kommen ||| # kommen +hannover ||| # hannover +beginnt ||| # beginnt +landstraßenmord ||| # landstraße mord +kaarst ||| # kaarst +sportlehrer ||| # sport lehrer +festgenommen ||| # festgenommen +rätselhaft ||| # rätselhaft +prozess ||| # prozess +christian ||| # christian +einigen ||| # einigen +vetomächte ||| # veto mächte +atomüberwachungsprogramm ||| # atom überwachung programm +thailändische ||| # thailändische +demonstranten ||| # demonstranten +stürmen ||| # stürmen +regierungsgebäude ||| # regierung gebäude +jahresrückblick ||| # jahr rückblick +alljährliche ||| # alljährliche +drohkulisse ||| # droh kulisse +nordafrika ||| # nord afrika +südkorea ||| # süd korea +nordkorea ||| # nord korea +gewarnt ||| # gewarnt +traditionelles ||| # traditionelles +militärmanöver ||| # militär manöver +abzuhalten ||| # abzuhalten +serotoninwiederaufnahmehemmer ||| # serotonin wiederaufnahme hemmer +gedankenaustausch ||| # gedanke austausch +nachbarschaftspolitik ||| # nachbarschaft politik +frauenquote ||| # frauen quote +aufsichtsräte ||| # aufsicht räte +mindestens ||| # mindestens +prozent ||| # prozent +rechtsanspruch ||| # recht anspruch +familienpflegezeit ||| # familie pflege zeit +geeinigt ||| # geeinigt +teilzeitarbeit ||| # teil zeit arbeit +erleichtert ||| # erleichtert +werden ||| # werden +amtsperiode ||| # amtsperiode +hälfte ||| # hälfte +schwarzmeerregion ||| # schwarz meer region +zentralasien ||| # zentral asien +regierung ||| # regierung +merkel ||| # merkel +titelt ||| # titelt +ugandisches ||| # ugandisches +wochenmagazin ||| # woche magazin +vergangenen ||| # vergangenen +jahres ||| # jahres +garantieerklärung ||| # garantie erklärung +atomprogramms ||| # atom programms +weltgemeinschaft ||| # welt gemeinschaft +irakkrieg ||| # irak krieg +strafsteuer ||| # straf steuer +regierungsmethode ||| # regierung methode +rechtsschutzversicherungsgesellschaften ||| # recht schutz versicherung gesellschaften +umstand ||| # umstand +auffassungen ||| # auffassungen +wirklichkeiten ||| # wirklichkeiten +subkultur ||| # subkultur +akzeptieren ||| # akzeptieren +ausdruck ||| # ausdruck +bürgerlichen ||| # bürgerlichen +ordnungspolitik ||| # ordnung politik +verpflichteten ||| # verpflichteten +gesellschaftsverständnisses ||| # gesellschaft verständnisses +ultras ||| # ultras +dschungelcamp ||| # dschungel camp +verfolgen ||| # verfolgen +millionen ||| # millionen +zuschauer ||| # zuschauer +winfried ||| # winfried +glatzeder ||| # glatzeder +schauspieler ||| # schauspieler +offenbar ||| # offenbar +aufmerksamkeit ||| # aufmerksamkeit +wiedergutmachungskurs ||| # wiedergutmachung kurs +südsudanesische ||| # süd sudanesische +schlüsselstadt ||| # schlüssel stadt +rebellen ||| # rebellen +zurückerobert ||| # zurück erobert +zehntausende ||| # zehn tausende +demonstrieren ||| # demonstrieren +dänemark ||| # dänemark +gewinnt ||| # gewinnt +spitzenspiel ||| # spitzenspiel +spanien ||| # spanien +agrarindustrie ||| # agrar industrie +minoische ||| # minoische +computertechniker ||| # computer techniker +geheime ||| # geheime +gesundheitsministerium ||| # gesundheit ministerium +geschmuggelt ||| # geschmuggelt +apotheker ||| # apotheker +lobbyisten ||| # lobbyisten +thomas ||| # thomas +bellartz ||| # bellartz +verkauft ||| # verkauft +eruption ||| # eruption +santorin ||| # santorin +spätbronzezeitliche ||| # spät bronze zeitliche +ausbruch ||| # ausbruch +ägäischen ||| # ägäischen +vulkaninsel ||| # vulkan insel +santorin ||| # santorin +bezeichnet ||| # bezeichnet +jahrhundert ||| # jahrhundert +minoischen ||| # minoischen +kultur ||| # kultur +verbundene ||| # verbundene +siedlung ||| # siedlung +akrotiri ||| # akrotiri +moderner ||| # moderner +begrub ||| # begrub +molekulare ||| # molekulare +lenkraketen ||| # lenk raketen +schlafende ||| # schlafende +erreger ||| # erreger +forscher ||| # forscher +tierversuch ||| # tier versuch +gefunden ||| # gefunden +schlafenden ||| # schlafenden +anzugreifen ||| # anzugreifen +hubschrauber ||| # hubschrauber +aufwachen ||| # aufwachen +sonnenaufgang ||| ((('#',0,1),),(('sonnenaufgang',0,2),('sonne',0,1),),(('aufgang',0,1),),) +atlantik ||| # atlantik +zähneputzen ||| # zähne putzen +freiheitsstatue ||| # freiheit statue +dinner ||| # dinner +central ||| # central +abendsonne ||| # abend sonne +derselben ||| # derselben +wohnung ||| # wohnung +besser ||| # besser +jeffrey ||| # jeffrey +dvorett ||| # dvorett +immobilienmanager ||| # immobilien manager +lieblingsprojekts ||| # liebling projekts +seiner ||| # seiner +entwicklungsfirma ||| # entwicklung firma +lächelt ||| # lächelt +veleba ||| # veleba +diente ||| # diente +grundlage ||| # grundlage +entschädigungsverhandlungen ||| # entschädigung verhandlungen +gutachten ||| # gutachten +universitätskrankenhaus ||| # universität krankenhaus +erarbeitet ||| # erarbeitet +hauptplattform ||| # haupt plattform +hollywoodfilme ||| # hollywood filme +montreal ||| # montreal +bekommen ||| # bekommen +geringerer ||| # geringerer +terminator ||| # terminator +united ||| # united +internet ||| # internet +anteil ||| # anteil +prozent ||| # prozent +telekommunikationsunternehmen ||| # telekommunikation unternehmen +versatel ||| # versatel +gesichert ||| # gesichert +durchschnittspreis ||| # durchschnitt preis +beträgt ||| # beträgt +unternehmen ||| # unternehmen +mittwochabend ||| # mittwoch abend +mitteilte ||| # mitteilte +nationale ||| # nationale +sicherheitsberater ||| # sicherheit berater +norberto ||| # norberto +gonzales ||| # gonzales +verurteilte ||| # verurteilte +vorgehen ||| # vorgehen +soldaten ||| # soldaten +militärtransportflugzeug ||| # militär transport flugzeug +zufrieden ||| # zufrieden +aktiengesellschaft ||| # aktie gesellschaft +wiederaufnahme ||| # wiederaufnahme +tonbandaufnahme ||| # tonband aufnahme +staatskrise ||| # staat krise +madagaskars ||| # madagaskars +präsident ||| # präsident +bittet ||| # bittet +schlagworte ||| # schlagworte +demonstration ||| # demonstration +putsch ||| # putsch +machtkampf ||| # macht kampf +zwischen ||| # zwischen +opposition ||| # opposition +regierungspartei ||| # regierung partei +spitzt ||| # spitzt +afrikanischen ||| # afrikanischen +botschaft ||| # botschaft +befürchtet ||| # befürchtet +mitglieder ||| # mitglieder +oppositionspartei ||| # opposition partei +demonstrieren ||| # demonstrieren +putsch ||| # putsch +madagaskars ||| # madagaskars +präsidenten ||| # präsidenten +ravalomanana ||| # ravalomanana +mitglieder ||| # mitglieder +oppositionspartei ||| # opposition partei +demonstrieren ||| # demonstrieren +putsch ||| # putsch +madagaskars ||| # madagaskars +präsidenten ||| # präsidenten +ravalomanana ||| # ravalomanana +bedrängte ||| # bedrängte +präsident ||| # präsident +wandte ||| # wandte +öffentlichen ||| # öffentlichen +hilferuf ||| # hilfe ruf +anhänger ||| # anhänger +forderte ||| # forderte +regierungssitz ||| # regierung sitz +schützen ||| # schützen +mitglieder ||| # mitglieder +präsidentengarde ||| # präsidenten garde +unbestätigten ||| # unbestätigten +medienberichten ||| # medien berichten +begonnen ||| # begonnen +posten ||| # posten +verlassen ||| # verlassen +augenzeugen ||| # auge zeugen +berichteten ||| # berichteten +gepanzerte ||| # gepanzerte +fahrzeuge ||| # fahrzeuge +außenbezirken ||| # außen bezirken +hauptstadt ||| # hauptstadt +antananarivo ||| # antananarivo +botschafter ||| # botschafter +marquardt ||| # marquardt +nationalen ||| # nationalen +fernsehen ||| # fernsehen +erklärt ||| # erklärt +steuere ||| # steuere +bürgerkrieg ||| ((('#',0,1),),(('bürger',0,1),('bürgerkrieg',0,2),),(('krieg',0,1),),) +botschaft ||| # botschaft +familien ||| # familien +mitarbeiter ||| # mitarbeiter +unbedingt ||| # unbedingt +benötigt ||| # benötigt +werden ||| # werden +bürger ||| # bürger +verlassen ||| # verlassen +landes ||| # landes +aufgefordert ||| # aufgefordert +deutsche ||| # deutsche +botschaft ||| # botschaft +dagegen ||| # dagegen +wollte ||| # wollte +absprache ||| # absprache +anderen ||| # anderen +europäischen ||| # europäischen +vertretungen ||| # vertretungen +zunächst ||| # zunächst +ausreise ||| # ausreise +empfehlung ||| # empfehlung +regierung ||| # regierung +angeschlagenen ||| # angeschlagenen +staatspräsidenten ||| # staat präsidenten +ravalomanana ||| # ravalomanana +demokratiebewegung ||| # demokratie bewegung +selbst ||| # selbst +ernannten ||| # ernannten +präsidenten ||| # präsidenten +übergangsregierung ||| # übergang regierung +rajoelina ||| # rajoelina +gegenüber ||| # gegenüber +wochen ||| # wochen +andauernde ||| # andauernde +erbitterte ||| # erbitterte +machtkampf ||| # macht kampf +menschen ||| # menschen +gekostet ||| # gekostet +hunderte ||| # hunderte +wurden ||| # wurden +verletzt ||| # verletzt +modernisierung ||| # modernisierung +atomwaffen ||| # atom waffen +umbauten ||| # umbauten +marine ||| # marine +russlands ||| # russlands +präsident ||| # präsident +medwedew ||| # medwedew +aufrüstung ||| # aufrüstung +begründung ||| # begründung +versuche ||| # versuche +präsenz ||| # präsenz +grenzen ||| # grenzen +landes ||| # landes +verstärken ||| # verstärken +anzeige ||| # anzeige +moskau ||| # moskau +dmitrij ||| # dmitrij +medwedew ||| # medwedew +begründet ||| # begründet +bebaren ||| # bebaren +russischen ||| # russischen +streitkräfte ||| # streit kräfte +sollten ||| # sollten +massiv ||| # massiv +gestärkt ||| # gestärkt +atomwaffenarsenal ||| ((('#',0,1),),(('atom',0,1),('atomwaffen',0,2),),(('waffen',0,1),),) +modernisiert ||| # modernisiert +werden ||| # werden +westliche ||| # westliche +militärbündnis ||| # militär bündnis +versuche ||| # versuche +präsenz ||| # präsenz +grenzen ||| # grenzen +auszubauen ||| # auszubauen +präsident ||| # präsident +deshalb ||| # deshalb +aufrüstung ||| # aufrüstung +marine ||| # marine +umfang ||| # umfang +beginne ||| # beginne +umfassende ||| # umfassende +umrüstung ||| # umrüstung +heeres ||| # heeres +flotte ||| # flotte +ernstes ||| # ernstes +konfliktpotential ||| # konflikt potential +infrastruktur ||| # infrastruktur +kampfkraft ||| # kampf kraft +streitkräfte ||| # streit kräfte +strategischen ||| # strategischen +atomwaffen ||| # atom waffen +internationalen ||| # internationalen +terrorismus ||| # terrorismus +gefechtsbereitschaft ||| # gefecht bereitschaft +strategischen ||| # strategischen +atomwaffen ||| # atomwaffen +militärs ||| # militärs +aktuellen ||| # aktuellen +haushaltsprobleme ||| # haushalt probleme +auswirkungen ||| # auswirkungen +regierung ||| # regierung +streitkräfteetat ||| # streit kräfte etat +infolge ||| # infolge +finanzkrise ||| # finanz krise +zusammengestrichen ||| # zusammen gestrichen +weitere ||| # weitere +kürzungen ||| # kürzungen +ausgeschlossen ||| # ausgeschlossen +medwedews ||| # medwedews +vorgänger ||| # vorgänger +wladimir ||| # wladimir +wiederholt ||| # wiederholt +modernisierung ||| # modernisierung +waffenarsenals ||| # waffen arsenals +verkündet ||| # verkündet +umsetzung ||| # umsetzung +ankündigungen ||| # ankündigungen +großteil ||| # groß teil +atomwaffen ||| # atom waffen +sowjetzeiten ||| # sowjet zeiten +stimmung ||| # stimmung +streitkräften ||| # streit kräften +rahmen ||| # rahmen +reform ||| # reform +offizierkorps ||| # offizier korps +verkleinert ||| # verkleinert +werden ||| # werden +trifolium ||| # trifolium +umfassende ||| # umfassende +pflanzengattung ||| # pflanze gattung +unterfamilie ||| # unterfamilie +schmetterlingsblütler ||| # schmetterling blütler +faboideae ||| # faboideae +pflanzenfamilie ||| # pflanze familie +hülsenfrüchtler ||| # hülse früchtler +fabaceae ||| # fabaceae +gezählt ||| # gezählt +sprachgebrauch ||| # sprach gebrauch +allerdings ||| # allerdings +häufig ||| # häufig +gattung ||| # gattung +bezeichnet ||| # bezeichnet +sondern ||| # sondern +nahverwandten ||| # nah verwandten +gattungen ||| # gattungen +schneckenklee ||| # schnecke klee +medicago ||| # medicago +steinklee ||| # stein klee +melilotus ||| # melilotus +taxonomisch ||| # taxonomisch +entfernten ||| # entfernten +gattung ||| # gattung +sauerklee ||| # sauer klee +oxalis ||| # oxalis +charakteristische ||| # charakteristische +merkmale ||| # merkmale +gattung ||| # gattung +dreifiedrige ||| # drei fiedrige +blätter ||| # blätter +vielblütige ||| # viel blütige +kopfige ||| # kopfige +blütenstände ||| ((('#',0,1),),(('blüten',0,1),('blüte',0,1),),(('stände',0,1),),) +kontinenten ||| # kontinenten +ausnahme ||| # ausnahme +australiens ||| # australiens +antarktikas ||| # antarktikas +natürlich ||| # natürlich +verbreitet ||| # verbreitet +australien ||| # australien +wurden ||| # wurden +verschiedene ||| # verschiedene +kleearten ||| # klee arten +menschen ||| # menschen +eingeführt ||| # eingeführt +landwirtschaft ||| # landwirtschaft +werden ||| # werden +verschiedene ||| # verschiedene +kleearten ||| # klee arten +futterpflanzen ||| # futter pflanzen +verwendet ||| # verwendet +kleeanbau ||| # klee anbau +europa ||| # europa +nordamerika ||| # nord amerika +ökonomischer ||| # ökonomischer +bedeutung ||| # bedeutung +europa ||| # europa +jahrhundert ||| # jahrhundert +christus ||| # christus +angebaut ||| # angebaut +fähigkeit ||| # fähigkeit +symbiose ||| # symbiose +knöllchenbakterien ||| # knöllchen bakterien +rhizobiaceae ||| # rhizobiaceae +wurzeln ||| # wurzeln +stickstoff ||| # stickstoff +verbesserung ||| # verbesserung +bodenfruchtbarkeit ||| # boden fruchtbarkeit +bedeutend ||| # bedeutend +kleeblatt ||| # klee blatt +symbolik ||| # symbolik +vieler ||| # vieler +kulturen ||| # kulturen +eingang ||| # eingang +repräsentiert ||| # repräsentiert +dreiheit ||| # dreiheit +beispiel ||| # beispiel +christentum ||| # christentum +dreifaltigkeit ||| # dreifaltigkeit +weiterhin ||| # weiterhin +sommer ||| # sommer +symbolisiert ||| # symbolisiert +vierblättrige ||| # vier blättrige +kleeblatt ||| # klee blatt +abschnittsweise ||| # abschnittsweise +glücksbringer ||| # glücks bringer diff --git a/compound-split/de/weights.trained b/compound-split/de/weights.trained index 313d6ba9..ba6d0a87 100644 --- a/compound-split/de/weights.trained +++ b/compound-split/de/weights.trained @@ -1,20 +1,41 @@ -# Objective = 164.304 (eval count=118) -WordCount 0.10973670965860199 -LettersSq -0.040894083779153829 -LettersSqrt 0.33757888570124861 -InDict 0.049573722026753933 -InDictSubWord 0.69975734577036308 -Short 0.33555471096277373 -Long -0.41832772458034762 -OOV 0.060162987632197122 -OOVSubWord 0.068471660184093452 -ShortRange -0.95127190946200446 -HighFreq -2.4179829648207223 -MedFreq -0.21881857269052826 -Freq -0.32292456278379877 -FreqLen1 -0.34734160349477439 -FreqLen2 -0.1574854779610021 -Bad -1.7868318814690027 -RevCharLM 0.52613329631178929 -FugS 0.028876419364008043 -FugN -0.086060954349416352 +# Objective = 373.014 (eval count=107) +WordCount -1.8869327566343108 +LettersSq -0.022219159772322049 +LettersLog 1.5465219157578709 +LettersSqrt -0.6495272263749684 +InDict -2.332375087319726 +InDictSubWord 0.26452819026499702 +Short 0.13144850920386639 +Long -0.52710619358235422 +OOV 0.44544233068531919 +OOVSubWord 0.75125506082273197 +ShortRange -0.78230895533247025 +HighFreq -3.0655897924811724 +MedFreq -0.14369078175639161 +LogFreq -0.81311437004671527 +LogLogFreq 2.6206266390841026 +InDictFullWord -0.30581273013741311 +FreqLen1 -0.10873902414630844 +FreqLen2 -0.26027758996716255 +CS:deutschland 1.5696188595965801 +CS:gesamt 0.028560662880942392 +CS:haupt 0.1618063663954605 +CS:heraus -0.69628340540889733 +CS:leistung -2.1294187611277859 +CS:leistungen -2.4560473865535157 +CS:mittel -0.80510419589789817 +CS:nord 2.8271111296136722 +CS:steuer 0.9875598817062996 +CS:süd 2.3186645768514627 +CS:teil 2.1697059289701635 +CS:ver -2.558598750514931 +CS:weise -3.1535788459718188 +CS:wieder -1.5735927337584283 +RevCharLM 1.1301086841248393 +FugS 0.91824843000525525 +FugN 0.54856707576078012 +LenBias_3 -0.49935662411257448 +LenBias_4 -0.41252603120380671 +LenBias_5 -0.7385165671809879 +LenBias_6 -0.7920324526310959 +LenBias_7 0.55549891849415567 diff --git a/compound-split/de/wordlist.de b/compound-split/de/wordlist.de new file mode 100644 index 00000000..3609b10b --- /dev/null +++ b/compound-split/de/wordlist.de @@ -0,0 +1,18 @@ +deutschland +gesamt +haupt +heraus +herausforderung +herausforderungen +leistung +leistungen +mittel +mitteln +nord +selbstmord +steuer +süd +teil +ver +weise +wieder diff --git a/configure.ac b/configure.ac index 8136a7c7..e5d2dadb 100644 --- a/configure.ac +++ b/configure.ac @@ -1,4 +1,5 @@ -AC_INIT([cdec],[2013-11-10]) +AC_CONFIG_MACRO_DIR([m4]) +AC_INIT([cdec],[2014-01-20]) AC_CONFIG_SRCDIR([decoder/cdec.cc]) AM_INIT_AUTOMAKE AC_CONFIG_HEADERS(config.h) @@ -9,7 +10,7 @@ case $LEX in esac AC_PROG_CC AC_PROG_CXX -AX_CXX_COMPILE_STDCXX_11 +AX_CXX_COMPILE_STDCXX_11([],[mandatory]) AC_LANG_CPLUSPLUS AC_OPENMP BOOST_REQUIRE([1.44]) diff --git a/corpus/support/fix-eos.pl b/corpus/support/fix-eos.pl new file mode 100755 index 00000000..584f8b46 --- /dev/null +++ b/corpus/support/fix-eos.pl @@ -0,0 +1,10 @@ +#!/usr/bin/perl -w +use strict; +use utf8; + +binmode(STDIN, ":utf8"); +binmode(STDOUT, ":utf8"); +while(<STDIN>) { + s/(\p{Devanagari}{2}[A-Za-z0-9! ,.\@\p{Devanagari}]+?)\s+(\.)(\s*$|\s+\|\|\|)/$1 \x{0964}$3/s; + print; +} diff --git a/corpus/support/quote-norm.pl b/corpus/support/quote-norm.pl index 57f4ad77..f677df66 100755 --- a/corpus/support/quote-norm.pl +++ b/corpus/support/quote-norm.pl @@ -7,31 +7,98 @@ binmode(STDOUT,"utf8"); while(<STDIN>) { chomp; $_ = " $_ "; - s/&\s*lt\s*;/</gi; - s/&\s*gt\s*;/>/gi; - s/&\s*squot\s*;/'/gi; - s/&\s*quot\s*;/"/gi; - s/&\s*amp\s*;/&/gi; - s/&\s*nbsp\s*;/&/gi; - s/&\s*#\s*160\s*;/ /gi; + + # Regularlize spaces: + s/\x{a0}/ /g; # non-breaking space + s/\x{2009}/ /g; # thin space + s/\x{2028}/ /g; # "line separator" + s/\x{2029}/ /g; # "paragraph separator" + s/\x{202a}/ /g; # "left-to-right embedding" + s/\x{202b}/ /g; # "right-to-left embedding" + s/\x{202c}/ /g; # "pop directional formatting" + s/\x{202d}/ /g; # "left-to-right override" + s/\x{202e}/ /g; # "right-to-left override" + s/\x{85}/ /g; # "next line" + s/\x{fffd}/ /g; # "replacement character" + s/\x{feff}/ /g; # byte-order mark + s/\x{fdd3}/ /g; # "unicode non-character" + + # Regularize named HTML/XML escapes: + s/&\s*lt\s*;/</gi; # HTML opening angle bracket + s/&\s*gt\s*;/>/gi; # HTML closing angle bracket + s/&\s*squot\s*;/'/gi; # HTML single quote + s/&\s*quot\s*;/"/gi; # HTML double quote + s/&\s*nbsp\s*;/ /gi; # HTML non-breaking space + s/'/\'/g; # HTML apostrophe + s/&\s*amp\s*;/&/gi; # HTML ampersand (last) + + # Regularize known HTML numeric codes: + s/&\s*#\s*160\s*;/ /gi; # no-break space + s/&\s*#45\s*;\s*&\s*#45\s*;/--/g; # hyphen-minus hyphen-minus + s/&\s*#45\s*;/--/g; # hyphen-minus + + # Convert arbitrary hex or decimal HTML entities to actual characters: + s/&\#x([0-9A-Fa-f]+);/pack("U", hex($1))/ge; + s/&\#([0-9]+);/pack("U", $1)/ge; + + # Convert other Windows 1252 characters to UTF-8 + s/\x{80}/\x{20ac}/g; # euro sign + s/\x{95}/\x{2022}/g; # bullet + s/\x{99}/\x{2122}/g; # trademark sign + + # Currency and measure conversions: s/ (\d\d): (\d\d)/ $1:$2/g; s/[\x{20a0}]\x{20ac}]/ EUR /g; s/[\x{00A3}]/ GBP /g; s/(\W)([A-Z]+\$?)(\d*\.\d+|\d+)/$1$2 $3/g; s/(\W)(euro?)(\d*\.\d+|\d+)/$1EUR $3/gi; - s/&\s*#45\s*;\s*&\s*#45\s*;/--/g; - s/&\s*#45\s*;/--/g; - s/�c/--/g; - s/ ,,/ "/g; - s/„/"/g; - s/``/"/g; - s/''/"/g; - s/[「」]/"/g; - s/〃/"/g; - s/¨/"/g; + + # Ridiculous double conversions(?) (news commentary and Giga-FrEn): + s/�c/--/g; # long dash + s/\x{e2}\x{20ac}oe/\"/g; # opening double quote + s/\x{e2}\x{20ac}\x{9c}/\"/g; # opening double quote + s/\x{e2}\x{20ac}\x{9d}/\"/g; # closing double quote + s/\x{e2}\x{20ac}\x{2122}/\'/g; # apostrophe + s/\x{e2}\x{20ac}\x{201c}/ -- /g; # en dash? + s/\x{e2}\x{20ac}\x{201d}/ -- /g; # em dash? + s/â(\x{80}\x{99}|\x{80}\x{98})/'/g; # single quote? + s/â(\x{80}\x{9c}|\x{80}\x{9d})/"/g; # double quote? + + # Regularize quotes: + s/ˇ/'/g; # caron + s/´/'/g; # acute accent + s/`/'/g; # grave accent + s/ˉ/'/g; # modified letter macron + s/ ,,/ "/g; # ghetto low-99 quote + s/``/"/g; # latex-style left quote + s/''/"/g; # latex-style right quote + s/\x{300c}/"/g; # left corner bracket + s/\x{300d}/"/g; # right corner bracket + s/\x{3003}/"/g; # ditto mark + s/\x{00a8}/"/g; # diaeresis + s/\x{92}/\'/g; # curly apostrophe + s/\x{2019}/\'/g; # curly apostrophe + s/\x{f03d}/\'/g; # curly apostrophe + s/\x{b4}/\'/g; # curly apostrophe + s/\x{2018}/\'/g; # curly single open quote + s/\x{201a}/\'/g; # low-9 quote + s/\x{93}/\"/g; # curly left quote + s/\x{201c}/\"/g; # curly left quote + s/\x{94}/\"/g; # curly right quote + s/\x{201d}/\"/g; # curly right quote + s/\x{2033}/\"/g; # curly right quote + s/\x{201e}/\"/g; # low-99 quote + s/\x{84}/\"/g; # low-99 quote (bad enc) + s/\x{201f}/\"/g; # high-rev-99 quote + s/\x{ab}/\"/g; # opening guillemet + s/\x{bb}/\"/g; # closing guillemet + s/\x{0301}/'/g; # combining acute accent + + # Space inverted punctuation: s/¡/ ¡ /g; s/¿/ ¿ /g; + # Russian abbreviations: s/ п. п. / п.п. /g; s/ ст. л. / ст.л. /g; s/ т. е. / т.е. /g; @@ -45,24 +112,19 @@ while(<STDIN>) { s/ т. н. / т.н. /g; s/ т. ч. / т.ч. /g; s/ н. э. / н.э. /g; - # â<U+0080><U+0099> - s/â(\x{80}\x{99}|\x{80}\x{98})/'/g; - s/â(\x{80}\x{9c}|\x{80}\x{9d})/"/g; - s/ˇ/'/g; - s/´/'/g; - s/`/'/g; - s/’/'/g; - s/ ́/'/g; - s/‘/'/g; - s/ˉ/'/g; - s/β/ß/g; # WMT 2010 error - s/“/"/g; - s/”/"/g; - s/«/"/g; - s/»/"/g; + + # Convert foreign numerals into Arabic numerals + tr/०-९/0-9/; # devangari + tr/౦-౯/0-9/; # telugu + tr/೦-೯/0-9/; # kannada + tr/೦-௯/0-9/; # tamil + tr/൦-൯/0-9/; # malayalam + + # Random punctuation: tr/!-~/!-~/; s/、/,/g; # s/。/./g; + s/\x{85}/.../g; s/…/.../g; s/―/--/g; s/–/--/g; @@ -77,11 +139,27 @@ while(<STDIN>) { s/’/'/g; s/â€"/"/g; s/؛/;/g; - + + # Regularize ligatures: + s/\x{9c}/oe/g; # "oe" ligature + s/\x{0153}/oe/g; # "oe" ligature + s/\x{8c}/Oe/g; # "OE" ligature + s/\x{0152}/Oe/g; # "OE" ligature + s/\x{fb00}/ff/g; # "ff" ligature + s/\x{fb01}/fi/g; # "fi" ligature + s/\x{fb02}/fl/g; # "fl" ligature + s/\x{fb03}/ffi/g; # "ffi" ligature + s/\x{fb04}/ffi/g; # "ffl" ligature + + s/β/ß/g; # WMT 2010 error + + # Strip extra spaces: s/\s+/ /g; s/^\s+//; s/\s+$//; - s/[\x{00}-\x{1f}]//g; + + # Delete control characters: + s/[\x{00}-\x{1f}]//g; print "$_\n"; } diff --git a/corpus/support/token_list b/corpus/support/token_list index 43dd80d9..228663f6 100644 --- a/corpus/support/token_list +++ b/corpus/support/token_list @@ -1,6 +1,65 @@ ##################### hyphenated words added by Fei since 3/7/05 ##X-ray +# hindi abbreviation patterns +जन. +फर. +अग. +सित. +अक्टू. +अक्तू. +नव. +दिस. +डी.एल. +डी.टी.ओ. +डी.ए. +ए.एस.आई. +डी.टी.ओ. +एम.एस.आर.टी.सी. +बी.बी.एम.बी. +डी.एस.पी. +सी.आर.पी. +एस.डी.एम. +सी.डी.पी.ओ. +बी.डी.ओ. +एस.डी.ओ. +एम.पी.पी. +पी.एच.ई. +एस.एच.ओ. +ए.सी.पी. +यू.पी. +पी.एम. +आर.बी.डी. +वी.पी. +सी.ए.डी.पी. +ए. +बी. +सी. +डी. +ई. +एफ. +जी. +एच. +आई. +जे. +के. +एल. +एम. +एन. +ओ. +पी. +क़यू. +आर. +एस. +टी. +यू. +वी. +डबल्यू. +एक्स. +वाई. +ज़ेड. +ज़ी. + ##################### words made of punct only :- :-) diff --git a/corpus/support/tokenizer.pl b/corpus/support/tokenizer.pl index e0df16a7..7771201f 100755 --- a/corpus/support/tokenizer.pl +++ b/corpus/support/tokenizer.pl @@ -65,7 +65,7 @@ my $Split_AposD = 1; ## 'd ### some patterns -my $common_right_punc = '\.|\,|\;|:|\!|\?|\"|\)|\]|\}|\>|\-'; +my $common_right_punc = '\x{0964}|\.|\,|\;|\!|:|\?|\"|\)|\]|\}|\>|\-'; #### step 1: read files @@ -112,7 +112,7 @@ my $new_token_total = 0; while(<STDIN>){ chomp(); - + s/\x{0970}/./g; # dev abbreviation character if(/^(\[b\s+|\]b|\]f|\[f\s+)/ || (/^\[[bf]$/) || (/^\s*$/) || /^<DOC/ || /^<\/DOC/) { ## markup print STDOUT "$_\n"; @@ -121,7 +121,7 @@ while(<STDIN>){ my $orig_num = 0; my $deep_proc_num = 0; - + s/(\x{0964}+)/ $1/g; # Devangari end of sentence my $new_line = proc_line($_, \$orig_num, \$deep_proc_num); $orig_token_total += $orig_num; @@ -148,7 +148,8 @@ while(<STDIN>){ $new_line =~ s/(set|src|tgt|trg)/ $1/g; } - print STDOUT " $new_line\n"; + chomp $new_line; + print STDOUT "$new_line\n"; } ######################################################################## @@ -228,6 +229,7 @@ sub proc_token { ## step 1: check the most common case if($token =~ /^[a-z0-9\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}\p{Devanagari}]+$/i){ + #if($token =~ /^[a-z0-9\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}]+$/i){ ### most common cases return $token; } @@ -363,7 +365,7 @@ sub deep_proc_token { ##### step 0: if it mades up of all puncts, remove one punct at a time. if($line !~ /[\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}\p{Devanagari}a-zA-Z\d]/){ - if($line =~ /^(\!+|\@+|\++|\=+|\*+|\<+|\>+|\|+|\?+|\.+|\-+|\_+|\&+)$/){ + if($line =~ /^(\!+|\@+|\++|\=+|\*+|\<+|\>+|\|+|\?+|\x{0964}+|\.+|\-+|\_+|\&+)$/){ ## ++ @@@@ !!! .... return $line; } @@ -454,7 +456,7 @@ sub deep_proc_token { ### deal with ': e.g., 's, 't, 'm, 'll, 're, 've, n't ## 'there => ' there '98 => the same - $suc += ($line =~ s/^(\'+)([a-z]+)/ $1 $2/gi); + $suc += ($line =~ s/^(\'+)([a-z\p{Cyrillic}\p{Greek}\p{Hebrew}\p{Han}\p{Arabic}\p{Devanagari}]+)/ $1 $2/gi); ## note that \' and \. could interact: e.g., U.S.'s; 're. if($Split_NAposT && ($line =~ /^(.*[a-z]+)(n\'t)([\.]*)$/i)){ @@ -664,10 +666,10 @@ sub deep_proc_token { return $line; } - if($line =~ /^(([a-z]\.)+)(\.*)$/i){ + if ($line =~ /^(([a-z]|ए|बी|सी|डी|ई|एफ|जी|एच|आई|जे|के|एल|एम|एन|ओ|पी|क़यू|आर|एस|टी|यू|वी|डबल्यू|एक्स|वाई|ज़ेड|ज़ी)(\.([a-z]|ए|बी|सी|डी|ई|एफ|जी|एच|आई|जे|के|एल|एम|एन|ओ|पी|क़यू|आर|एस|टी|यू|वी|डबल्यू|एक्स|वाई|ज़ेड|ज़ी))+)(\.?)(\.*)$/i){ ## I.B.M. - my $t1 = $1; - my $t3 = $3; + my $t1 = $1 . $5; + my $t3 = $6; return $t1 . " ". proc_token($t3); } @@ -701,10 +703,3 @@ sub deep_proc_token { return $line; } - - - - - - - diff --git a/corpus/tokenize-anything.sh b/corpus/tokenize-anything.sh index 5b7933d8..bca954d1 100755 --- a/corpus/tokenize-anything.sh +++ b/corpus/tokenize-anything.sh @@ -14,6 +14,7 @@ fi $SUPPORT/utf8-normalize.sh $NORMARGS | $SUPPORT/quote-norm.pl | $SUPPORT/tokenizer.pl | + $SUPPORT/fix-eos.pl | sed $SEDFLAGS -e 's/ al - / al-/g' | $SUPPORT/fix-contract.pl | sed $SEDFLAGS -e 's/^ //' | sed $SEDFLAGS -e 's/ $//' | diff --git a/decoder/decoder.cc b/decoder/decoder.cc index 5bb62710..e02c7730 100644 --- a/decoder/decoder.cc +++ b/decoder/decoder.cc @@ -86,7 +86,7 @@ struct ELengthWeightFunction { } }; inline void ShowBanner() { - cerr << "cdec (c) 2009--2013 by Chris Dyer\n"; + cerr << "cdec (c) 2009--2014 by Chris Dyer\n"; } inline string str(char const* name,po::variables_map const& conf) { diff --git a/decoder/ff_csplit.cc b/decoder/ff_csplit.cc index e6f78f84..a0e538d3 100644 --- a/decoder/ff_csplit.cc +++ b/decoder/ff_csplit.cc @@ -14,12 +14,19 @@ #include "stringlib.h" #include "tdict.h" +#ifndef HAVE_OLD_CPP +# include <unordered_set> +#else +# include <tr1/unordered_set> +namespace std { using std::tr1::unordered_set; } +#endif using namespace std; struct BasicCSplitFeaturesImpl { BasicCSplitFeaturesImpl(const string& param) : word_count_(FD::Convert("WordCount")), letters_sq_(FD::Convert("LettersSq")), + letters_log_(FD::Convert("LettersLog")), letters_sqrt_(FD::Convert("LettersSqrt")), in_dict_(FD::Convert("InDict")), in_dict_sub_word_(FD::Convert("InDictSubWord")), @@ -30,14 +37,16 @@ struct BasicCSplitFeaturesImpl { short_range_(FD::Convert("ShortRange")), high_freq_(FD::Convert("HighFreq")), med_freq_(FD::Convert("MedFreq")), - freq_(FD::Convert("Freq")), + logfreq_(FD::Convert("LogFreq")), + loglogfreq_(FD::Convert("LogLogFreq")), + in_dict_full_word_(FD::Convert("InDictFullWord")), fl1_(FD::Convert("FreqLen1")), fl2_(FD::Convert("FreqLen2")), bad_(FD::Convert("Bad")) { vector<string> argv; int argc = SplitOnWhitespace(param, &argv); - if (argc != 1 && argc != 2) { - cerr << "Expected: freqdict.txt [badwords.txt]\n"; + if (argc != 1 && argc != 2 && argc != 3) { + cerr << "Expected: freqdict.txt [badwords.txt] [sensitvewords.txt]\n"; abort(); } freq_dict_.Load(argv[0]); @@ -51,6 +60,14 @@ struct BasicCSplitFeaturesImpl { bad_words_.insert(TD::Convert(badword)); } } + if (argc == 3) { + ReadFile rf(argv[2]); + istream& in = *rf.stream(); + string line; + while(getline(in, line)) { + special_feats_[TD::Convert(line)] = FD::Convert("CS:"+line); + } + } } void TraversalFeaturesImpl(const Hypergraph::Edge& edge, @@ -59,6 +76,7 @@ struct BasicCSplitFeaturesImpl { const int word_count_; const int letters_sq_; + const int letters_log_; const int letters_sqrt_; const int in_dict_; const int in_dict_sub_word_; @@ -69,12 +87,15 @@ struct BasicCSplitFeaturesImpl { const int short_range_; const int high_freq_; const int med_freq_; - const int freq_; + const int logfreq_; + const int loglogfreq_; + const int in_dict_full_word_; const int fl1_; const int fl2_; const int bad_; FreqDict<float> freq_dict_; set<WordID> bad_words_; + unordered_map<WordID, int> special_feats_; }; BasicCSplitFeatures::BasicCSplitFeatures(const string& param) : @@ -85,8 +106,15 @@ void BasicCSplitFeaturesImpl::TraversalFeaturesImpl( const int src_word_length, SparseVector<double>* features) const { const bool subword = (edge.i_ > 0) || (edge.j_ < src_word_length); + string len_bias = "LenBias_0"; + int swlen = log(src_word_length) / log(1.69); + if (swlen > 9) swlen = 9; + len_bias[8] += swlen; + int fid_len_bias_ = FD::Convert(len_bias); + features->set_value(fid_len_bias_, 1.0); features->set_value(word_count_, 1.0); features->set_value(letters_sq_, (edge.j_ - edge.i_) * (edge.j_ - edge.i_)); + features->set_value(letters_log_, log(edge.j_ - edge.i_)); features->set_value(letters_sqrt_, sqrt(edge.j_ - edge.i_)); const WordID word = edge.rule_->e_[1]; const char* sword = TD::Convert(word).c_str(); @@ -113,14 +141,19 @@ void BasicCSplitFeaturesImpl::TraversalFeaturesImpl( float freq = freq_dict_.LookUp(word); if (freq) { - features->set_value(freq_, freq); + features->set_value(logfreq_, freq); + features->set_value(loglogfreq_, log(freq) / log(1.69)); features->set_value(in_dict_, 1.0); if (subword) features->set_value(in_dict_sub_word_, 1.0); } else { + if (!subword) features->set_value(in_dict_full_word_, 1.0); features->set_value(oov_, 1.0); if (subword) features->set_value(oov_sub_word_, 1.0); freq = 99.0f; } + const unordered_map<WordID, int>::const_iterator it = special_feats_.find(word); + if (it != special_feats_.end()) + features->set_value(it->second, 1.0); if (bad_words_.count(word) != 0) features->set_value(bad_, 1.0); if (chars < 5) @@ -139,6 +172,8 @@ void BasicCSplitFeaturesImpl::TraversalFeaturesImpl( features->set_value(fl2_, freq / chars); } +void BasicCSplitFeatures::PrepareForInput(const SentenceMetadata& smeta) {} + void BasicCSplitFeatures::TraversalFeaturesImpl( const SentenceMetadata& smeta, const Hypergraph::Edge& edge, diff --git a/decoder/ff_csplit.h b/decoder/ff_csplit.h index 64d42526..79bf2886 100644 --- a/decoder/ff_csplit.h +++ b/decoder/ff_csplit.h @@ -10,6 +10,7 @@ class BasicCSplitFeaturesImpl; class BasicCSplitFeatures : public FeatureFunction { public: BasicCSplitFeatures(const std::string& param); + virtual void PrepareForInput(const SentenceMetadata& smeta); protected: virtual void TraversalFeaturesImpl(const SentenceMetadata& smeta, const HG::Edge& edge, diff --git a/extractor/Makefile.am b/extractor/Makefile.am index e5b439f9..a406d9dc 100644 --- a/extractor/Makefile.am +++ b/extractor/Makefile.am @@ -1,7 +1,5 @@ -bin_PROGRAMS = compile run_extractor extract - -if HAVE_CXX11 +bin_PROGRAMS = sacompile run_extractor extract EXTRA_PROGRAMS = alignment_test \ data_array_test \ @@ -114,8 +112,8 @@ vocabulary_test_LDADD = $(GTEST_LDFLAGS) $(GTEST_LIBS) libextractor.a noinst_LIBRARIES = libextractor.a -compile_SOURCES = compile.cc -compile_LDADD = libextractor.a +sacompile_SOURCES = sacompile.cc +sacompile_LDADD = libextractor.a run_extractor_SOURCES = run_extractor.cc run_extractor_LDADD = libextractor.a extract_SOURCES = extract.cc @@ -134,6 +132,14 @@ libextractor_a_SOURCES = \ features/max_lex_target_given_source.cc \ features/sample_source_count.cc \ features/target_given_source_coherent.cc \ + features/count_source_target.h \ + features/feature.h \ + features/is_source_singleton.h \ + features/is_source_target_singleton.h \ + features/max_lex_source_given_target.h \ + features/max_lex_target_given_source.h \ + features/sample_source_count.h \ + features/target_given_source_coherent.h \ grammar.cc \ grammar_extractor.cc \ matchings_finder.cc \ @@ -154,8 +160,33 @@ libextractor_a_SOURCES = \ target_phrase_extractor.cc \ time_util.cc \ translation_table.cc \ - vocabulary.cc + vocabulary.cc \ + alignment.h \ + backoff_sampler.h \ + data_array.h \ + fast_intersector.h \ + grammar.h \ + grammar_extractor.h \ + matchings_finder.h \ + matchings_sampler.h \ + matchings_trie.h \ + phrase.h \ + phrase_builder.h \ + phrase_location.h \ + phrase_location_sampler.h \ + precomputation.h \ + rule.h \ + rule_extractor.h \ + rule_extractor_helper.h \ + rule_factory.h \ + sampler.h \ + scorer.h \ + suffix_array.h \ + suffix_array_sampler.h \ + target_phrase_extractor.h \ + time_util.h \ + translation_table.h \ + vocabulary.h -AM_CPPFLAGS = -W -Wall -Wno-sign-compare $(CXX11_SWITCH) -fopenmp $(GTEST_CPPFLAGS) $(GMOCK_CPPFLAGS) -AM_LDFLAGS = -fopenmp -endif +AM_CPPFLAGS = -W -Wall -Wno-sign-compare $(OPENMP_CXXFLAGS) $(GTEST_CPPFLAGS) $(GMOCK_CPPFLAGS) +AM_LDFLAGS = $(OPENMP_CXXFLAGS) diff --git a/extractor/extract.cc b/extractor/extract.cc index 387cbe9b..e5b6f6ff 100644 --- a/extractor/extract.cc +++ b/extractor/extract.cc @@ -8,7 +8,11 @@ #include <boost/filesystem.hpp> #include <boost/program_options.hpp> #include <boost/program_options/variables_map.hpp> -#include <omp.h> +#if HAVE_OPEN_MP + #include <omp.h> +#else + const unsigned omp_get_num_threads() { return 1; } +#endif #include "alignment.h" #include "data_array.h" diff --git a/extractor/run_extractor.cc b/extractor/run_extractor.cc index f1aa5e35..00564a36 100644 --- a/extractor/run_extractor.cc +++ b/extractor/run_extractor.cc @@ -8,7 +8,11 @@ #include <boost/filesystem.hpp> #include <boost/program_options.hpp> #include <boost/program_options/variables_map.hpp> +#if HAVE_OPEN_MP #include <omp.h> +#else + const unsigned omp_get_num_threads() { return 1; } +#endif #include "alignment.h" #include "data_array.h" diff --git a/extractor/compile.cc b/extractor/sacompile.cc index 3ee668ce..3ee668ce 100644 --- a/extractor/compile.cc +++ b/extractor/sacompile.cc diff --git a/m4/boost.m4 b/m4/boost.m4 index 027e039b..c8eb65ae 100644 --- a/m4/boost.m4 +++ b/m4/boost.m4 @@ -22,7 +22,7 @@ # along with this program. If not, see <http://www.gnu.org/licenses/>. m4_define([_BOOST_SERIAL], [m4_translit([ -# serial 16 +# serial 18 ], [# ], [])]) @@ -403,15 +403,25 @@ dnl generated only once above (before we start the for loops). LDFLAGS=$boost_save_LDFLAGS LIBS=$boost_save_LIBS if test x"$Boost_lib" = xyes; then - # Because Boost is often installed in non-standard locations we want to - # hardcode the path to the library (with rpath). Here we assume that - # Libtool's macro was already invoked so we can steal its variable - # hardcode_libdir_flag_spec in order to get the right flags for ld. - boost_save_libdir=$libdir - libdir=$boost_ldpath - eval boost_rpath=\"$hardcode_libdir_flag_spec\" - libdir=$boost_save_libdir - Boost_lib_LDFLAGS="-L$boost_ldpath $boost_rpath" + # Check or used cached result of whether or not using -R or -rpath makes sense. + # Some implementations of ld, such as for Mac OSX, require -rpath but + # -R is the flag known to work on other systems. + # https://github.com/tsuna/boost.m4/issues/19 + AC_CACHE_VAL([boost_cv_rpath_link_ldflag], + [for boost_cv_rpath_link_ldflag in -Wl,-R, -Wl,-rpath,; do + LDFLAGS="$boost_save_LDFLAGS -L$boost_ldpath $boost_cv_rpath_link_ldflag$boost_ldpath" + LIBS="$boost_save_LIBS $Boost_lib_LIBS" + _BOOST_AC_LINK_IFELSE([], + [boost_rpath_link_ldflag_found=yes + break], + [boost_rpath_link_ldflag_found=no]) + done + AS_IF([test "x$boost_rpath_link_ldflag_found" != "xyes"], + [AC_MSG_ERROR([Unable to determine whether to use -R or -rpath])]) + LDFLAGS=$boost_save_LDFLAGS + LIBS=$boost_save_LIBS + ]) + Boost_lib_LDFLAGS="-L$boost_ldpath $boost_cv_rpath_link_ldflag$boost_ldpath" Boost_lib_LDPATH="$boost_ldpath" break 6 else @@ -496,21 +506,21 @@ BOOST_DEFUN([Chrono], # added as of 1.35.0. If we have a version <1.35, we must not attempt to # find Boost.System as it didn't exist by then. if test $boost_major_version -ge 135; then - BOOST_SYSTEM([$1]) +BOOST_SYSTEM([$1]) fi # end of the Boost.System check. -boost_system_save_LIBS=$LIBS -boost_system_save_LDFLAGS=$LDFLAGS +boost_filesystem_save_LIBS=$LIBS +boost_filesystem_save_LDFLAGS=$LDFLAGS m4_pattern_allow([^BOOST_SYSTEM_(LIBS|LDFLAGS)$])dnl LIBS="$LIBS $BOOST_SYSTEM_LIBS" LDFLAGS="$LDFLAGS $BOOST_SYSTEM_LDFLAGS" BOOST_FIND_LIB([chrono], [$1], - [boost/chrono.hpp], - [boost::chrono::system_clock::time_point d = boost::chrono::system_clock::now();]) + [boost/chrono.hpp], + [boost::chrono::thread_clock d;]) if test $enable_static_boost = yes && test $boost_major_version -ge 135; then - AC_SUBST([BOOST_SYSTEM_LIBS], ["$BOOST_SYSTEM_LIBS $BOOST_SYSTEM_LIBS"]) + AC_SUBST([BOOST_FILESYSTEM_LIBS], ["$BOOST_FILESYSTEM_LIBS $BOOST_SYSTEM_LIBS"]) fi -LIBS=$boost_system_save_LIBS -LDFLAGS=$boost_system_save_LDFLAGS +LIBS=$boost_filesystem_save_LIBS +LDFLAGS=$boost_filesystem_save_LDFLAGS ])# BOOST_CHRONO @@ -524,6 +534,14 @@ BOOST_FIND_HEADER([boost/lexical_cast.hpp]) ])# BOOST_CONVERSION +# BOOST_CRC() +# ----------- +# Look for Boost.CRC +BOOST_DEFUN([CRC], +[BOOST_FIND_HEADER([boost/crc.hpp]) +])# BOOST_CRC + + # BOOST_DATE_TIME([PREFERRED-RT-OPT]) # ----------------------------------- # Look for Boost.Date_Time. For the documentation of PREFERRED-RT-OPT, see the @@ -534,25 +552,6 @@ BOOST_DEFUN([Date_Time], [boost::posix_time::ptime t;]) ])# BOOST_DATE_TIME -# BOOST_TIMER([PREFERRED-RT-OPT]) -# ----------------------------------- -# Look for Boost.Timer. For the documentation of PREFERRED-RT-OPT, see the -# documentation of BOOST_FIND_LIB above. -BOOST_DEFUN([Timer], -[#check for Boost.System -BOOST_SYSTEM([$1]) -boost_system_save_LIBS=$LIBS -boost_system_save_LDFLAGS=$LDFLAGS -m4_pattern_allow([^BOOST_SYSTEM_(LIBS|LDFLAGS)$])dnl -LIBS="$LIBS $BOOST_SYSTEM_LIBS" -LDFLAGS="$LDFLAGS $BOOST_SYSTEM_LDFLAGS" -BOOST_FIND_LIB([timer], [$1], - [boost/timer/timer.hpp], - [boost::timer::auto_cpu_timer t;]) -AC_SUBST([BOOST_SYSTEM_LIBS], ["$BOOST_SYSTEM_LIBS $BOOST_SYSTEM_LIBS"]) -LIBS=$boost_system_save_LIBS -LDFLAGS=$boost_system_save_LDFLAGS -])# BOOST_TIMER # BOOST_FILESYSTEM([PREFERRED-RT-OPT]) # ------------------------------------ @@ -607,6 +606,14 @@ BOOST_DEFUN([Function], [BOOST_FIND_HEADER([boost/function.hpp])]) +# BOOST_GEOMETRY() +# ---------------- +# Look for Boost.Geometry (new since 1.47.0). +BOOST_DEFUN([Geometry], +[BOOST_FIND_HEADER([boost/geometry.hpp]) +])# BOOST_GEOMETRY + + # BOOST_GRAPH([PREFERRED-RT-OPT]) # ------------------------------- # Look for Boost.Graphs. For the documentation of PREFERRED-RT-OPT, see the @@ -802,6 +809,14 @@ BOOST_DEFUN([Signals], ])# BOOST_SIGNALS +# BOOST_SIGNALS2() +# ---------------- +# Look for Boost.Signals2 (new since 1.39.0). +BOOST_DEFUN([Signals2], +[BOOST_FIND_HEADER([boost/signals2.hpp]) +])# BOOST_SIGNALS2 + + # BOOST_SMART_PTR() # ----------------- # Look for Boost.SmartPtr @@ -949,6 +964,17 @@ BOOST_DEFUN([Variant], [BOOST_FIND_HEADER([boost/variant/variant_fwd.hpp]) BOOST_FIND_HEADER([boost/variant.hpp])]) +# BOOST_POINTERCONTAINER() +# ------------------------ +# Look for Boost.PointerContainer +BOOST_DEFUN([Pointer_Container], +[BOOST_FIND_HEADER([boost/ptr_container/ptr_deque.hpp]) +BOOST_FIND_HEADER([boost/ptr_container/ptr_list.hpp]) +BOOST_FIND_HEADER([boost/ptr_container/ptr_vector.hpp]) +BOOST_FIND_HEADER([boost/ptr_container/ptr_array.hpp]) +BOOST_FIND_HEADER([boost/ptr_container/ptr_set.hpp]) +BOOST_FIND_HEADER([boost/ptr_container/ptr_map.hpp]) +])# BOOST_POINTERCONTAINER # BOOST_WAVE([PREFERRED-RT-OPT]) # ------------------------------ diff --git a/python/setup.py.in b/python/setup.py.in index a2aa28f6..3da405a1 100644 --- a/python/setup.py.in +++ b/python/setup.py.in @@ -9,8 +9,6 @@ LIB = ['../decoder', '../utils', '../mteval', '../training/utils', '../klm/lm', LIBS = re.findall('-l([^\s]+)', '@LIBS@') CPPFLAGS = re.findall('-[^\s]+', '@CPPFLAGS@ @CXXFLAGS@') LDFLAGS = re.findall('-[^\s]+', '@LDFLAGS@') -# Make sure linker flags go only to the linker -LDFLAGS = [opt.replace('-R', '-Wl,-rpath,') for opt in LDFLAGS] ext_modules = [ Extension(name='cdec._cdec', diff --git a/training/liblbfgs/Makefile.am b/training/liblbfgs/Makefile.am index 272d6f56..aa3af377 100644 --- a/training/liblbfgs/Makefile.am +++ b/training/liblbfgs/Makefile.am @@ -1,10 +1,9 @@ -TESTS = ll_test -noinst_PROGRAMS = ll_test +noinst_LIBRARIES = liblbfgs.a +noinst_PROGRAMS = ll_test ll_test_SOURCES = ll_test.cc ll_test_LDADD = liblbfgs.a -lz - -noinst_LIBRARIES = liblbfgs.a +TESTS = ll_test liblbfgs_a_SOURCES = \ lbfgs.c \ diff --git a/training/utils/parallelize.pl b/training/utils/parallelize.pl index 4197e0e5..c9ab88ce 100755 --- a/training/utils/parallelize.pl +++ b/training/utils/parallelize.pl @@ -45,11 +45,22 @@ my $numnodes = 8; my $user = $ENV{"USER"}; my $pmem = "9g"; my $basep=50300; -my $randp=300; my $tryp=50; my $no_which; my $no_cd; +if (-r '/dev/urandom') { + open(RR,'</dev/urandom') or die "Failed to read /dev/urandom: $!"; + my $buffer; + die "Failed to read 4 bytes of entropy" unless read(RR,$buffer,4) == 4; + close RR; + my ($val) = unpack 'L1', $buffer; + srand($val); +} else { + srand(); +} +my $randp=4000; + my $DEBUG=$ENV{DEBUG}; print STDERR "DEBUG=$DEBUG output enabled.\n" if $DEBUG; my $verbose = 1; @@ -206,8 +217,7 @@ chomp $host; # find open port -srand; -my $port = 50300+int(rand($randp)); +my $port = $basep+int(rand($randp)); my $endp=$port+$tryp; sub listening_port_lines { my $quiet=$verbose?'':'2>/dev/null'; diff --git a/utils/stringlib.h b/utils/stringlib.h index 1bb533d8..f60b7867 100644 --- a/utils/stringlib.h +++ b/utils/stringlib.h @@ -265,6 +265,8 @@ inline unsigned int UTF8Len(unsigned char x) { else if ((x >> 5) == 0x06) return 2; else if ((x >> 4) == 0x0e) return 3; else if ((x >> 3) == 0x1e) return 4; + else if ((x >> 2) == 0x3e) return 5; + else if ((x >> 1) == 0x7e) return 6; else return 0; } |