summaryrefslogtreecommitdiff
path: root/corpus/support/quote-norm.pl
blob: 7fe33db430255b7a94348cc64c5ce9a50f8b302a (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
#!/usr/bin/perl -w
$|++;
use strict;
use utf8;
binmode(STDIN,"utf8");
binmode(STDOUT,"utf8");
while(<STDIN>) {
  chomp;
  $_ = " $_ ";
  s/&\s*lt\s*;/</gi;
  s/&\s*gt\s*;/>/gi;
  s/&\s*squot\s*;/'/gi;
  s/&\s*quot\s*;/"/gi;
  s/&\s*amp\s*;/&/gi;
  s/&\s*nbsp\s*;/&/gi;
  s/&\s*#\s*160\s*;/ /gi;
  s/ (\d\d): (\d\d)/ $1:$2/g;
  s/[\x{20a0}]\x{20ac}]/ EUR /g;
  s/[\x{00A3}]/ GBP /g;
  s/(\W)([A-Z]+\$?)(\d*\.\d+|\d+)/$1$2 $3/g;
  s/(\W)(euro?)(\d*\.\d+|\d+)/$1EUR $3/gi;
  s/&\s*#45\s*;\s*&\s*#45\s*;/--/g;
  s/&\s*#45\s*;/--/g;
  s/�c/--/g;
  s/ ,,/ "/g;
  s/„/"/g;
  s/``/"/g;
  s/''/"/g;
  s/[「」]/"/g;
  s/〃/"/g;
  s/¨/"/g;
  s/¡/ ¡ /g;
  s/¿/ ¿ /g;

  s/ п. п. / п.п. /g;
  s/ ст. л. / ст.л. /g;
  s/ т. е. / т.е. /g;
  s/ т. к. / т.к. /g;
  s/ т. ч. / т.ч. /g;
  s/ т. д. / т.д. /g;
  s/ т. п. / т.п. /g;
  s/ и. о. / и.о. /g;
  s/ с. г. / с.г. /g;
  s/ г. р. / г.р. /g;
  s/ т. н. / т.н. /g;
  s/ т. ч. / т.ч. /g;
  s/ н. э. / н.э. /g;
  # â<U+0080><U+0099>
  s/â(\x{80}\x{99}|\x{80}\x{98})/'/g;
  s/â(\x{80}\x{9c}|\x{80}\x{9d})/"/g;
  s/ˇ/'/g;
  s/´/'/g;
  s/`/'/g;
  s/’/'/g;
  s/ ́/'/g;
  s/‘/'/g;
  s/ˉ/'/g;
  s/β/ß/g; # WMT 2010 error
  s/“/"/g;
  s/”/"/g;
  s/«/"/g;
  s/»/"/g;
  tr/!-~/!-~/;
  tr/०-९/0-9/; # devangari
  tr/౦-౯/0-9/; # telugu
  tr/೦-೯/0-9/; # kannada
  tr/೦-௯/0-9/; # tamil
  tr/൦-൯/0-9/; # malayalam
  s/、/,/g;
  # s/。/./g;
  s/…/.../g;
  s/―/--/g;
  s/–/--/g;
  s/─/--/g;
  s/—/--/g;
  s/•/ * /g;
  s/\*/ * /g;
  s/،/,/g;
  s/؟/?/g;
  s/ـ/ /g;
  s/Ã ̄/i/g;
  s/’/'/g;
  s/â€"/"/g;
  s/؛/;/g;
		    
  s/\s+/ /g;
  s/^\s+//;
  s/\s+$//;
  s/[\x{00}-\x{1f}]//g;
  print "$_\n";
}