inflection

このところ、このブログの訪問者で、サーチエンジンからHerfindahl Indexという言葉を検索してくる方が目立っています。マーケティング関連の情報収集をしているのでしょうが、言語処理でこの指数を使っているというので驚いている方もいるかもしれませんね。以前、この指数を使って翻訳のぶれをチェックするプロジェクトをやっているという話をしましたが、今は日本語以外の解析に入ってきました。細かい言語のルールというのはほんとうに複雑怪奇です。
例えば、日本語の表記のぶれというと何があるでしょう。音引きや送り仮名です。「取り付け手順」、「取付け手順」、「取付手順」など送り仮名の種類によっていくつか考えられます。何が正しいかというのはあくまで決めたスタイルによりますが、言葉としてはどれも妥当なものです。こういったぶれというのはある意味で許容範囲内です。これが翻訳であれば、英語のInstallation Stepsの翻訳としては、いずれも可能だということです。ただ、スタイルとして「取付手順」が決められた訳だとしたなら、その訳以外にバリエーションは存在しません。「取付け手順」となっていたら、それは「だめ」と決め付けることが可能なわけです。
ところが、この「訳の決めつけ」というのが他言語では簡単にはいきません。英語でもfileという言葉に対して、fileとfilesという単複の違いがありますが、スペイン語でfile nameというと、nombre de archivoが基本的な形に対して、冠詞のつき方で、nombre del archivoのように中の前置詞+冠詞のコンビネーションが変わってきます。ですから、単純にfile nameはnombre de archivoとは決め付けられないということです。
ドイツ語などはもっと気が狂います。value typeというと、Wertetypのように2語がくっついて1語になりますが、それに加えて、wertの語尾にeが付いて(compound bit)Wertetypとなります。もちろん、book valueのように後半にくる場合はBuchwertとeは付きません。このような語尾の変化をinflectionと呼ぶのです。
欧州言語を知っている人にとっては何も変哲もないことなのですが、機械処理する場合、どれが「正当なぶれ」で、「どれが間違いによるぶれ」なのか判断がつきにくいということです。さらに、先のドイツ語のWertetypはeを付けづにWerttypでも問題はありません。つまり日本語のようなスタイル的な変化という要素も存在するわけです。この中から正しい訳と間違った訳を見分けるというのは本当に難しいですね。
日本語のようにカタカナやひらがな、漢字、英数字などスクリプトがいくつも混在するというのは、外国人にとって複雑怪奇なのですが、機械というのはこういった判別は簡単にできてしまいます。それよりも文法にからんだような判断を要するときには複雑なモデルでも作らないことには対処できません。
とりあえず、フランス、ドイツ、ポルトガル、イタリア、オランダ、スペイン、そして中国語と韓国語は完了。明日はいよいよロシア語。これがまた曲者っぽい・・・。