Herfindahl Index

昨日まで、ある自然言語処理(natural language processing)に関する論文(もちろん共著)で忙殺されていましたが、ようやく終了。今日が締め切りでしたが、一日早く、昨日の夜に提出しました。査読といって、発表できるかどうかの審査があるので、まで気は抜けませんが、まあとにかく終わったのでひと段落。自分は純粋な研究者ではないので、「もう書きたくない」ってのが本音ですが、まあしばらくするとまた何か書きたくなるんでしょうね・・・。
ところで今回のテーマは翻訳の品質管理の自動化なのですが、訳語の品質をどう数量化するかというのがポイントの一つです。翻訳というのは統一性(Consistency)が重要です。例えば、computerでも「コンピュータ」と「コンピューター」のように音引きあるかないかで2種類存在するほか、「電子計算機」のような訳語も存在します。reportというのも「報告書」であったり「帳票」であったりと、企業や製品、背景、テーマなどによって変化するのは当然のことです。まあ「不統一性」が伴うのが翻訳ともいえます。ところが、同じ製品に「報告書」と「帳票」が”混在”しては問題です。例えば、
The system could not print the report. Reports needs to be saved in PDF before they're printed.
というエラーメッセージのようなものを、
「報告書を印刷することができませんでした。帳票は印刷前にPDFファイルに保存してください。」
と訳した場合、ユーザーは当然、「あれ、帳票と報告書って何かちがうの?」と疑問を抱きます。これが「訳の不統一問題」と位置づけることができます。
問題はそれをどうやって数量化するかということですが、毎日ウーウーとうなりなから考えていました。ふとNHK経済羅針盤を見ていたら、市場の独占具合を指標化する方法に、herfindahl-Hirschman Indexというのがあるらしく、しかも、各マーケットシェアを2乗して足すという簡単なものらしい(大学のマーケティングの授業か何かでやったはずなのだが、まあそんなものは覚えているはずがない)。ふ〜んと思ってみていたら、ふと、これを使えばいいじゃんとひらめきました。要は、「独占的に訳されているようなものは統一性が高いということで、逆にいろんな訳語が”競争”しているほど統一性が低いとみなす」わけです。数学的には、訳のばらつき度に対して、直線的にではなく、exponential(急上昇するよう)に指数を設定するということです。単純なことなんですが、マーケティングで使われている数学を言語エンジニアリングに応用するというのが面白くて、無理やり導入してやってみました。もちろん結果と効果は出ているのですが、理屈が受け入れられるかどうかというのは別問題で、査読の結果が楽しみです。
まあここら辺が、自分は研究者ではないという証拠なんでしょうね。論文で書く理屈なんか二の次で、とにかく「仕事に使えるかどうか」が自分にとっては第一なんですね。今回も論文書く前にすでにシステムを作ってしまっています。論文で証明する前にすでに人に使ってもらってしまっています。論文仕上がるころにはすでにリリース間近であるという。だから、査読で落とされても別にどうだというわけではなく、システムの導入計画は淡々と進むことになるでしょう。こんなにお気楽にやっているから、論文書くのも苦にならないのかもしれませんね。よいか悪いかは別ですが・・・。