機械翻訳に関する興味深い論考が、翻訳フォーラムの電子会議室に投稿されました。これは、会員の成田光彰さんが1993年8月に執筆なさり、あるソフトウェア会社の広報誌に掲載されたものだそうです。

非常に興味深い論が展開されていますので、多くの方に読んでいただければと思い、フォーラムのウェブサイトにも転載させていただきたいとお願いしたところ、ご快諾いただきました。

翻訳フォーラムマネージャー Buckeye


 

 

機械翻訳に関する天動説と地動説

はじめに

 ソフトウエアのマニュアルの翻訳を仕事としている私は、ときどき人から「コンピュータを使って翻訳を行ったらよいのではないか」と尋ねられます。他方、これまで私が経験した範囲内では、コンピュータによる翻訳はまだまだ実用に足る水準に達していない、と判断しています。ところが、コンピュータによる翻訳が使いものになると思っている人に対してそのことを説明しても、なかなか理解してもらえません。その理由はいろいろありますが、両者の視点が大きく食い違っていることが挙げられます。この視点の違いを私は「天動説」と「地動説」に例えています。

天動説

 機械翻訳に関する天動説的な見方を非常に簡単に要約すると、次のようになるでしょう。

 「単語の意味をコンピュータの辞書に登録し、原文を文法的に解析して訳文の構文を導出し、それに訳語を適用すれば、訳文が得られる。その結果が完全でないまでも、人が少し手を加えれば、使用に耐える訳文が得られる。」つまり、辞書と文法を柱にした、学校で習う英文和訳と同じ発想です。実際、翻訳ソフトウエアを開発しようとしたらそのような設計思想を採らざるをえません。

地動説

 文章を構成する要素にはつぎのようなものがあります。

文字、単語、句、節、文、段落、論理構造(項、節、章など)

 それらの要素に横断的に関係する要素に次のようなものがあります。

要素の間(例:行間)、文脈、順序(例:語順)

 これらの要素のあらゆる面に、地動説の視点があります。ここでは、そのうちの単語を中心とした視点に限って、論点をいくつか紹介します。もっと上の水準へ行けば行くほど、機械的には処理しきれない難しい問題が増えます。

論点

 

辞書に載っている訳語は代表的なものだけである

 1つの単語の複数の意味がすべて辞書に掲載されているでしょうか。そうではありません。辞書に掲載されている単語の意味は代表的なものです。ある単語が取り得る意味で辞書に掲載されていないものがありえます。辞書に単語のすべての意味を収録するだけのスペースがないという理由があるかも知れません。しかし、辞書編纂者に必要なだけのスペースを与えるからすべての意味を掲載するように言っても、恐らくそれはできない相談でしょう。

単語の意味は文脈によって変わる

 ある単語タイプが、使われた場所において単語オカレンスとしてどの意味を取るかは、文脈によって決まります。Aという単語にn個の意味があるからといって、その単語がA-1, A-2, ... A-nという書き方をされる訳ではありません。その単語はあくまでもAとしか書き表されません。人がその単語をどう解釈するかによって、意味が変わるのです。正確には、単語をどう解釈するかではなくて、その単語が含まれる文脈をどう解釈するかによるのです。つまり、単語の意味を決定する要因の一部はその単語の外にあるのです。したがって、入力(元の単語)に処理(辞書引き)を加えて出力(訳語)を決定するとの、プログラム的な図式は必ずしも成り立ちません。

1つの単語の意味は無限にある

 最初からこう言ったら多くの人が異論を唱えることでしょう。上に述べたことからこの命題は自然に導き出されることです。ただし、誤解のないようにする必要があります。「虹は7色」という日本語の表現を引き合いに出すと分かりやすいでしょう。虹の色の「赤」と「橙」、「橙」と「黄色」・・・は間を明確に区切れるでしょうか。色は光の波長の無段階的な変化によって発生するので、その中間を区切ることはできません。同様に、1つの単語の複数の意味の間を個別的に区切ることはできないのです。ニュアンスには無限の差があるのです。(ちなみに、英語には a spectrum of という表現があります。この意味は「スペクトルのように無段階的に変化する」と言うことですが、私は通常「多種多様な」と訳しています。)

対応する英語と日本語の単語の意味集合にはずれがある

 以上の記述において、1つの単語には複数ないし無限の「意味」があると述べていることに注意してください。では、その訳語はどうでしょうか。発生系統の同じ原語同士の間では、単語対訳語が1対1ということもありえるでしょう。しかし、一般には1つの単語には複数ないし無限の「訳語」があると言えるでしょう。ここで重要なことは、1つの英単語の意味集合とそれに対応する和訳語のうちの1つの意味集合とには「ずれ」があるということです。つまり、対応する英単語と和訳語の意味には、両方に共通の部分と、英語だけにある部分と、日本語だけにある部分があるのです。たとえは、"pigeon" は一般には「鳩」を指しますが、"stool pigeon" と言うと「警察の犬」という意味になります。

辞書に載っていない訳語を適用した方が良い場合が相当ある

 以上のことから、辞書に掲載されていない訳語を適用した方がよい場合があることは、容易に理解されるでしょう。1つの単語の意味が無限にあり、その訳語も無限にあり、それらが辞書に載っているとは限らないとなると、辞書から訳語を引き出すという機械翻訳の仕組みでは、翻訳に大きな限界があるわけです。もちろん程度問題はあります。しかし、ここではそのことはひとまず深入りしないことにします。適用された訳語が最適ではなくても許容できるケースがあることよりも、一般に考えられている機械翻訳の仕組みでは到底解決できない問題が内在していることを認識することが重要です。しかも、最も低い単語の水準でこのような問題が出てきます。もっと高い水準になれば、もっと難しい問題があります。

訳語を適用することは想像/創造的な頭脳活動である

 原語に対応する最適な訳語が辞書に登録されていなければ、コンピュータはその訳語を使って翻訳することはできません。したがって、既に登録されている訳語の中から、適当にどれかを選ぶことになります。その方法としては、先頭に登録されているものを選択するとか、前回使用されたものを選択することが考えられます。そのようにして最適ではない訳語を選択した場合、その結果は、「ぎこちない」とか「そぐわない」程度で済む場合もあれば、誤訳となる場合もあります。

 人は辞書に登録されていない訳語を適用することができます。その前に、人がそのような行動を起すきっかけは、疑問ないし問題を感ずると言うことです。つまり、辞書に登録されている範囲内の訳語を適用したのでは、誤訳になるとか、稚拙な訳であるとか、語呂が悪いといったことを感じるのです。コンピュータはそのような善し悪しを感ずることはありません。

 さて、辞書にない訳語を適用する方法としては、大別して「調べる」ことと「考え出す」ことがあります。

 「調べる」方法としては、別のもっと大きな辞書に当たるとか、参考文献を読むといったことが挙げられます。

 それでも適切な訳語が見つからない場合、翻訳者は一所懸命に考えます。そう簡単には良い訳語は思い浮かばないことが多いのですが、智恵を絞った効果があって適切な訳語を案出できることもよくあります。

 いずれにしても、これらは創造的な頭脳活動の所産です。その基盤は文章の内容を解釈し理解することにあります。コンピュータにはこのような芸当はできません。

 以上の意見に対して異論があることでしょう。その代表的なものとして、下記の2点が挙げられます。

 マニュアルは文学作品ほど文学的に高度でないことは確かです。しかし、それは程度の問題であって、上記の定性的な論点を覆したり部分的に除外できる性質のものではありません。たとえば、文学作品用の辞書には1つの単語に10の訳語を登録するとしたら、マニュアル用の辞書には訳語を5つ登録する程度で済むということです。でも、辞書に載っていない訳語を使わなくて100%済むということにはなりません。また、マニュアルには定形的な部分があることは事実ですが、その割合は決して高くはありません。私は数多くのマニュアルの翻訳を手掛けてきましたが、辞書と文法だけで機械的に翻訳できるものはまったくありません。

 粗訳として利用できるかどうかは、コンピュータによる翻訳の品質と期待する出来上り品質と校正する人の能力とによって決まります。現状では、私はコンピュータによる翻訳の品質そのものが粗訳として使える水準に達していないと判断しています。それを様になる翻訳に引き上げることができるのは、相当に腕のいい翻訳者です。そのような人は、「下手な翻訳を直しているくらいなら最初から自分で訳し直した方が早く良いものができる」と言うのが常です。

 概念的な説明だけではイメージが湧きにくいので、具体例を挙げましょう。研究社の English-Japanese Dictionary for the General Readerinclude を引くと、次の訳語が示されています。

含む、包含する;(全体の一部として)算入する、含める;含み[囲い]込む、閉じこめる

 以下に、includeを使った例文とその試訳をいくつか示します。

A source library includes source programs.
ソース・ライブラリにはソース・プログラムが収録されています。

X file is included in Y directory.
XファイルはYディレクトリのもとに置かれています。

The OSI model includes seven layers.
OSIモデルは7つの層から構成されます。

 以上の試訳において、辞書に載せられている訳語は使用しておりません。それはその文意を汲むと別の訳語の方が適していると判断されるからです。ここで「別の訳語が適している」ということには、いろいろな差があります。好みの差でしかなく、辞書どおりの訳語を使用するので十分な場合もあるでしょう。他方、辞書どおりの訳語を使用してのでは誤訳ないし悪訳となる場合もあるでしょう。

 以上の論議は、プログラミング言語に例えれば、アセンブラの水準にあります。コンパイラや4GLのような更に高い水準からみると、もっともっと難しい問題が山積しています。

 逆説を試みてみましょう。世界共通言語を目指した人工言語にエスペラント語があります。人類共通の願いにもかかわらず、この世界共通語がまったくと言ってよいほど普及しないことは、言語を機械的に翻訳できないことを証明しているといっても過言ではないでしょう。もう1つ、皆さんは書いたり話したりするときに、「最初に主語を言わなければならない」とか、「この動詞はサ行変格活用だ」とか、「この語尾は未然形だ」などと意識するでしょうか。そのような文法は無意識のうちにコントロールされているはずです。つまり、文法は文章表現の最も重要な要因ではないのです。それをいくら形式的にコンピュータで正確に扱っても、意味の通る翻訳ができるという保証はありません。

 最後に、問題の真髄に触れる簡単な例を示します。

 goodは「良い」、morningは「朝」です。では、good morningは「良い朝」かというと、通常は「お早ようございます」という意味です。天動説的な見方からすると、good morningは熟語であるということでしょう。したがって、それを辞書に登録しておけば、単語対単語の関係で処理できます。他方、地動説的な見方からすると、good morningは英語文化圏における朝の挨拶であると認識します。そして、日本語文化圏における朝の挨拶は「お早ようございます」であるので、結局good morningは「お早ようございます」となります。

 部分的には、熟語という考え方で対応できることも少しはあるでしょう。しかし、ありとあらゆる表現に対応するには、原文の意味内容を理解してそれを同じ意味の訳文に表現し直さなければなりません。つまり、翻訳において、シンタックスよりもセマンティックスの方が重要なのです。

 コンピュータによる辞書と文法に基いた翻訳は記号変換の水準にとどまっています。セマンティックスを考慮にいれてコンピュータで翻訳を行うには、AIを採り入れる必要があるでしょう。ただし、口で言うのは簡単ですが、それにはまた別の難しい問題があります。


トップページに戻る