機械翻訳(MT)は、ニューラルネットワークと人工知能(AI)の進歩のおかげで、過去10年間で大きな進歩を遂げました。MTは迅速かつ明確であり、ほとんどの場合、非常に正確です。しかし、他のあらゆることにも言えることですが、完璧さは実現しにくいものです。翻訳出力の品質は、翻訳ソースの品質と、AI学習に使用したデータの両方に密接に関連しています。
「AI学習用のデータは適切なものを使用しているか」、「MTシステムで翻訳するときのソースドキュメントの文はわかりやすいか」など、AIの性質上、翻訳品質を向上させるためのすべての条件を満たしていても翻訳誤りが発生する場合があります。この記事では、MTの翻訳誤りにおける分類分けを行い、それらを見つけて修正するために何ができるかを探ります。また、翻訳誤りを最初から防ぐためのヒントもご紹介します。
MTの翻訳誤りの分類
MTの翻訳誤りにはさまざまな種類があります。以下によくある例をいくつか示します。
形態素解析の誤り
形態素解析の誤りには、時制、複数形、性別や、動詞、副詞、形容詞、代名詞の不適切な使用など、文の構造が誤って翻訳されるたときに発生します。例えば、HSBC銀行のマーケティング・スローガン「Assume Nothing(何も想定するな)」は、英語圏以外の国の言語で「Do Nothing(何もしない)」と誤訳され、顧客を混乱させました。
意味的な誤り
意味的な誤りは、翻訳が技術的には正しいものの、意味や文脈を捉え損なう場合に発生します。例えば、チキンフードで有名なブランドの一つであるKFCのグローバル・スローガンは「Finger lickin’ good(指をなめるほどおいしい)」です。しかし、文脈を無視して中国語に直訳すると、聴衆が「私たちはあなたの指を食べてしまうでしょう」と解釈する文章になります。
語彙の誤り
ほとんどの言語には、綴りや発音が同じでも、異なる意味を持つ語彙があります。文脈によっては、誤訳されることがあります。例えば、インドネシアで大地震が発生した際、多くの人がFacebookで自分のステータスをSelamatと共有しました。これは「生き残る」という意味です。ただ、selamatには、「おめでとう」という意味もあります。Facebookのアルゴリズムはこれを誤って解釈し、投稿に風船や紙吹雪を追加したため、多くの国民の怒りを招きました。
綴りの誤り
綴りの誤りとは、翻訳されたテキストのスペルミスや文字の誤用に関するもので、特に異なる文字体系を持つ言語に当てはまります。例えば、英国がクロアチアに提出した公式文書の中には、United Kingdom の綴りを Ujedninjena Kralijevina ではなく Ujedinjeno Kraljevstvo と誤記したものがあり、政治的な恥辱を招いたことがあります。
重要な固有名詞、用語等の誤り
この誤りは、固有名詞、専門用語、特定の業界用語などの重要な要素が文書全体で誤って翻訳されている場合に発生します。たとえば、スペイン政府の Web サイトでは、部門長の名前「Dolores del Campo」が直訳「It is pain of field(それは野原の痛みです)」に置き換えられ、その部門が嘲笑の的になりました。
否定と反対の誤り
「no」、「not」、「neither」、「nor」などの否定語の位置が間違っていたり、抜けていたりすると、誤った翻訳や正反対の意味の翻訳につながることがあります。例えば、道路標識の「No west, one way only.(西行きなし、一方通行のみ)」は、ウェールズ語で「Un ffordd i’r gorllewin yn unig」と誤訳されました。これを英訳すると、「One way west only.(一方通行は西行きのみ)」という訳になり、「no」が抜け落ちたため、混乱したドライバーが反対方向へ行ってしまったのです。
MTの翻訳誤りが起こる3つの大きな原因
このように様々な種類の翻訳誤りが存在するため、MTシステムのせいにしたくなりますね。でも残念ながら、翻訳誤りの多くは、ソーステキストの品質が低いために発生しています。ソーステキストに文法エラー、長すぎる文章、乏しい語彙、一貫性のない用語がある場合には、MTの出力品質も低下します。これが1つ目の原因です。
2つ目の原因は、AI学習に使用するデータの品質によるものです。架空のテキストでMTのためのAI学習をしてみても、特定の技術文書や公式文書の翻訳では、期待した良い結果は得られません。MT用のAI学習に使用するデータには、実際の文書に基づいたソース言語とターゲット言語の対応付けがされた対訳データが必要です。翻訳したい話題や分野を網羅し、間違いのない最高品質の対訳データを使用することが重要です。
3つ目の原因は、文脈の欠如です。多くの言語では、利用分野が変わると用語や文章も変化します。マーケティング広告と公式通知では、異なる用語が使用されます。二重の意味を持つ用語を正しく解釈するには、文脈が必要です。翻訳対象が記述している分野や、使用される用語、スタイル、トーンに関する情報があることで、翻訳の品質が向上します。
MTの翻訳誤りを抑制するために
シンプルで簡潔、かつ一貫性のあるソースドキュメントを準備することがMTの翻訳誤りを抑止する最良の方法です。翻訳担当者に最初から翻訳プロセスに参画してもらい、翻訳担当者と共に、次のような作業を進めてソースドキュメントを準備します。
- 文章を簡潔にする – 短くて簡潔な文章は、MTが正確に翻訳しやすくなります。
- 用語を標準化する– 特定の用語や専門用語を一貫して使用すると、翻訳の一貫性が向上します。
- スペルと文法をチェックする – ソース テキストに誤字や脱字等があると、重大な誤訳につながります。
- 文脈を提供する – 文脈や文化的なニュアンスに大きく依存するフレーズには、コメントや脚注などの文脈を提供します。
- 慣用句や俗語を修正する – 慣用句や俗語は、翻訳が難しく、誤解を招く可能性があります。
また、翻訳する言語ペアとテキストの種類を考慮して、翻訳対象物に最適なMTエンジンを選択することも重要です。例えば、SYSTRANは50以上の言語に対応する高品質な自動翻訳を提供する独自のNMT技術を開発しており、金融、IT、法律、医療など業界に特化した翻訳モデルを用意しています。
適切に準備された文書と適切なツールがあれば、高品質のMT出力を実現できます。
MTの翻訳誤りを見つけて修正するためのベストプラクティス
最善の努力を払っても、小さな誤りが入り込む可能性があります。いつものように、翻訳担当者に文書をレビューしてチェックしてもらうことが不可欠です。
MT出力のポストエディットを実施する
MTのポストエディットでは、翻訳担当者がMTで生成されたテキストを確認し、エラーを修正し、ニュアンスを微調整します。MTではうまく処理できない慣用表現、文化的な参照、特定の専門用語などを捉えるには、人間の専門知識が必要です。
スタイルガイドを作成する
翻訳スタイルガイドの作成は、さまざまな翻訳作業で一貫性と品質を維持するために不可欠です。スタイルガイドは、使用する用語、トーン、スタイルを定義し、翻訳者とMTに一貫したフレームワークを提供します。
品質基準の確認にツールを活用する
翻訳用に特別に設計された品質保証ツールがあれば、問題が発生する前に、翻訳誤りが発生しそうな箇所にフラグを立てることができるため、安全対策として利用できます。基本的なスペルミスや文法ミスから、誤訳や否定語の欠落などの複雑な問題まで、あらゆるものをチェックできるようにします。このようなツールを翻訳ワークフローに組み込むことで、翻訳精度が向上し、ポストエディット段階での時間が節約され、プロセス全体がより効率的かつ信頼性の高いものになります。
まとめ
MTの出力には、企業の評判に影響を与え、恥ずかしい思いをする可能性のあるさまざまな種類の翻訳誤りがあり得ます。翻訳作業を期待通り進めるるための鍵は、質の高いソースドキュメント、質の高い翻訳ツール、そして翻訳後の編集作業です。最良の結果を得るために、最初から翻訳の専門家が参画し、翻訳ワークフローを体系的に整備することが不可欠です。
多言語での情報提供基盤の構築を
シストラン社は、1968年に世界初の自動翻訳開発企業として米国カリフォルニア州サンディエゴ市で創業されました。1986年に、本社をフランス・パリ市に移転し、2019年には、国内のお客様をサポートするため、日本支社を設立しました。これまでのイノベーションとして、世界初の「オンライン翻訳ポータル」や、ハーバード大学と共同で世界初の「ニューラル翻訳システム」を開発しました。シストランが提供するAI翻訳ソリューションは、米国政府をはじめとする各国政府や国際機関、また、フォード社、アドビシステムズ社、ファイザー社といった世界をリードする大手グローバル企業でも多数採用されています。
デモをご希望の方は、こちらからお問い合わせください。
オンプレミスAI翻訳環境の構築
関連記事のご案内
SYSTRAN活用FAQ集
企画運営:株式会社 情報システムエンジニアリング 協力: シストランジャパン 合同会社