ディープラーニングによるAI翻訳は、それまでの機械翻訳とは異なり、とても流暢に翻訳できるようになりました。
日常のツールとして益々使っていただきたいと考えています。でも、ときどき間違った翻訳に出会うことがあります。
このコラムでは、その原因と対処法を探っていきます。
AI翻訳は本当に素直に経験から自分の振る舞い(=翻訳結果)を学びます。それはまるで子供のようです。良い経験をすれば、良い子になりますし、悪い経験をすれば、悪い子になります。ですので、間違ったことをしたら、または言うことを聞かないようであれば正しいことを教えてあげたくなります。
AI翻訳も同じです。翻訳結果が間違っていれば、経験した翻訳データに原因があります。AI翻訳に間違った翻訳を見つけた時の対処法をわかりやすい例を使ってAI翻訳の挙動を探ります。
問題:バラバラな翻訳
例えば、下記のような翻訳結果があるとします。箇条書き部分の「イ」の翻訳がバラバラですね。なぜでしょう?

原因は?
この箇条書きのカタカナは、要件やスタイルの違いで様々に訳されます。例えば、法律関係の文書で多いイロハの場合では、下記のようになります。

アイウエオの場合は、「イ」はイロハの場合の1番目ではなく、2番目の行を指します。

箇条書きのカタカナは簡単な例として挙げましたが、一言に学習データと言っても、作られた時期や要件の違いで、用語から製品名までバラバラな翻訳が混在するケースがよくあります。そのような翻訳をAIが「素直に」学ぶので、結果、バラバラな翻訳をするようになります。それが文頭の翻訳結果になった原因です。
対処法:学習データの修正とAIの再学習
では、これを直すのにはどうしたらよいでしょうか?
文頭で述べたように、悪い学習データを良い学習データに修正してAIに教えてください。例えば、翻訳結果をイロハの場合の英小文字にしたい場合は、学習データの(イ)、(ロ)、(ハ)を見つけて、ターゲット統一してください。
修正前学習データ

修正後学習データ

AI翻訳モデルの再学習
あとは、修正後の学習データファイルを、AI翻訳モデルの構築ツールであるSYSTRAN Model Studioにアップロードして、再学習をするだけです。

AIが修正後のデータだけではなく、他のイロハの箇条書き部分も直してくれて、首尾一貫した翻訳をしてくれます。

用語にせよ、スタイルにせよ、要件に合わない翻訳を直す方法は、学習データを修正してAIの再学習をするのがベスト。学習データに関連した文がない場合は、30~50文くらいの例文を自ら作成して追加してもらっても構いません。学習データをコントロールし、SYSTRAN Model StudioでAI再学習サイクルを何回も繰り返すことで、翻訳結果をコントロールすることができます。