- [2021.8] AI翻訳時に、翻訳メモリ(TM)をファジーマッチさせ、TM活用度を上げられませんか?
-
最新技術Neural Fuzzy Adaptation機能と新アルゴリズムBigTransformerがTM活用度を向上させています。
SYSTRANの最新技術であるNeural Fuzzy Adaptation (NFA) 機能は、2021年7月にリリースした SYSTRAN Pure Neural Server バージョン9.8以降に実装しています。このバージョンでは、AI翻訳のアルゴリズムが刷新され、学習能力がこれまでよりも高いBigTransformerになり、日⇔英エンジンも含め翻訳精度が大幅に向上しています。
NFAとBig Transformerにより、登録したTMがテンプレートのように使われ、ファジーマッチ(部分的にマッチ)した箇所はTMの翻訳を活用し、マッチしていない箇所をTMの文脈を考慮した上で最適にAI翻訳します。登録したTMの内容をダイナミックにAIが拡張して翻訳するので、「TM拡張型AI翻訳」と名付けました。
これまでのバージョンでのTM活用は、100%マッチのみでしたので、TMが翻訳に使用される機会は限定的でした。NFAのファジーマッチにより、既存翻訳の対訳データとなるTMの活用度が向上し、且つ、ファジーマッチした部分をテンプレートのように使用することで首尾一貫して翻訳をするようになります。よって、登録するTMの量を増やすことで、翻訳元となるソースがTMにマッチすることが多くなり、これまでよりも増して、既存の翻訳資産を活かした翻訳結果を出力できるようになります。
バージョン9.8リリースでは、翻訳支援ツール (CAT)との連携を強化し、第一弾としてXTMと連携できます。XTM側でTMのファジーマッチを実行後、入力文と共にTMのファジーマッチ情報をSYSTRANサーバーが受け取ります。NFAによるAI翻訳後、結果をXTM側に返します。通常、CAT側のファジーマッチは、マッチしていない部分を人手で修正する必要がありますが、NFAによるファジーマッチは、マッチしていない部分をAIが翻訳してくれますので、人手による修正作業を削減できます。
TCシンポジウム 2021にXTM社と共同で、ソリューション紹介セッションを行いました。
[TS05] 世界初!TMとMTがAI融合!
~ XTM + シストラン = TM拡張型AI翻訳 ~
日時:8月25日(水) 16:00 ~ 16:40(40分)[聴講無料]
詳細情報:https://jtca-web.com/sessions/2021/3890/
於:TCシンポジウム 2021 on the Web (Zoom形式)
発表者:
シストランジャパン 江上 聡
XTM International Ltd. 目次 由美子 - [2021.7]辞書に登録した用語はAI学習の対象になりますか?
-
辞書に登録した用語は、AI翻訳前またはAI翻訳後に、指定した用語に置き換える機能のため、AI学習の対象とはなりません。
[参考記事:AI翻訳の活用において、用語辞書に登録すればするほど、意図した翻訳になりますか?]登録したい用語をAI学習の対象にしたい場合には、登録したい用語を含む文を対訳データにすることで、AI学習の対象にできます。SYSTRAN Pure Neural Serverは、ディープラーニングによるAI翻訳モデルをベースとしており、AI翻訳モデルを構築するためのAI教師データは対訳データになりますので、意図した翻訳とならない場合には、意図する対訳データを準備し追加学習していくことでAI翻訳モデルを補強して、意図した翻訳を得られるようにしていきます。
わからなければ例文で追加学習するということの繰り返しで、よりよい結果を得ていくという点では、言語学的知識がなくても理解しやすく、より実践的で、より人間に近いものと言えます。
- [2021.5]AI翻訳の活用において、用語辞書に登録すればするほど、意図した翻訳になりますか?
-
不用意に用語辞書に登録すると、AI翻訳が混乱し翻訳結果が意味不明な文になることがあります。登録する用語は厳選する必要があります。
なぜそのようなことが発生するのか、AI翻訳のしくみから紐解いていきます。
AI翻訳は、教師データを用いてニューラルネットワークでAI学習(ディープラーニング)する過程において、本来その言葉が持つ、他の全ての言葉との関係性を構築していきます。ところが、ユーザーが用語を辞書登録することによって、登録用語が意味のないトークンに置き換えられ、言葉同士の関係性を持たないものとなります。つまり、用語辞書に登録した用語は翻訳過程で、UD1、UD2、UD3といった言葉として意味のないトークンに置き換えられるイメージです。例文で具体的に見ていきます。例文:Taro was explaining about how NMT uses dictionary for customization.
AI翻訳結果:太郎は、NMTがどのように辞書を使用してカスタマイズするかについて説明していました。意味が解釈できるように正しく翻訳されていることが確認できます。
この文のうち、以下の言葉を辞書登録します。
UD1:Taro
UD2:NMT
UD3:dictionary
UD4:customizationすると、上記例文は以下のような文となります。
辞書登録後の例文:UD1 was explaining about how UD2 uses UD3 for UD4.
AI翻訳結果:UD1は、UD2がUD4にUD3をどのように使用するかについて説明していました。
(Taroは、NMTがcustomaizationにdictionaryをどのように使用するかについて説明していました。)10語中4語の関係性が失われることになり、AI翻訳が混乱していることが確認できます。辞書登録した箇所は、AI学習した内容を活かせず、残された情報だけで文を作成するため意味不明な文が生成されます。
このようなことにならないように、辞書を適切に使用することが重要です。用語辞書に登録することは、意図した翻訳を得るために重要なことですが、AI翻訳のしくみを考えると、辞書登録する際には、以下の条件を満たす必要があります。
■辞書登録の条件
「その言葉の翻訳結果が自分の望むものでないとき」に限り、
「その言葉の品詞が一つしか存在しない」かつ
「その言葉の意味が一つに固定できるとき」に辞書に登録してください。用語辞書は固定的な解釈のみに使用できる場合に使用し、
登録する言葉は通常、個人名や商品名など固有名詞、または複数の言葉からなる長い名詞句や固有名詞句になります。用語辞書を有効に活用するために、上記の辞書登録の条件を満たすことを確認して使用することで、意図した結果を得ることができます。 - [2021.4]翻訳対象物の分野毎に、専⾨⽤語やTMが異なる場合には、訳し分けはできますか?
-
SYSTRAN Pure Neural Server[以下、SYSTRAN PNSと表記]には、翻訳時に使⽤する辞書やTranslation Memoryを指定できるプロファイル機能があり、翻訳対象に適切なプロファイルを選択して翻訳できます。プロファイルには、Translation Memoryや辞書を指定できます。
SYSTRAN PNSのプロファイルに指定できる主な翻訳リソース
・Translation Memory:過去翻訳を適⽤する場合に設定。
・ユーザー辞書:ソース言語に対するターゲット言語の対訳辞書。
・正規化辞書:
⽇英翻訳であれば、翻訳前処理としての⽇⽇辞書、翻訳後処理としての、英英辞書
英⽇翻訳であれば、翻訳前処理としての英英辞書、翻訳後処理としての、⽇⽇辞書 など翻訳時に、ソース言語からターゲット言語に翻訳する際に対訳となる辞書がユーザー辞書です。一方、翻訳前や翻訳後に、使用されている用語を、意図する同一言語の用語に修正するのが正規化辞書となります。
- [2021.3]日本語と英語で、代名詞の扱いで異なる点は何ですか?
-
以下の2点で、代名詞の扱いが大きく異なります。
- 日本語は代名詞を省略する
- 英語は代名詞を必ず使う実際に例題で見ていきます。
例題:次回エラーを見つけた時に探します。
この例文では、下記の【】内の代名詞が省略されています。
【誰が】次回【誰の・何の】エラーを見つけた時に【誰が】【誰を・何を】探します。
日本語は代名詞を省略する言語なので、【】が誰か、何かの情報は無く、前後の文脈に寄ります。
しかし、英語は必ず代名詞を明示する言語なので、【】に対応する代名詞を入れなければなりません。
なので、下記のような訳文も正しいかもしれません。【I】 will find 【him】 when 【we】 encounter 【his】 error next time.
しかし、マニュアルを読んでいて上記のような英語に出くわすことはなく、
読者に語り掛けるような、2人称を中心とした下記のような訳文が適切でしょう。【You】 will find 【it】 when 【you】 encounter 【the】 error next time.
このように、翻訳する文書タイプ、スタイル、ドメインにより
代名詞の訳を制限することで、より自然な翻訳が可能になります。 - [2021.3] 一貫してyouを主語にした「2人称」で翻訳するための方法はありますか?
-
マニュアルの翻訳業務等では一貫して一つの主語を使い続けたいことがあるかと思いますが、方法としては、正規化辞書によるアプローチと、AI学習データによるアプローチがあります。
まずは、正規化辞書によるアプローチをご紹介します。正規化辞書によるアプローチ
マニュアル関連の業務に限定した形の翻訳では、一人称単数、三人称単数が使われることが希であるとするならば正規化辞書で下記のように処理します。(参考:日本語と英語の代名詞の扱いについて)
■正規化辞書への登録1:
一人称単数→二人称単数
I → you
my → your
me → you■正規化辞書への登録2:
一人称複数は、マニュアルのガイドラインによって、そのままシンプルに登録できないこともあるかと思いますが、使用しないのであれば、以下のように登録します。
we → you
our → your
us → you上記の例の正規化によって生じる限られたAgreementの問題をさらに正規化で細かく合わせて一人称⇒二人称にすることができます。
◆適用例1
I am → you am → you are
I was → you was → you were他は正規化してもagreementの問題なしなのでOKですね。
my parts → your parts
me → you
we are/were → you are/were
our parts → your parts
us → you■正規化辞書への登録3:
三人称単数はit/theにします。
he/she/him/her → it
his/her → the◆適用例2
She says OK.
→
It says OK.I will find him when we encounter his error next time.
→
You will find it when you encounter the error next time.三人称複数they/their/them はそのままで問題なしですね。
このように正規化辞書を使って、一人称単複・三人称単数⇒二人称という特定のマニュアル翻訳ガイドラインの要件を満たすことができます。AI学習データによるアプローチ
もう一つは、上記の正規化辞書をAI学習データに適用して、マニュアルの翻訳ガイドラインの要件に合うようにデータを学習前に上記のように書き換え、それをAIに学ばせる方法があります。
こちらのほうが、どんな状況下でも、より広く忠実に翻訳要件を反映します。
基本的にAIが学べない事象はありません。上記のような要件を上手に教えれば、AIは素直に学び、正しく翻訳します。文をまたいだ正しい代名詞の選択なども、現在の文単位ではなく、パラグラフ単位でAI学習を行えば、よりスマートに正しく翻訳してくれます。かなり使い方を絞った目的別の学習モデルも数多く構築し、成功を収めています。AIは教え方次第です。 - SYSTRANの正規化辞書は、翻訳処理のどの段階で適用できますか?
-
以下の図は、各言語でのリソース適用の流れを示した概念図です。
概念図にある通り、正規化辞書は、原文の前処理と訳文の後処理の段階で適用することができます。その他に、翻訳メモリやユーザー辞書に登録・使用できますので、これらを施して自分に合った翻訳ができます。辞書・翻訳メモリの数や、翻訳プロファイルの設定数には上限はなく、翻訳ワード数も無制限です。
目次