MENU

オンプレミスで活用するAI翻訳 SYSTRAN Pure Neural Server

オンプレミスで活用するAI翻訳
SYSTRAN Pure Neural Server

シストランジャパン 合同会社
日本代表 江上 聡

オンプレミス環境で活用するAI翻訳
SYSTRAN Pure Neural Server

[2021.10]海外拠点や海外のお客様とのやりとりにもAI翻訳を活用しませんか?

 海外拠点や海外のお客様とのやりとりをする時にAI翻訳が活用できると、相手のご要望などを自分が理解しやすい言語に翻訳して解釈できるので、相手を待たせる時間を短縮し、よりスムーズなコミュニケーションを実現します。


 業務で取扱う情報は、社内の公開前情報や顧客企業の社内情報など、機密性の高い情報ばかりです。社外のシステムなどセキュリティレベルが確認ができていないサービスを利用することは、情報が漏洩する可能性を否定できず利用は控えた方が良さそうです。そこで、機密性の高い情報にも安心して使えるAI翻訳基盤を構築することで、これらを解決します。
 コミュニケーションインフラとしてのAI翻訳基盤は、ドキュメントなどの翻訳とは違った要件があり、同じインフラをそのまま使用することが難しい点もあります。例えば、翻訳量に基づいてコストが発生するような環境では、日常のやりとりを全て翻訳してみるといった使い方は躊躇することも多いかと思います。何度も翻訳をかけても、翻訳量に依存しないAI翻訳基盤があれば、コストを気にする必要もなくなります。


 AI翻訳ツールを、コストを気にせずコミュニケーションツールとして活用し、必要な時に、必要な分だけ、何度も翻訳してみることで、円滑なコミュニケーションを実現します。機密性が高い情報を安心して翻訳できるセキュアなAI翻訳基盤の構築を検討してみるのはいかがでしょうか?
 TCシンポジウム10月のセッションでは、多言語コミュニケーションを支援するAI翻訳基盤の構築について考えます。ぜひ、本セッションにご参加ください。

【ご案内】TCシンポジウム2021 on the Web 10月で発表します。

10月は、AI翻訳をコミュニケーション基盤に活用することにフォーカスします。
[KS04N] 企業の多言語コミュニケーションを支援するAI翻訳基盤の構築
~SYSTRAN Pure Neural Serverを企業のICT基盤として活用する~

日時:10月6日(水) 14:45 ~ 15:25(40分)[聴講無料]
詳細情報:
https://jtca-web.com/sessions/2021/4648/
於:TCシンポジウム 2021 on the Web (Zoom形式)
発表者:
シストランジャパン 江上 聡
情報システムエンジニアリング 若林 夏樹

[2021.9]TCシンポジウムの SYSTRANxISE セッションのQ&Aフォローアップ

2021年8月27日に開催しましたTCシンポジウムでのSYSTRANxISEセッションでのQ&Aコーナーのご質問をフォローアップします。その他、ご質問がありましたらいつでもお問合せください。

  1. AI学習に必要な、準備するデータは何ですか?
    日英翻訳であれば、日英の対訳データがあれば、AI学習ができます。SYSTRANにそのまま取り込むためのデータ形式は、tmx,xls等ありますが、テキストファイルなど、形式が異なってもデータ変換すれば対応できます。
  2. 多言語展開する場合、言語方向毎に学習させるメリットはありますか?
    言語方向毎にモデル学習させると意図する翻訳結果を得やすくなります。自社固有の表現や専門用語を各言語においても指定したい場合や、米国/英国英語のような同じ言語間での違いがある場合に効果を発揮します。
  3. モデルカタログからAI翻訳モデルを選択し、追加学習させる方法を教えてください。
    AI学習時、ベースとするモデルに、モデルカタログに掲載されているAI翻訳モデルを選択して、自社データを使用して追加学習できます。自社の目的に沿う専用エンジンがモデルカタログに見つかれば、自社固有の分だけの追加学習で自社専用のAI翻訳モデルの構築ができます。追加学習は、SYSTRANの汎用モデルをベースに自社データでAI学習させるのと同じ要領でできます。
  4. AI翻訳モデルの更新はどのくらいの頻度で行う必要がありますか?
    翻訳対象物の記述内容の更新頻度を応じてAI翻訳モデルを更新できると、意図した翻訳結果を得やすくなります。1年ごとに記述内容が更新されるのであるならば、AI翻訳モデルも1年ごとに更新すればよいでしょうし、情報更新が半年に1回なのか、不定期なのか?によって更新頻度を変えるという方法もあります。また、翻訳結果を見ながら、修正する度合いが増えてきたタイミングで、AI翻訳モデルの更新をかけていくという方法もできます。
  5. AI学習無しで翻訳を専門化してくれるような技術はありますか?
    既存の対訳データ資産があれば、SYSTRANのファジーマッチ技術を適用することで、AI学習なしでも自社意図した専門化した翻訳結果を得ることができます。登録した対訳データがテンプレートのように使われ、ファジーマッチ(部分的にマッチ)した箇所は対訳データの翻訳を活用し、マッチしていない箇所を対訳データの文脈を考慮した上で最適にAI翻訳します。

【終了】TCシンポジウム 2021 8月

[TS12] 自社に特化したAI翻訳活用でタイムリーな情報提供を実現
~特定分野に集中させたAI翻訳モデルの継続的な追加学習で、ポストエディットレスでの情報提供~

⽇時:8⽉27⽇(⽔) 11:15 〜 11:55(40分)[聴講無料]
詳細情報:https://jtca-web.com/sessions/2021/3897/
     発表資料は、こちらからダウンロードできます。
於 :TCシンポジウム 2021 on the Web (Zoom形式)
発表者:
シストランジャパン 江上 聡
情報システムエンジニアリング 若林 夏樹

AI翻訳活用コラムバックナンバー

SYSTRAN 活用のTips集

ご案内

AI翻訳活用コラム

AI翻訳対処法シリーズ:(イ)を翻訳したら 2)、a)、B)、i) と結果がバラバラに!?
[2021.7]間違った翻訳を見つけた時の対処法1 学習データを修正する

ディープラーニングによるAI翻訳は、それまでの機械翻訳とは異なり、とても流暢に翻訳できるようになりました。
日常のツールとして益々使っていただきたいと考えています。でも、ときどき間違った翻訳に出会うことがあります。
このコラムでは、その原因と対処法を探っていきます。

AI翻訳は本当に素直に経験から自分の振る舞い(=翻訳結果)を学びます。それはまるで子供のようです。良い経験をすれば、良い子になりますし、悪い経験をすれば、悪い子になります。ですので、間違ったことをしたら、または言うことを聞かないようであれば正しいことを教えてあげたくなります。
AI翻訳も同じです。翻訳結果が間違っていれば、経験した翻訳データに原因があります。AI翻訳に間違った翻訳を見つけた時の対処法をわかりやすい例を使ってAI翻訳の挙動を探ります。

問題:バラバラな翻訳
例えば、下記のような翻訳結果があるとします。箇条書き部分の「イ」の翻訳がバラバラですね。なぜでしょう?

AI翻訳結果の例

原因は?
この箇条書きのカタカナは、要件やスタイルの違いで様々に訳されます。例えば、法律関係の文書で多いイロハの場合では、下記のようになります。

イロハの場合

アイウエオの場合は、「イ」はイロハの場合の1番目ではなく、2番目の行を指します。

アイウエオの場合

箇条書きのカタカナは簡単な例として挙げましたが、一言に学習データと言っても、作られた時期や要件の違いで、用語から製品名までバラバラな翻訳が混在するケースがよくあります。そのような翻訳をAIが「素直に」学ぶので、結果、バラバラな翻訳をするようになります。それが文頭の翻訳結果になった原因です。

対処法:学習データの修正とAIの再学習
では、これを直すのにはどうしたらよいでしょうか?
文頭で述べたように、悪い学習データを良い学習データに修正してAIに教えてください。例えば、翻訳結果をイロハの場合の英小文字にしたい場合は、学習データの(イ)、(ロ)、(ハ)を見つけて、ターゲット統一してください。

修正前学習データ

修正前学習データ

修正後学習データ

修正後学習データ

AI翻訳モデルの再学習
あとは、修正後の学習データファイルを、AI翻訳モデルの構築ツールであるSYSTRAN Model Studioにアップロードして、再学習をするだけです。

AIが修正後のデータだけではなく、他のイロハの箇条書き部分も直してくれて、首尾一貫した翻訳をしてくれます。

用語にせよ、スタイルにせよ、要件に合わない翻訳を直す方法は、学習データを修正してAIの再学習をするのがベスト。学習データに関連した文がない場合は、30~50文くらいの例文を自ら作成して追加してもらっても構いません。学習データをコントロールし、SYSTRAN Model StudioでAI再学習サイクルを何回も繰り返すことで、翻訳結果をコントロールすることができます。

[2021.6]お客様の翻訳をAIが学ぶって本当?

 AI全盛の現在、世界にはいろんなAI翻訳サービスが溢れています。汎用的な翻訳をするものや、専門的な翻訳をすると謳うものまで様々。しかし、お客様自身のデータを集中的に学んだ翻訳エンジン(翻訳モデル)の品質には、既存のどの翻訳エンジンも敵いません。お客様のデータに特化した翻訳結果を導き出すようにAIが学びます。
 特化した学習を可能にするのがSYSTRAN Model Studio Liteです。今回は、AIがどんなステップで学習し、翻訳していくのかの流れを見てください。今後、具体事例を交えながらその活用方法をご案内していきます。

STEP1.AI学習パネルを開く
Model Studio Liteにアクセスし、
① [Models] をクリック
②[+ Train a new model] ボタンをクリック

Model Studio Lite 起動後画面

STEP2.AI学習を開始する
①翻訳モデルに名前を付ける
②専門分野を指定する
③言語ペアを選択する
④どのベース翻訳モデルに学習させるか選択する
⑤タグを付ける(任意)
⑥アップロードする対訳データに名前を付ける
⑦学習用対訳データファイルを選択する(タブ仕切りテキストまたはTMXファイル形式)
⑧評価用対訳データファイルを選択する(タブ仕切りテキストまたはTMXファイル形式)
⑨AI学習を開始する

AI学習に必要な項目の入力

STEP3.AI学習の終了を確認する
①[Status] が学習中 [Training] から学習済み [Trained] になっているのを確認する
②[Average Score] で学習後の翻訳品質スコアが改善しているか確認する(↗は上昇、↘は下降、カッコ内は差分)

AI学習の終了を確認

これでAI学習が完了です。

実際に翻訳をするときの手順
①SYSTRAN Pure Neural Serverにアクセスする
②学習後のモデルを選択して翻訳する
③ターゲットボックスの各翻訳文をクリックして、右下の学習前のモデル(Systran Generic)の翻訳文と比較もできる

翻訳準備

④学習前と学習後の翻訳結果をお客様の翻訳と比較して評価する

翻訳結果の確認

SYSTRAN活用のTips集

[2021.8] AI翻訳時に、翻訳メモリ(TM)をファジーマッチさせ、TM活用度を上げられませんか?

最新技術Neural Fuzzy Adaptation機能と新アルゴリズムBigTransformerがTM活用度を向上させています。

SYSTRANの最新技術であるNeural Fuzzy Adaptation (NFA) 機能は、2021年7月にリリースした SYSTRAN Pure Neural Server バージョン9.8以降に実装しています。このバージョンでは、AI翻訳のアルゴリズムが刷新され、学習能力がこれまでよりも高いBigTransformerになり、日⇔英エンジンも含め翻訳精度が大幅に向上しています。

NFABig Transformerにより、登録したTMがテンプレートのように使われ、ファジーマッチ(部分的にマッチ)した箇所はTMの翻訳を活用し、マッチしていない箇所をTMの文脈を考慮した上で最適にAI翻訳します。登録したTMの内容をダイナミックにAIが拡張して翻訳するので、「TM拡張型AI翻訳」と名付けました。

これまでのバージョンでのTM活用は、100%マッチのみでしたので、TMが翻訳に使用される機会は限定的でした。NFAのファジーマッチにより、既存翻訳の対訳データとなるTMの活用度が向上し、且つ、ファジーマッチした部分をテンプレートのように使用することで首尾一貫して翻訳をするようになります。よって、登録するTMの量を増やすことで、翻訳元となるソースがTMにマッチすることが多くなり、これまでよりも増して、既存の翻訳資産を活かした翻訳結果を出力できるようになります。

バージョン9.8リリースでは、翻訳支援ツール (CAT)との連携を強化し、第一弾としてXTMと連携できます。XTM側でTMのファジーマッチを実行後、入力文と共にTMのファジーマッチ情報をSYSTRANサーバーが受け取ります。NFAによるAI翻訳後、結果をXTM側に返します。通常、CAT側のファジーマッチは、マッチしていない部分を人手で修正する必要がありますが、NFAによるファジーマッチは、マッチしていない部分をAIが翻訳してくれますので、人手による修正作業を削減できます。

TCシンポジウム 2021にXTM社と共同で、ソリューション紹介セッションを行いました。

[TS05] 世界初!TMとMTがAI融合!
~ XTM + シストラン = TM拡張型AI翻訳 ~


日時:8月25日(水) 16:00 ~ 16:40(40分)[聴講無料]
詳細情報:https://jtca-web.com/sessions/2021/3890/
於:TCシンポジウム 2021 on the Web (Zoom形式)
発表者:
シストランジャパン 江上 聡
XTM International Ltd. 目次 由美子

[2021.7]辞書に登録した用語はAI学習の対象になりますか?

辞書に登録した用語は、AI翻訳前またはAI翻訳後に、指定した用語に置き換える機能のため、AI学習の対象とはなりません。
[参考記事:AI翻訳の活用において、用語辞書に登録すればするほど、意図した翻訳になりますか?]

登録したい用語をAI学習の対象にしたい場合には、登録したい用語を含む文を対訳データにすることで、AI学習の対象にできます。SYSTRAN Pure Neural Serverは、ディープラーニングによるAI翻訳モデルをベースとしており、AI翻訳モデルを構築するためのAI教師データは対訳データになりますので、意図した翻訳とならない場合には、意図する対訳データを準備し追加学習していくことでAI翻訳モデルを補強して、意図した翻訳を得られるようにしていきます。

わからなければ例文で追加学習するということの繰り返しで、よりよい結果を得ていくという点では、言語学的知識がなくても理解しやすく、より実践的で、より人間に近いものと言えます。

[2021.5]AI翻訳の活用において、用語辞書に登録すればするほど、意図した翻訳になりますか?

不用意に用語辞書に登録すると、AI翻訳が混乱し翻訳結果が意味不明な文になることがあります。登録する用語は厳選する必要があります。

なぜそのようなことが発生するのか、AI翻訳のしくみから紐解いていきます。
AI翻訳は、教師データを用いてニューラルネットワークでAI学習(ディープラーニング)する過程において、本来その言葉が持つ、他の全ての言葉との関係性を構築していきます。ところが、ユーザーが用語を辞書登録することによって、登録用語が意味のないトークンに置き換えられ、言葉同士の関係性を持たないものとなります。つまり、用語辞書に登録した用語は翻訳過程で、UD1、UD2、UD3といった言葉として意味のないトークンに置き換えられるイメージです。例文で具体的に見ていきます。

例文Taro was explaining about how NMT uses dictionary for customization.
AI翻訳結果:太郎は、NMTがどのように辞書を使用してカスタマイズするかについて説明していました。

意味が解釈できるように正しく翻訳されていることが確認できます。
この文のうち、以下の言葉を辞書登録します。
UD1:Taro
UD2:NMT
UD3:dictionary
UD4:customization

すると、上記例文は以下のような文となります。

辞書登録後の例文UD1 was explaining about how UD2 uses UD3 for UD4.
AI翻訳結果UD1は、UD2UD4UD3をどのように使用するかについて説明していました。
(Taroは、NMTcustomaizationdictionaryをどのように使用するかについて説明していました。)

10語中4語の関係性が失われることになり、AI翻訳が混乱していることが確認できます。辞書登録した箇所は、AI学習した内容を活かせず、残された情報だけで文を作成するため意味不明な文が生成されます。

このようなことにならないように、辞書を適切に使用することが重要です。用語辞書に登録することは、意図した翻訳を得るために重要なことですが、AI翻訳のしくみを考えると、辞書登録する際には、以下の条件を満たす必要があります。

■辞書登録の条件
その言葉の翻訳結果が自分の望むものでないとき」に限り、
その言葉の品詞が一つしか存在しない」かつ
その言葉の意味が一つに固定できるとき」に辞書に登録してください。

用語辞書は固定的な解釈のみに使用できる場合に使用し、
登録する言葉は通常、個人名や商品名など固有名詞、または複数の言葉からなる長い名詞句や固有名詞句になります。用語辞書を有効に活用するために、上記の辞書登録の条件を満たすことを確認して使用することで、意図した結果を得ることができます。

[2021.4]翻訳対象物の分野毎に、専⾨⽤語やTMが異なる場合には、訳し分けはできますか?

SYSTRAN Pure Neural Server[以下、SYSTRAN PNSと表記]には、翻訳時に使⽤する辞書やTranslation Memoryを指定できるプロファイル機能があり、翻訳対象に適切なプロファイルを選択して翻訳できます。プロファイルには、Translation Memoryや辞書を指定できます。

SYSTRAN PNSのプロファイルに指定できる主な翻訳リソース
Translation Memory:過去翻訳を適⽤する場合に設定。
ユーザー辞書:ソース言語に対するターゲット言語の対訳辞書。
正規化辞書
   ⽇英翻訳であれば、翻訳前処理としての⽇⽇辞書、翻訳後処理としての、英英辞書
   英⽇翻訳であれば、翻訳前処理としての英英辞書、翻訳後処理としての、⽇⽇辞書 など

翻訳時に、ソース言語からターゲット言語に翻訳する際に対訳となる辞書がユーザー辞書です。一方、翻訳前や翻訳後に、使用されている用語を、意図する同一言語の用語に修正するのが正規化辞書となります。

[2021.3]日本語と英語で、代名詞の扱いで異なる点は何ですか?

以下の2点で、代名詞の扱いが大きく異なります。
 - 日本語は代名詞を省略する
 - 英語は代名詞を必ず使う

実際に例題で見ていきます。

例題:次回エラーを見つけた時に探します。

この例文では、下記の【】内の代名詞が省略されています。

【誰が】次回【誰の・何の】エラーを見つけた時に【誰が】【誰を・何を】探します。

日本語は代名詞を省略する言語なので、【】が誰か、何かの情報は無く、前後の文脈に寄ります。
しかし、英語は必ず代名詞を明示する言語なので、【】に対応する代名詞を入れなければなりません。
なので、下記のような訳文も正しいかもしれません。

【I】 will find 【him】 when 【we】 encounter 【his】 error next time.

しかし、マニュアルを読んでいて上記のような英語に出くわすことはなく、
読者に語り掛けるような、2人称を中心とした下記のような訳文が適切でしょう。

【You】 will find 【it】 when 【you】 encounter 【the】 error next time.

このように、翻訳する文書タイプ、スタイル、ドメインにより
代名詞の訳を制限することで、より自然な翻訳が可能になります。

[2021.3] 一貫してyouを主語にした「2人称」で翻訳するための方法はありますか?

マニュアルの翻訳業務等では一貫して一つの主語を使い続けたいことがあるかと思いますが、方法としては、正規化辞書によるアプローチと、AI学習データによるアプローチがあります。
まずは、正規化辞書によるアプローチをご紹介します。

正規化辞書によるアプローチ

 マニュアル関連の業務に限定した形の翻訳では、一人称単数、三人称単数が使われることが希であるとするならば正規化辞書で下記のように処理します。(参考:日本語と英語の代名詞の扱いについて)

■正規化辞書への登録1
一人称単数→二人称単数
I → you
my → your
me → you

■正規化辞書への登録2:
一人称複数は、マニュアルのガイドラインによって、そのままシンプルに登録できないこともあるかと思いますが、使用しないのであれば、以下のように登録します。
we → you
our → your
us → you

上記の例の正規化によって生じる限られたAgreementの問題をさらに正規化で細かく合わせて一人称⇒二人称にすることができます。

◆適用例1
I am → you am → you are

I was → you was → you were

他は正規化してもagreementの問題なしなのでOKですね。
my parts → your parts
me → you
we are/were → you are/were
our parts → your parts
us → you

■正規化辞書への登録3:
三人称単数はit/theにします。
he/she/him/her → it
his/her → the

◆適用例2
She says OK.

It says OK.

I will find him when we encounter his error next time.

You will find it when you encounter the error next time.

三人称複数they/their/them はそのままで問題なしですね。
このように正規化辞書を使って、一人称単複・三人称単数⇒二人称という特定のマニュアル翻訳ガイドラインの要件を満たすことができます。

AI学習データによるアプローチ

もう一つは、上記の正規化辞書をAI学習データに適用して、マニュアルの翻訳ガイドラインの要件に合うようにデータを学習前に上記のように書き換え、それをAIに学ばせる方法があります。

こちらのほうが、どんな状況下でも、より広く忠実に翻訳要件を反映します。
基本的にAIが学べない事象はありません。上記のような要件を上手に教えれば、AIは素直に学び、正しく翻訳します。文をまたいだ正しい代名詞の選択なども、現在の文単位ではなく、パラグラフ単位でAI学習を行えば、よりスマートに正しく翻訳してくれます。かなり使い方を絞った目的別の学習モデルも数多く構築し、成功を収めています。AIは教え方次第です。

SYSTRANの正規化辞書は、翻訳処理のどの段階で適用できますか?

以下の図は、各言語でのリソース適用の流れを示した概念図です。
概念図にある通り、正規化辞書は、原文の前処理と訳文の後処理の段階で適用することができます。その他に、翻訳メモリやユーザー辞書に登録・使用できますので、これらを施して自分に合った翻訳ができます。辞書・翻訳メモリの数や、翻訳プロファイルの設定数には上限はなく、翻訳ワード数も無制限です。

SYSTRAN Pure Neural Server内の正規化辞書、翻訳メモリ、辞書適用の流れ

世界的なAI翻訳のパイオニア、SYSTRANが
日本のお客様に迅速なサービスを提供いたします

 SYSTRAN は、1968 年設立の機械翻訳(MT) エンジンを提供するグローバルベンダーで、設立以来、常にMT をリードしてきたテクノロジーカンパニーです。欧米諸国における政府系や防衛系など機密性の高い領域において多く
の実績があり、日本国内においても多数の導入実績があります。
 この度SYSTRAN は、日本のお客様の翻訳業務におけるSYSTRAN 製品の導入を円滑に進められるよう、2020年3月に日本に支社を設立しました。製造業におけるガイド・マニュアル制作の翻訳業務効率化に寄与するべく、これまで以上にお客様のご要望にお答えできるようサービスを提供してまいります。

経験に基づく『導入・運用の支援』

私、江上自身としては、これまで、米国を中心に、大規模かつ特にセキュリティを確保する必要のあるお客様への導入・運用支援を行なってきております。エンジニアとして、かつプロフェッショナルサービス等のコンサルタントとして、お客様の導入支援の経験は、日本のお客様での導入・運用時の課題解決にお役立ちできるものと確信しております。

シストランジャパン 合同会社
江上 聡

企画運営:株式会社 情報システムエンジニアリング  協力: シストランジャパン 合同会社

関連情報

お問合せ・資料ダウンロードdownload

以下のフォームにご入力いただいたメールアドレスへ、
TCシンポジウム記録集に掲載した記事ページ
自社の意図を学び続けるAI 翻訳を活用し、
製造業のガイド・マニュアル制作の翻訳業務効率化を実現
資料のPDFをお送りします。

※資料の送付は、株式会社情報システムエンジニアリングよりご案内させていただきます。

個人情報の取り扱いについて

Copyright © 2021 Information System Engineering Inc. All rights reserved.