続:MT翻訳を外部文書に使用するときのご注意 (第2回)

今月は、先月に引き続いてMT翻訳を活用するときの、最近気づいた問題点をご説明します。

主なトピック
機械翻訳にかける原稿に問題はないか
長文の問題
変な日本語

機械翻訳にかける原稿に問題はないか

時々、機械翻訳されたデータを渡されて、それをポストエディットしてほしいという依頼を受けます。その際に問題になるのが、1) 翻訳された用語がゆらいでいたりすることや、2) 翻訳元のテキストデータが意味のないところで改行されていることです。

1) 翻訳された用語のゆらぎ

用語の問題については、これまでにもいろいろとお話してきましたので、ここではあまり触れません。もし、原文との対訳用語集(目次にある項目の対訳英語含む)があれば、それを用意してほしいものです。

2)翻訳元のテキストデータの意味のないところでの改行

 翻訳元のデータがPDFであれば、PDFからテキストデータに変換してから翻訳にかけます。ご承知のとおり、PDFからテキストの部分をコピー/ペーストするだけでは、行末が改行されるので、そのままでは使えません。PDFから(改行なしの)テキストデータへの変換は、Word (Microsoft Word 2013以降)で可能です。また、ウェブ上に無料の変換ソフトもありますよね。
 翻訳元のデータが無い場合は、OCRを使って出力されたデータを使うことになりますが、日本語原文が適切にOCRできていなければ、MTにかけても意味がありません。たとえば、次ページに続く場合、物理的に改行されてしまいます。これをそのまま翻訳しても、誤訳になってしまいますので意味がありません。また、表中のセルごとのデータも区切りの無い、連続したものになっていますので、これを翻訳しても意味がありません。せっかく翻訳するわけですので、機械翻訳にかける前に、最低限、上記の翻訳元データの修正を行う必要があります。
 いやいや、そこまで考える必要はありません、ただ参考にするだけですからという方もいらっしゃると思いますが、ポストエディットの時間を使って、適切に理解できないゴミを出力するだけになる可能性が高いのでおすすめできません。

 せっかく機械翻訳にかけるのなら、元原稿は機械翻訳が対応できるようにプレエディットしていただくことをおすすめします。その場合、このコラムでご説明してきたことや、私が現在ISOで進めてきた「ISO 24620-4 Basic principles and methodology for stylistic guidelines (BSG)」の国際規格をご参考にされることをおすすめします。

ISO 24620-4:2023
Basic principles and methodology for stylistic guidelines (BSG)
https://www.iso.org/standard/79087.html

Language resource management — Controlled human communication (CHC) — Part 4: Basic principles and methodology for stylistic guidelines (BSG) 

 この国際規格は、ISOから今年の3月に発行されたばかりです。なお、手前みそになりますが、この規格に対応した英文ライティングの書籍、「英文テクニカルライティング72の鉄則」も参考にしていただけると思います。日英間のまちがえやすい点を詳述しています。この書籍につきましては、以下のサイトをご覧ください:https://amzn.to/3NJxIpQ

長文の問題

 専門書に書かれている文は、概して長文になる傾向があります。これは、意図的に長文にしようとしているのではないようです。自分の考えを思いつくままに書いていったら、結果として長文になったということが多いのではないでしょうか(頭のいい人にありがち?)。しかし、長文は、一般的に、わかりにくくなりますし、翻訳しにくくなります。なぜかというと、長文は、単文ではなく、ほとんどの場合、複文や重文の組み合わせになっているからです。そうなると、文中のそれぞれの単語の係り受けがわかりにくくなります。これは、機械翻訳にとっても同様です。

大手のMT翻訳各社4社のツールを使用して調べてみました。

例文:プローブの取説およびメーカの情報を基に、同じ検査プロセスを適用する製品ファミリー中、最も検査が困難と思われる製品をマスター製品に選定し、次章の「プローブ検査の実施」に備える。(87字)

A: Based on the probe’s instruction manual and manufacturer’s information, among the product families to which the same inspection process is applied, select the product that is considered the most difficult to inspect as the master product, and prepare for the next chapter, “Implementation of probe inspection.”

B: Based on the instruction of the probe and the information of the manufacturer, the product which seems to be the most difficult to inspect among the product family which apply the same inspection process is selected as the master product, and it is prepared for “Implementation of the probe inspection” of the next chapter.

C: Based on the probe instructions and manufacturer’s information, the product that is considered to be the most difficult to inspect among the product families that apply the same inspection process is selected as the master product and prepared for the next chapter, “Conducting Probe Inspection”.

D: Based on the probe instruction manual and manufacturer’s information, the product that is considered to be the most difficult to inspect among the family of products to which the same inspection process is applied is selected as the master product and prepared for “Conducting Probe Inspection” in the next chapter.

 基本的に、長文を四社ともそれなりに翻訳できています。一番おすすめなのは、A社の翻訳です。A社を除けば、あとの三社とも、似たような感じです。個別に見ていきます。

●取説:instruction manual またはinstruction(s) 
「取説」ですので、instruction manualとすべきです。厳密に言えば、instructionとしたB社は減点です。

●主述関係
A社だけが、原文を適切に把握できて、「選定し、備える」と並列で述べています。他社は「備える」の主語が曖昧になっています。翻訳対象の原文が長文なので、主述関係を把握し損ねたのかもしれません。

●目次に出てくる章の名前:
これはどれかが正解というわけではありません。
A: “Implementation of probe inspection.”
B: “Implementation of the probe inspection”
C: “Conducting Probe Inspection”.
D: “Conducting Probe Inspection”

 このように、テキスト中に参照先として章名が出てくることがあります。その場合、機械翻訳や翻訳者が好き勝手に名前をつけたらどうでしょう。そのような混乱が生じないようにするためにも、目次項目も用語集に含めることが必要です。
 A社とB社は、ほぼ同じですが、定冠詞をつけたB社のほうがいいですね。A社とB社は、文頭の文字だけを大文字にしています。一方、C社とD社は、このテキスト部分が目次であることを理解して、キャピタリゼーション(Initial Capitalization)しています。どちらのスタイルに合わせるかは、好みの問題ではありますが、文頭の文字だけを大文字にするDown-style capitalizationのほうが、どちらになっても管理しやすいですね(DITAではこの後者のほうを採用しています)。
 このほか、細かい話ですが、ここにもアメリカ英語とイギリス英語の違いがあらわれています。A社はアメリカ英語であり、C社は、イギリス英語です。A社では、ピリオドは、閉じる側のクォーテーションマーク(Closing quotation mark)の内側に打たれています。しかし、B社では、ピリオドは、閉じる側のクォーテーションマークの外側に打たれています。前者はClosed systemといって、主にアメリカで使われています。後者はLogical systemといって、主にヨーロッパで使われています。

変な日本語


 議会での答弁などを見ていると、聞きなれない日本語表現が出てきます。機械翻訳は、そういった日本語をどれくらい理解しているのでしょうか。用語によっては、やさしい言葉に言い換える必要があります。

●拙速ではありますが
「仕事が早いが(あまりできはよくない)」を意味します。

A: Although it is hasty
B: as hasty as it may be
C: Although it is too fast
D: I’m afraid I’m not very good at this.

A社とB社はだいじょうぶです。C社もいいでしょう。しかし、D社は、意味を理解できていません。

●忸怩たる思い
「自分の至らなさや失敗について、深く恥じ入る気持ち」(朝日新聞デジタル)を意味します。

A: embarrassment
B: a 忸 grudging feeling
C: Regret
D: ashamed deep down in one’s heart または shameful feeling

A社は物足りませんね。B社は、「忸怩」をまったく理解できていません。バグでしょうか? C社は、A社よりももっと言葉足りずですね。D社が最も感覚を表せていると思います。

●忖度云々については、控えるべきことと思われます
これは、読んでそのままです。「忖度」(そんたく)は、一昨年あたりに、はやりましたね。日本は、目上に対しての一大忖度社会です。「云々」は、「ああだこうだ」という意味です。「うんぬん」と読みます。以前、当時の総理大臣がまちがって「でんでん」と読んで、失笑を買ったことがありましたよね。

A: It seems that we should refrain from speculation
B: I think we should refrain from such things as the degree of reproach
C: It seems that we should refrain from speculation.
D: As for the discovery, it seems to be that we should refrain doing so.

A社とC社は、「忖度」の意味をまだよく言い表せていません。B社とD社は、「忖度」をまったく理解できていません。「云々」は、訳出する必要もない言葉ですが、B社が多少、言及しています。機械翻訳を使用するとき、この「忖度」は、「他人の心情を推し量って相手に配慮すること」などと、やさしい言葉に置き換えてあげるべきでしょう。

この結果で、推測できること。A社とC社は、日本語の翻訳に長い歴史があるようです。D社は、一般的に翻訳結果が良いとされる評価の高い会社ですが、日本語の理解がまだ足りないところがあるようですね。

余談ですが、A社とC社とD社の三社の翻訳データは、純粋なテキストデータです。ただ一社、B社の翻訳データは、文字スタイル情報も含まれたデータ(HTML形式?)です。翻訳の出力結果ですので、単なるテキストデータのほうが扱いやすいと思いますが、いかがでしょうか。B社には、以前、出力結果はテキストデータにしてくださいとお願いしたのですが、現在もそのままです。文字スタイル情報も含まれたデータのほうが、取引先から喜ばれるのでしょうね。

新着記事のご案内

これまでに掲載した記事からピックアップ

企画運営:株式会社 情報システムエンジニアリング  協力: 株式会社 エレクトロスイスジャパン

お問い合わせ

お気軽にお問い合わせください。
※株式会社情報システムエンジニアリングよりご案内させていただきます。

*)セールスに関してご返信はいたしませんので、あらかじめご了承ください。

個人情報の取り扱いについて

  • URLをコピーしました!
目次