【概要】
トリセツの元となる情報から、AIを使用してトリセツの自動生成に挑むシリーズの最終回。実験でAIは、安全性や目的志向といった原則を守り、高品質な文章を自律的に生成できることをほとんどの項目で確認できたが、ただ一つ、複雑な「表」のレイアウトがどうしても崩れてしまう問題が発生した。さらに衝撃的だったことは、AI自身に評価させると、その「見た目」の欠陥を認識できず、「完璧な出来だ」と報告してきたこと。
この「生成」と「評価」の二重の失敗は、AIの現在の限界と、評価AIの「盲点」を明らかにする。AI活用時代のヒトが担うべき重要な役割とは何か。その答えに迫る。
【補足情報】
▼検証資料について 本記事の検証に使用した生成AIで読み込んだ入力資料や使用したプロンプト、AIが生成したコア情報、評価結果の詳細は、資料編ページに掲載しております。ご自身で実際に試される際にご活用ください。(資料編ページはこちらへ)
▼使用した生成AIについて 検証にはGoogle Geminiを使用しています。Geminiをカスタマイズする「Gem」という機能を利用しており、これは無料版のGeminiからも利用可能です。(Geminiのページはこちらへ)
1.はじめに
「AI生成トリセツの「限界」と「可能性」を見極める」シリーズ最初の記事で、AIに無機質な「製品仕様書」だけを与え、その限界を探りました。続く2回目の記事では、より現実的な業務に近い、「情報のカオス」という課題に挑みました。技術的な 『仕様書』 に加え、『社内トレーニング資料』 や 『会議の音声データを文字起こしした情報』 といった、形式の異なる散在した情報源から、AIはそれらの情報を統合し、「コア情報」のドラフトを生成しました。
しかし、そのドラフトはまだ完璧ではありませんでした。実験では、AIを「生成者」としてだけでなく「評価者」としても活用し、AI自身にその欠落を指摘させました。そして、その的確な指摘に基づき、不足する情報を専門家としての知見を追記することで、トリセツの骨格となる網羅的で高品質な 「AI対応コア情報」 を完成させました。
これでようやく、トリセツの「設計図」が完成しました。今回は、この設計図を元に、AIがどれほど素晴らしい「家(トリセツ)」を完成させてくれるのか、その最終的な実力を検証します。果たして、AIは期待に応え、完璧なトリセツを生成できるのでしょうか。AIとの協業が生み出すコンテンツ制作の未来を探る旅の挑戦が始まります。
【これまでの記事】<AI生成トリセツの「限界」と「可能性」を見極める>
・第1回 仕様書から自動生成するトリセツの限界
・第2回 構造と表現の2段階レビューが示すAI活用方法
・第3回 AIが作った完璧なトリセツ、その最後の「落とし穴」とは(今回)
2.トリセツをコア情報からAIで自動生成する
完成した「コア情報」を元に、AIを使用して最終的な「トリセツ」を生成します。この実験を進めるために、これまで使用してきたカスタム生成AI 「トリセツ自動生成アシスタント」 をアップグレードします。これまでは、指示に従って文章を書くことを主体としていましたが、今回のアップグレードは、作成する成果物の品質基準も示すことにします。目的は、品質基準を理解し自律的に高品質な成果物を目指す「熟練者」 へと進化させることです。
Gem「トリセツ自動生成アシスタント」の更新
これまで使用してきた「トリセツ自動生成アシスタント」を更新します。具体的な更新箇所は、「カスタム指示」と「知識」の2点です。
1. )カスタム指示の更新:AIの役割を「品質保証の専門家」へ
まず、AIの基本的挙動を定義するカスタム指示に、「品質保証の専門家」 という役割を追加し、AIの視座そのものを引き上げます。特に重要な変更点は、AIが従うべき原則を 「事実の正確性」 と 「ルールの遵守」 に分離し定義しました。
■事実の正確性: 文章の「事実」の拠り所は、プロンプトと共にアップロードされた『コア情報』ファイルに準拠すること。
■ルールの遵守: 文章の「スタイル」や「品質」は、『知識』に登録されている各種ガイドラインに従うこと。
これにより、AIは「材料(コア情報)」と「調理法(知識にあるルール)」を明確に区別し、両方を正しく使って最高の料理(トリセツ)を作るようになることを期待します。
2. )知識の更新:AIに「品質基準」を事前に示す
今回の実験で重要と考えるのがこの「知識」の更新です。これまで、自動生成されたものを後からチェックするために使用してきた 「品質チェックリスト」 を、カスタムAIであるGemの「知識」として登録しました。これは、AIに 「良いトリセツとは何か」という基準そのものを示すことになります。AIが、この品質チェックリストを自らの行動規範とすることで、「安全に関する情報は最初に配置しよう」 「各機能の説明には必ず『なぜ』それが必要かを添えよう」といった判断を、自律的に行うことを期待します。
カスタム指示と知識を更新した「トリセツ自動生成アシスタント v2」が、どのような成果物を出力するのか。生成のステップに進みます。
トリセツ生成
コア情報から完璧なトリセツを生成することを目的とした「トリセツ自動生成アシスタント v2」にトリセツ生成の指示を出し、トリセツを生成します。
1.) 入力情報:更新版コア情報
AIにインプットする「事実」の元ネタとして、9月号の記事の考察を受け、さらにAIからの指摘を反映して更新した 『コア情報(v3)』 を使用します。これが、今回の実験でAIが参照することを許される唯一の情報源となります。
- 資料2-1: 「Aromagic X」取扱説明書用 コア情報(v3)
2.) プロンプト:トリセツ生成指示
Gemのカスタム指示にAIの役割やポリシーを全て書き込んだため、実行時のプロンプトは非常にシンプルです。「アップロードしたコア情報を元ネタに、知識にあるルールを全て守って、高品質なトリセツを生成してください」という、明確な指示のみを与えました。
- 資料2-2: トリセツ自動生成プロンプト
3.) 生成結果:AIが生成した取扱説明書
上記のコア情報とプロンプトに基づき、AIが生成した取扱説明書の完成版が以下になります。
生成したトリセツの所感
更新版のカスタムAI「トリセツ自動生成アシスタント v2」が生成したトリセツは、一見、驚くべき品質でした。AIは、カスタム指示と「知識」に登録されたポリシーを理解し、ほとんどの点で完璧な仕上がりに見えました。特に、今回重視した品質チェックリストの以下の項目は、見事にクリアされていました。
■ 安全性の観点では、AIは「安全に関するご注意」を、ユーザーが最初に目にする位置に自律的に配置してくれました。
■ 明瞭性の観点では、コア情報にあった注釈を、自然な説明文として本文に組み込むなど、読者の理解を助けるための配慮が見られました。
■ 目的志向の観点では、各機能がユーザーにとってどのような価値(Why) を持つのかが、魅力的な言葉で表現されていました。
まさに、更新したカスタムAIが進化したことを確認できる結果に見えましたが、たった一つ、どうしてもAIが乗り越えられない壁がありました。それが、「困ったときには(トラブルシューティング)」 のセクションです。トラブルシューティングの元となるコア情報では、マークダウン形式のテーブルで記述されていたにもかかわらず、AIが生成したトリセツでは、その表のレイアウトが崩れ、理解困難な形になってしまいました。この問題を解決するために、「表の構造を維持せよ」 「HTMLのテーブルタグを使え」といった、より具体的な指示をプロンプトに追加し、何度か生成を試みました。しかし、AIが完璧な表を再現することができませんでした。
この、簡単にできそうなことができなかった「失敗」。 なぜ失敗したのでしょうか。ここに、AIの現在の能力の限界と、これからの時代にヒトが担うべき役割を考える上でのヒントがあるのかもしれません。考察の章では、この謎を深堀りしていきます。
3.生成したトリセツをAIで評価する
ほとんどの点で、AIは期待していたトリセツを生成してくれました。しかし、唯一の欠点として残った、トラブルシューティングの「表のレイアウト崩れ」。この問題を、AI自身はどのように認識するのでしょうか。AIがこの「たった一つの欠陥」を的確に指摘してくれることを期待し、完成したトリセツを、評価用のAIを設定して評価させることにしました。
評価の実行
評価には、これまでの検証でも使用してきた「品質チェックリスト」を基準とする評価用プロンプトを使用しました。
- 資料4:トリセツ評価用プロンプト
AIによる評価結果
AIが出力した評価レポートを見て言葉を失いました。 そこに記されていたのは、全ての評価項目で「〇(達成)」 という、完璧にできたという評価でした。
- 資料5: AIによる最終評価レポート(全文)
評価結果への所感
AIが、完璧にできたと評価する。これは深刻な事態です。ヒトが見れば明らかに理解困難な「表の崩れ」という致命的な欠陥を、全く問題ないと判断しました。品質を保証するためのチェック機構が、機能しませんでした。なぜ、このようなことが起こったのか考えます。AIの思考プロセスは、以下のようだったのかもしれません。
AIの思考プロセス(推察):
- 「困ったときには」というセクションは存在するか? → YES
- 「症状」 「原因」 「対処法』という3つの要素は含まれているか? → YES
- それぞれの症状に対して、原因と対処法が意味的に紐付いているか? → YES
- 結論: このセクションは、トラブルシューティングとしての要件を意味的には満たしている。よって「達成」である。
出力された表は、構造的にも崩れてしまっているように見えますが、AIは、その情報が最終的にヒトにとって 「読みにくい・理解困難なレイアウト」で表示されているという、最も重要な事実を見抜けなかった のかもしれません。
この、シンプルに残念な結果。 しかしここにも、AIをツールとして使っていく上で、理解すべき重要なヒントがあるのかもしれません。次の章では、この 「生成の失敗」 と 「評価の失敗」 という2つの謎を考察していきます。
4.考察:なぜAIは「表」に失敗し、その失敗を「評価」で見抜けなかったのか?
今回の実験で、AIをツールとして利用していくためには課題となる2つの「謎」に直面しました。 1つは、なぜAIは単純なはずの「表の再現」に失敗し続けたのか。 そしてもう1つは、なぜAIはその「明らかな欠陥」を、自らの評価で見抜くことができなかったのか。
この2つの謎を解き明かすことは、AIの能力の限界と、これからの時代にヒトが担うべき役割を、明確に示してくれことに繋がると期待します。
4.1 なぜ、表の変換に失敗したのか?
AIが単純な表の再現に失敗した背景には、表形式が持つ「情報構造」と「レイアウト」の二重性と、作成したコア情報に含めていた情報の複雑さが原因だろうと思われます。
1.) 表が内包する「情報構造」と「レイアウト」の二重性
表形式は、論理的な 「情報構造」(列と行の関係性)と、視覚的な 「レイアウト情報」(罫線やセル幅)が融合した、特殊な表現形式です。AIは、前者の「意味」を理解するのは得意ですが、後者の「見た目」を人間が意図した通りに再現することは、まだ発展途上なのだと解釈しました。これは、ウェブサイト制作における、骨格となるHTML(情報構造)と、装飾を担当するCSS(レイアウト)の関係に似ています。
2.) 1セルに複数の情報という複雑さ
さらに、今回のトラブルシューティングの表では、「原因」のセルに複数の情報(例:「プラグが抜けている」 「設置が正しくない」 )が含まれていました。これはヒトにとっては自然な表現ですが、AIにとっては「1つのセルに複数の情報を、どう視覚的に整理して並べるか」という、より高度なレイアウト判断を迫られる、非常に複雑なタスクだったのかもしれません。
これは、Excel等の表計算アプリの「セル結合・分割」にも通じる問題です。ヒトにとっての視覚的な分かりやすさを優先した結果、機械(AI)にとっての構造的な分かりにくさが生まれ、正しく情報を扱えなくなったのかもしれません。
もちろん、1つのセルに1つの情報しかない、より単純な構造の表であれば、AIは正しく再現できた可能性はあります。しかし、実務で日々向き合っているのは、人間の視覚的な分かりやすさを優先した「複雑な表」です。今回の失敗は、この理想と現実のギャップを浮き彫りにしました。
■ ここから得られる教訓
この「生成の失敗」から得られる教訓は、AIに与える「コア情報」は、AIが解釈に迷わない、できるだけシンプルな構造で設計することが重要だということです。
特に、ヒトにとっては自然に見える複雑な表(1セルに複数の情報、Excelでのセル結合など)は、AIの能力の限界を引き起こす可能性があります。AIとの協業を成功させる鍵は、人間が「情報設計者」として、AIが最も得意とするクリーンなデータ構造を、上流工程で準備することにあると言えるでしょう。
4.2 なぜ、評価をすり抜けたのか?
AIが自ら生成した「崩れた表」を「〇(達成)」と評価してしまった事実は、AI評価の重大な 「盲点」 を明らかにしています。
1.) AIは「意味」を評価し、「見た目」の破綻を見逃した
恐らくAIは、ドキュメントを評価する際、「文字のレイアウトや見た目」を直接的に評価しているわけではなく、その根底にある情報の 「意味的な構造」 を評価しているようです。
AIの思考の中では、「症状」 「原因」 「対処法」の意味的な繋がりは保たれていたため、品質基準を満たしていると判断したのだと思われます。その情報が、最終的に人間にとって「読みにくい」という、最も重要なユーザーエクスペリエンス(UX) の観点が、評価から抜け落ちていたのです。
2.) 意図を読み解くには「文脈」が必要
これは、AIが大量の生データ(Raw Data)を処理する際の特性にも似ています。例えば、ウェラブルデバイスで計測lされたランニングデータの場合、AIはデバイスで記録された心拍数やペースといった膨大な数字の羅列を正確に抽出することはできます。しかし、その日のランニングが「良いトレーニングだったのか」を判断するためには、「その人の目標は何か」 「過去のデータと比べてどうか」といった、データ自体には含まれない 「文脈」 をヒトが与える必要があります。
同様に、今回の評価AIも、トラブルシューティングの「情報が存在すること」は確認し、もしかしたら意味的にもきちんと解釈できたのかもしれませんが、それが「ヒトにとって使いやすい形で表現されているか」という文脈を評価できませんでした。
この 「生成の失敗」 と 「評価のすり抜け」 は、AIの限界を示すと同時に、AI時代において、ヒトが担う役割を、明確にしているようです。次の「総括」で、その役割について結論づけたいと思います。
この結果は、AIによる評価が「意味構造」のチェックには有効である一方、人間が感じる「見た目の分かりやすさ(UX)」までは保証できない、という重要な限界を示しています。
では、AIにこの「見た目」の欠陥を認識させることは、そもそも可能なのでしょうか。例えば、「生成されたトリセツのレイアウトが、人間にとって視覚的に分かりやすいか評価せよ」といった、よりUXに踏み込んだ評価軸をプロンプトで与えた場合、AIはどのような反応を示すのか。これは、AIによるUX評価の可能性と限界を探る、次なる興味深い検証テーマと言えそうです。
5.総括:AIとの協業を成功に導く「勘所」と、その先の「未来」
3回にわたり続けてきた検証の旅も、今回で一つの結論にたどり着きました。AIは驚異的な能力を持つ一方で、万能の魔法の杖ではないこと。そして、その限界と特性を深く理解することこそが、AIを最高のパートナーにするための鍵だと考えます。
5.1 今回の結論:AIを使いこなすための「勘所」
今回の実験で明らかになった重要な 「勘所」 は、AIの特性を理解した上での、ヒトとの明確な役割分担です。AIは、作成した「レシピ(コア情報)」の意味を解釈するのは得意ですが、そのレシピが作られた時の 「料理人の意図(表現のニュアンス)」 までは汲み取れませんでした。
だからこそ、AI時代におけるヒトの役割は、AIの生成物を最終的にレビューし、読者にとって最高のユーザーエクスペリエンス(UX)を保証する「編集長」であり「品質責任者」 となることです。AIに得意なこと(構造化や文章生成)を任せ、ヒトはヒトにしかできない最終的な品質保証に集中する。これが、AIとの協業を成功に導く、現在の最も生産的な姿だと言えるでしょう。しかし、ここで一つのジレンマが生まれます。私たちが人間の読者のためを思って作り込む視覚的な分かりやすさ(UX)が、時として『AIという新しい読者』にとっては解釈の妨げになるという事実です。この問題について、最後に少し考えてみたいと思います。
5.2 未来への展望:新たな読者「AI」にどう備えるか
私たちの仕事は、もう一つ、さらに大きな変化に直面しています。それは、トリセツの読者が、もはやヒトだけではないという現実です。これからの製品利用者は、製品について知りたいとき、トリセツを直接開く前に、まず手元の検索エンジンや生成AIに質問を投げかけるでしょう。そのとき、製品利用者が使うAIにとっての「教科書」こそが、私たちが世に送り出すトリセツなのです。
この 「AIという、新しい読者」 は、ヒトとは異なる視点で情報を読み解きます。だからこそ、私たちが作るコンテンツが、AIにとっても誤解なく、構造的に理解しやすいものであることが、これからの情報品質を左右する重要な要素になります。AIが正しく情報を扱えるようにコンテンツを設計していくという、新しい挑戦が始まっているのです。
5.3 残された課題:次なる探求のテーマへ
今回の検証でAI活用の全てが明らかになったわけではありません。この探求の旅路の先に、さらに挑戦的なテーマが広がっていることも事実です。
■ 複雑なBtoB製品やソフトウェアなど、題材がより大規模で専門的になった場合、この手法はどこまで通用するのか?
■ 仕様書と議事録で情報が矛盾するなど、インプット情報に「競合」がある場合、AIはどのように振る舞うのか?
■ AIが指摘した「欠落」を埋めるための、高度な専門知識を人間が持っていない場合、どのように協業すればよいのか?
これらの問いは、AIとの協業が次のステージに進むための、重要な道しるべです。
そして、その探求の第一歩として、次回からは新しいシリーズを開始します。今回、AIと対話をしながら、誤りの修正をほどこして完成させる 「トリセツ」。この完成品を元に、「AIという、新しい読者」 がこの コンテンツを誤解なく解釈し、最終的に人間のユーザーが必要な情報を、必要な時に的確に届けられるようにするには、 どのような情報設計と「配信」技術が必要となるのか。
その具体的な方法論を探ってまいります。次回もぜひお付き合いください。ありがとうございます。
<終わりー執筆時の生成AI活用:AIが作った完璧なトリセツ、その最後の「落とし穴」とは>






