AIのハルシネーションとは

AIのハルシネーションは、ChatGPTをはじめとする生成AIが、「実際には存在しない、事実に基づかない情報を生成する現象」を指します。
この用語は英語で「幻覚」を意味する「Hallucination」から来ており、AIがもっともらしい嘘を出力することで、まるで幻覚を見ているかのような状態を表現しています。

これは、特に文章や画像生成において顕著で、生成されたデータが実際のものと異なることにより、正確さや意味のある情報提供を阻害するといった問題点があります。

人間が幻覚を見るように、AIも「幻覚」を見ているかのような結果を出力するため、この名称が用いられています。

ハルシネーションイメージ

ハルシネーションの例

ここではAI利用時においてハルシネーションが起こる状況と、その具体例を紹介していきます。

文書生成におけるハルシネーション

文書生成時におけるAIのハルシネーションは、AIが訓練データや事実に基づかない、誤った情報や架空の事実をテキストとして生成する現象を指します。
この問題は、自然言語処理(NLP)技術を基にした言語モデルや、チャットボットなどにおいて見られます。

たとえば、AIが過去のデータに基づいて訓練された場合、そのデータに含まれない新しい情報や現実に即していない情報を生成する可能性があります。

また、モデルがある特定のトピックに関して十分な情報を持たない場合、関連性が低い、あるいは全く無関係な情報を組み合わせてしまうこともあります。

ChatGPTにおけるハルシネーションの例

以下は、ChatGPTで文書生成時にハルシネーションが起こった例です。

お気に入りのハルシネーション、置いておきますね #ChatGPT pic.twitter.com/z2g9WgNoAi
— Yuto Takei (@yutopio_ja) April 3, 2023

有名なフリマアプリ「メルカリ」の名前を付けて「メルカリ一揆」としてChatGPTに聞いたところ、そのような一揆が室町時代にあたかもあったかのように返答しているのが分かります。

画像・動画生成におけるハルシネーション

画像や動画生成におけるAIのハルシネーションは、AIが実際には存在しない、または入力データに基づかない画像や動画を生成する現象を指します。
この種のハルシネーションは、特にGAN(敵対的生成ネットワーク)やその他の深層学習モデルを使用した芸術作品やリアルな画像の生成において顕著です。

動画生成AIの代表例としては、OpenAIが提供している「Sora」があります。
これは、簡単な文章から動画を創り出してくれるAIです。

**動画生成AIにおけるハルシネーションの例

AIによる動画生成におけるハルシネーションの例として、まずはこちらのXの動画をご覧ください。

This Sora breaks my brain.

What even is reality anymore tbh

Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care. pic.twitter.com/CuvvF2ro7I
— Harrison Kinsley (@Sentdex) February 15, 2024

これは、Soraに「考古学者は砂漠で一般的なプラスチックの椅子を発見し、細心の注意を払って発掘し、埃を払いました」という指示を与えて動画を作成させたものです。

一見リアルな映像に見えるかもしれません。しかし、よく見てみると椅子が浮いていたり勝手に動いていたりと、現実ではありえない事が起こっています。

ハルシネーションが発生する原因

それでは、なぜAIがハルシネーションを起こすのか、その原因について解説します。

学習データの限界

学習データの限界は、AIハルシネーションの一般的な原因です。
データセットが不足している場合、AIは現実世界の広がりや複雑さを適切に表現できず、存在しないパターンや関連性を推測してしまうことがあります。

また、データセットに偏りがあると、特定の属性や事例に重点を置いた不均衡な学習が行われ、結果として偏った出力が生成される可能性があります。

たとえば、品質が低いデータ（ノイズが多い、誤ったラベリングがされているなど）を使用すると、AIは誤った情報を学習し、それに基づいて不正確な出力を行うリスクが高まります。

このような学習データの問題は、AIの性能に直接影響を与え、現実とは異なるハルシネーションを引き起こす原因となります。

AIモデルの問題

AIモデル自体の問題も、ハルシネーションを引き起こす原因です。
AIモデルは、学習データからパターンを見つけ出し、そのパターンに基づいて新しい情報を生成することができます。

しかし、モデルが過剰に一般化してしまうと、データには存在しない特徴や関連性まで生成してしまうことがあります。これは、モデルが複雑すぎたり、正則化(過学習の防止)が不十分な場合に起こりやすくなります。

例えば、猫の写真データで学習したモデルが、犬の写真を生成してしまうようなケースが考えられます。
これは、モデルが猫と犬の共通点である「四足動物」という特徴を過剰に一般化し、犬の特徴まで生成してしまった可能性があります。

また、特定のタスクやデータセットに対してモデルが適切に最適化されていない場合や、問題に対して不適切なアーキテクチャを使用している場合にも、現実と乖離した結果が生まれることがあります。

ハルシネーションによる社会的な影響

AIが事実に基づかない情報を生み出すことで、意図せずとも誤情報やフェイクニュースを拡散してしまう危険性が存在し、これがメディアや情報源全体の信頼性低下に繋がる可能性があります。

さらに、このようなハルシネーションはプライバシーの侵害や名誉の毀損、著作権違反といった法的リスクも内在しています。

一方で、ハルシネーションは従来の人間の発想を超えた新しい物語やビジュアルを生み出す可能性を秘めており、人間の創造性を刺激する契機ともなり得ます。

つまり、ハルシネーションには注意深く対処すべきリスク面がある一方で、新たな創造の源泉ともなり得る二面性があります。
健全な技術発展を図りつつ、その潜在的な利点を最大化するための適切なガイドラインや規制の策定が重要になってきます。

【関連記事】
➡️ChatGPTの問題点とは？その危険性や社会に与える影響を解説

ハルシネーションの対策

このセクションでは、AIによるハルシネーションへの対処法を探ります。AIが生み出す事実に基づかない情報にどう立ち向かうか、具体的な手段を紹介していきます。

ファクトチェックの徹底

AIのハルシネーションへの対策として、ファクトチェックを行う事は非常に効果的です。AIによる出力が事実に基づかない情報を含む可能性があるため、生成された内容を鵜呑みにせず、必ず人間に目による確認が必須となります。

これは、特にニュース記事、学術研究、公共の情報提供など、正確性が求められる分野でのAIの利用において特に重要視されます。
人間によるファクトチェックは、AIが生成した情報の信頼性と正確性を保証する最後の砦と言えます。

このプロセスを支援するために、一部のAIツールではファクトチェック機能が組み込まれています。
例えば、Microsoft Copilotには「より厳密に」というモードが搭載されています。

このモードでは、Copilotのブラウジング機能を活用し、信頼できる情報源に基づいた出力を生成するよう設計されています。
Copilotより厳密に
モード選択画面

RAGを利用する

RAGは、生成タスクにおいて事前に訓練された言語モデルに外部から情報を取得（検索）する機能を組み込む技術です。
このプロセスでは、モデルがテキストを生成する際に、関連する情報やデータをリアルタイムで検索し、その情報を基にしてより正確かつ事実に基づいた内容を生成します。

RAGを活用することで、モデルは訓練データセット内の知識だけでなく、広範な外部情報源から得られるデータに基づいて回答を生成するため、ハルシネーションの発生を抑制し、出力の品質を向上させることが可能になります。

【関連記事】
➡️LLMや生成AIのRAGとは？その概要や活用例をわかりやすく解説！

グラウンディングの活用

グラウンディングは、AIが生成する内容を事実や実世界のデータに根拠付けるプロセスです。この手法では、AIモデルが情報を生成する前に、関連する事実やデータを参照し、その情報が正確であることを確認します。

これにより、AIは確かな根拠に基づいた回答を提供し、不確実な推測や事実に基づかない情報の生成を避けることができます。

これらの手法は、単独で使用するよりも、組み合わせて使用することでより効果を発揮します。
ただし、参照する知識ベースやグラウンディングの情報源の網羅性・正確性にも依存するため、それ自体にもバイアスやノイズが無いよう留意する必要があります。

AI利用に関するガイドラインの制定

特に企業や組織がAIを利用する際は、ハルシネーションへの対策としてAI利用に関するガイドラインを制定することをが重要です。
ハルシネーションによる不正確な情報の生成や利用は、企業の信頼性を損なうリスクをもたらします。

AIの利用目的、適用範囲、責任範囲などを明確に定義したガイドラインを作成することで、AIを安全かつ効果的に活用し、同時にその潜在的なリスクを管理することが可能になります。

企業がAIを安全かつ責任を持って活用するためには、こうしたガイドラインの制定が不可欠と言えるでしょう。

まとめ

AIのハルシネーションは、事実に基づかない情報を生成する問題であり、文書や画像生成など多岐にわたる分野で影響を及ぼします。
様々な対策を通じて、AIのハルシネーション問題に効果的に取り組むことで、AIの信頼性と有効性を高めることができます。

今後は、対策をさらに洗練させ、AI技術の進化とともに、より正確で信頼性の高いAIシステムの開発が期待されます。AIの持つ潜在力を最大限に引き出しつつ、そのリスクを最小限に抑えるための継続的な努力が求められています。