為什麼 LLM 會胡說八道 — 幻覺現象

AI 偶爾會一本正經地講錯話 — 引用不存在的論文、編造從未發生的歷史、甚至給你一個看起來很合理但其實亂寫的答案。這不是它在說謊，而是它生成的方式本來就會這樣。今天我們搞懂這件事，學會三個防錯技巧，讓 AI 變成可靠的工具，而不是會誤導你的同事。

3 分鐘秒懂

你問 ChatGPT(聊天機器人)：「請推薦 5 本 2023 年出版的科幻小說，附 ISBN(國際標準書號)。」它流暢地回給你 5 本，書名很像、ISBN 也是 13 碼，看起來完美。結果你拿去博客來搜 — 三本根本不存在。

這就是 hallucination(幻覺現象)。AI 不是查資料庫給你答案，它是在「猜下一個最可能的字」。當它不知道時，它不會說「我不知道」，反而會挑「機率上最像答案的字」一個一個拼出來。聽起來合理，但內容可能完全假的。

想像一下：你叫一個從沒去過台北的朋友介紹捷運路線，他不想丟臉 — 於是憑想像編了一條「從北車到陽明山的紅 5 號線」。語氣超有自信，但站名全錯。LLM(大型語言模型) 在不確定時就是這樣。

為什麼這重要

三個原因：

你會被誤導。用 AI 寫報告引用不存在的論文，交出去就出事。律師界已經發生多次 — 美國有律師用 ChatGPT 寫狀子，引用 6 個假案例，被法官處罰。
它不會主動告訴你它在編。幻覺最危險的地方是「自信滿滿」— 你不會察覺。普通搜尋引擎找不到會說「無結果」；LLM 找不到會幫你「生」一個。
用對工具能極大降低出錯率。知道它什麼時候會胡說，你就能避開那些情境，或加上驗證機制。

核心概念分解

幻覺從哪裡來？LLM 訓練的目的是「給定前文，預測下一個 token(語意片段) 最可能是什麼」。它沒有「真假概念」 — 它只有「合不合機率」。

當你問的問題訓練資料裡有大量答案（例：「水的沸點是幾度」），它的機率分布很集中在「100」，答對機率很高。當你問訓練資料裡很少出現的細節（例：「2023 年 8 月某本書的 ISBN」），它的機率分布很散 — 它仍然會生一個答案，但這個答案是「看起來像 ISBN 的數字串」，不是「真的那個 ISBN」。

三個常見幻覺類型：

事實型幻覺：編造數字、日期、人名、書名、論文。例：「愛因斯坦於 1922 年獲得諾貝爾文學獎」（真實是物理獎）。
引用型幻覺：編造看起來合理的網址、書籍 ISBN、論文 DOI(數位物件識別碼)。例：給你一個「nature.com/articles/s41586-021-xxxxx」結果根本沒這篇。
邏輯型幻覺：推理過程看似嚴謹但前提錯誤。例：算數學題目流程對但中間一步把 23×17 算成 381（正確是 391）。

幻覺 ≠ 故意說謊。LLM 沒有「意圖」 — 它只是把高機率的字接出來。

實際例子（中文世界場景）

例 1：寫週報塞數字
同事用 ChatGPT 幫忙寫月報：「請列出 Discord 在台灣的活躍用戶數」。AI 給你「約 280 萬」— 數字看起來很精準。實際上：Discord 從未公開過台灣分區數字，這個 280 萬完全是模型編的。週報交出去老闆問來源，全公司尷尬。

例 2：通義千問查書
用通義千問查「《非暴力溝通》作者馬歇爾·盧森堡的另一本著作」。它回你「《同理心對話》，2008 出版」。你去博客來搜 — 沒這本書。但盧森堡確實寫過幾本相關的書 — 模型把幾個記憶混在一起編了一本。

例 3：寫程式裝套件
叫 Claude 寫 Python 爬蟲，它說「請先 pip install pyscrape-ultra」。你裝下去 — pip 報錯。這個套件不存在。Claude 把幾個類似名字的真套件融合編出來。在程式圈這叫 package hallucination，已被資安研究員當攻擊面 — 駭客會搶註冊 AI 常編出的假套件名，灌惡意 code 進去。

常見誤解

誤解 1：「最新的 AI 不會有幻覺。」錯。GPT-5、Claude Opus 4.7、Gemini 3 都仍會幻覺 — 只是比例降低。任何 LLM 都不會 100% 沒幻覺，這是「猜字機制」的本質。
誤解 2：「給它更多資料就不會幻覺。」不一定。資料多代表知識面廣，但具體細節（某個冷門人物、某個小眾 API(程式介面) 規格）仍可能幻覺。
誤解 3：「AI 講話有自信代表它確定。」大錯。LLM 對所有答案都用一樣的自信語氣 — 因為它的訓練目標是「自然流暢」，不是「表達不確定」。它不知道自己不知道。
誤解 4：「幻覺只發生在冷門問題上。」不對。即使是常見問題，如果問題剛好戳到模型訓練資料的盲區（例：很新的事件、剛改版的規格），它仍會編。

三個防錯技巧（今天最實用的部分）

技巧 1：要求出處 + 自己驗證。問 AI 任何具體數字、引用、人名、書名時，加一句「請附資料來源網址」。然後實際點開那些網址 — 點不開就是幻覺。這招就能擋掉 80% 引用型幻覺。

技巧 2：給它資料讀，不要靠它的記憶。這叫 RAG(檢索增強生成)。例：你要問報告內容，把報告貼進去問題裡 — 不要叫它「回憶」報告寫什麼。把它當「閱讀理解工具」，不是「百科全書」。

技巧 3：交叉驗證 + 留疑問空間。關鍵決策（醫療、法律、財務）不要只問一次。問 ChatGPT、再問 Claude、再 Google 搜尋對照。語氣自信≠答案正確，要保持懷疑。對你不熟的領域更要小心 — 因為你越不熟越分不出真假。

口訣：要出處、給資料、多驗證。記住這三句就能擋掉大部分 AI 幻覺造成的麻煩。

今天小測驗（3 題）

第 1 題：下列哪個說法最準確描述「LLM 幻覺」？

LLM 故意說謊欺騙用戶
LLM 在生成下一個字時，只考慮機率上最像答案的字，所以在資料不足時會編造看似合理的內容
LLM 只在很冷門的問題上會出錯，常見問題都絕對正確
幻覺只發生在舊版 AI，最新 AI 已經不會幻覺

查看答案與解析

答案：2。LLM 沒有「真假概念」 — 它的訓練目標是預測機率最高的下一個 token，所以資料不足時仍會生出「看起來合理」但實際錯誤的內容。其他選項都是常見誤解。

第 2 題：下列哪個情境最容易讓 LLM 幻覺？

問「水的化學式是什麼」
問「2024 年 X 月某本剛上市的新書的 ISBN」
請它把一段中文翻譯成英文
請它總結你貼上的一篇文章

查看答案與解析

答案：2。具體、冷門、新近、需要精確細節的問題（書號、論文 DOI、新聞發生時間）最容易幻覺。常識題、翻譯、總結貼上的內容相對安全，因為它有明確依據可循。

第 3 題：下列哪個是有效的防幻覺技巧？

只用最有名的 AI，例如 ChatGPT
相信 AI 講話的自信語氣 — 自信代表正確
要求 AI 附資料來源並自己驗證網址、把要分析的資料直接貼進 prompt(指令)、跨多個 AI 交叉驗證
每次問問題前先說「請不要幻覺」

查看答案與解析

答案：3。實際有效的三招：要出處、給資料（RAG 思維）、交叉驗證。語氣自信跟答案正確完全無關 — LLM 對所有答案都用同樣的肯定語氣。提示詞寫「不要幻覺」效果非常有限，因為模型本身分不出來自己有沒有在幻覺。