為什麼 LLM 會胡說八道 — 幻覺現象
AI 偶爾會一本正經地講錯話 — 引用不存在的論文、編造從未發生的歷史、甚至給你一個看起來很合理但其實亂寫的答案。這不是它在說謊,而是它生成的方式本來就會這樣。今天我們搞懂這件事,學會三個防錯技巧,讓 AI 變成可靠的工具,而不是會誤導你的同事。
3 分鐘秒懂
你問 ChatGPT(聊天機器人):「請推薦 5 本 2023 年出版的科幻小說,附 ISBN(國際標準書號)。」它流暢地回給你 5 本,書名很像、ISBN 也是 13 碼,看起來完美。結果你拿去博客來搜 — 三本根本不存在。
這就是 hallucination(幻覺現象)。AI 不是查資料庫給你答案,它是在「猜下一個最可能的字」。當它不知道時,它不會說「我不知道」,反而會挑「機率上最像答案的字」一個一個拼出來。聽起來合理,但內容可能完全假的。
想像一下:你叫一個從沒去過台北的朋友介紹捷運路線,他不想丟臉 — 於是憑想像編了一條「從北車到陽明山的紅 5 號線」。語氣超有自信,但站名全錯。LLM(大型語言模型) 在不確定時就是這樣。
為什麼這重要
三個原因:
- 你會被誤導。用 AI 寫報告引用不存在的論文,交出去就出事。律師界已經發生多次 — 美國有律師用 ChatGPT 寫狀子,引用 6 個假案例,被法官處罰。
- 它不會主動告訴你它在編。幻覺最危險的地方是「自信滿滿」— 你不會察覺。普通搜尋引擎找不到會說「無結果」;LLM 找不到會幫你「生」一個。
- 用對工具能極大降低出錯率。知道它什麼時候會胡說,你就能避開那些情境,或加上驗證機制。
核心概念分解
幻覺從哪裡來?LLM 訓練的目的是「給定前文,預測下一個 token(語意片段) 最可能是什麼」。它沒有「真假概念」 — 它只有「合不合機率」。
當你問的問題訓練資料裡有大量答案(例:「水的沸點是幾度」),它的機率分布很集中在「100」,答對機率很高。當你問訓練資料裡很少出現的細節(例:「2023 年 8 月某本書的 ISBN」),它的機率分布很散 — 它仍然會生一個答案,但這個答案是「看起來像 ISBN 的數字串」,不是「真的那個 ISBN」。
三個常見幻覺類型:
- 事實型幻覺:編造數字、日期、人名、書名、論文。例:「愛因斯坦於 1922 年獲得諾貝爾文學獎」(真實是物理獎)。
- 引用型幻覺:編造看起來合理的網址、書籍 ISBN、論文 DOI(數位物件識別碼)。例:給你一個「nature.com/articles/s41586-021-xxxxx」結果根本沒這篇。
- 邏輯型幻覺:推理過程看似嚴謹但前提錯誤。例:算數學題目流程對 但中間一步把 23×17 算成 381(正確是 391)。
幻覺 ≠ 故意說謊。LLM 沒有「意圖」 — 它只是把高機率的字接出來。
實際例子(中文世界場景)
例 1:寫週報塞數字
同事用 ChatGPT 幫忙寫月報:「請列出 Discord 在台灣的活躍用戶數」。AI 給你「約 280 萬」— 數字看起來很精準。實際上:Discord 從未公開過台灣分區數字,這個 280 萬完全是模型編的。週報交出去老闆問來源,全公司尷尬。
例 2:通義千問查書
用通義千問查「《非暴力溝通》作者馬歇爾·盧森堡的另一本著作」。它回你「《同理心對話》,2008 出版」。你去博客來搜 — 沒這本書。但盧森堡確實寫過幾本相關的書 — 模型把幾個記憶混在一起編了一本。
例 3:寫程式裝套件
叫 Claude 寫 Python 爬蟲,它說「請先 pip install pyscrape-ultra」。你裝下去 — pip 報錯。這個套件不存在。Claude 把幾個類似名字的真套件融合編出來。在程式圈這叫 package hallucination,已被資安研究員當攻擊面 — 駭客會搶註冊 AI 常編出的假套件名,灌惡意 code 進去。
常見誤解
- 誤解 1:「最新的 AI 不會有幻覺。」錯。GPT-5、Claude Opus 4.7、Gemini 3 都仍會幻覺 — 只是比例降低。任何 LLM 都不會 100% 沒幻覺,這是「猜字機制」的本質。
- 誤解 2:「給它更多資料就不會幻覺。」不一定。資料多代表知識面廣,但具體細節(某個冷門人物、某個小眾 API(程式介面) 規格)仍可能幻覺。
- 誤解 3:「AI 講話有自信代表它確定。」大錯。LLM 對所有答案都用一樣的自信語氣 — 因為它的訓練目標是「自然流暢」,不是「表達不確定」。它不知道自己不知道。
- 誤解 4:「幻覺只發生在冷門問題上。」不對。即使是常見問題,如果問題剛好戳到模型訓練資料的盲區(例:很新的事件、剛改版的規格),它仍會編。
三個防錯技巧(今天最實用的部分)
技巧 1:要求出處 + 自己驗證。問 AI 任何具體數字、引用、人名、書名時,加一句「請附資料來源網址」。然後實際點開那些網址 — 點不開就是幻覺。這招就能擋掉 80% 引用型幻覺。
技巧 2:給它資料讀,不要靠它的記憶。這叫 RAG(檢索增強生成)。例:你要問報告內容,把報告貼進去問題裡 — 不要叫它「回憶」報告寫什麼。把它當「閱讀理解工具」,不是「百科全書」。
技巧 3:交叉驗證 + 留疑問空間。關鍵決策(醫療、法律、財務)不要只問一次。問 ChatGPT、再問 Claude、再 Google 搜尋對照。語氣自信≠答案正確,要保持懷疑。對你不熟的領域更要小心 — 因為你越不熟越分不出真假。
口訣:要出處、給資料、多驗證。記住這三句就能擋掉大部分 AI 幻覺造成的麻煩。
今天小測驗(3 題)
第 1 題:下列哪個說法最準確描述「LLM 幻覺」?
- LLM 故意說謊欺騙用戶
- LLM 在生成下一個字時,只考慮機率上最像答案的字,所以在資料不足時會編造看似合理的內容
- LLM 只在很冷門的問題上會出錯,常見問題都絕對正確
- 幻覺只發生在舊版 AI,最新 AI 已經不會幻覺
查看答案與解析
答案:2。LLM 沒有「真假概念」 — 它的訓練目標是預測機率最高的下一個 token,所以資料不足時仍會生出「看起來合理」但實際錯誤的內容。其他選項都是常見誤解。
第 2 題:下列哪個情境最容易讓 LLM 幻覺?
- 問「水的化學式是什麼」
- 問「2024 年 X 月某本剛上市的新書的 ISBN」
- 請它把一段中文翻譯成英文
- 請它總結你貼上的一篇文章
查看答案與解析
答案:2。具體、冷門、新近、需要精確細節的問題(書號、論文 DOI、新聞發生時間)最容易幻覺。常識題、翻譯、總結貼上的內容相對安全,因為它有明確依據可循。
第 3 題:下列哪個是有效的防幻覺技巧?
- 只用最有名的 AI,例如 ChatGPT
- 相信 AI 講話的自信語氣 — 自信代表正確
- 要求 AI 附資料來源並自己驗證網址、把要分析的資料直接貼進 prompt(指令)、跨多個 AI 交叉驗證
- 每次問問題前先說「請不要幻覺」
查看答案與解析
答案:3。實際有效的三招:要出處、給資料(RAG 思維)、交叉驗證。語氣自信跟答案正確完全無關 — LLM 對所有答案都用同樣的肯定語氣。提示詞寫「不要幻覺」效果非常有限,因為模型本身分不出來自己有沒有在幻覺。