第 6 天：為什麼 AI 訓練要花這麼多錢

你可以把 AI(人工智慧)想像成一位準備考大學的學生。平常我們問它問題，就像請它現場回答；但在它能回答以前，背後其實經歷了超大量「讀書、刷題、改錯」。這個讀書過程，就是訓練。問題是，這位學生不是坐在書桌前用檯燈讀書，而是住在一整棟電腦機房裡，旁邊有成千上萬張高級顯卡一起運轉，冷氣還要 24 小時開著。這就是為什麼訓練一個厲害的 AI 模型，常常貴得像在蓋一座小型工廠。

3 分鐘秒懂

AI 的成本大致可以分成兩種：訓練成本與推理成本。訓練，就是讓模型從大量資料中學會語言、知識與規律；推理 inference(推理)，則是模型已經訓練好之後，使用者每問一次問題，它產生一次回答的成本。

用生活比喻來說，訓練像是培養一位醫生：要讀多年書、做大量練習、使用昂貴設備；推理像是這位醫生看診：每看一位病人都會花時間、人力與診間成本。前者是一次性但超級昂貴，後者是單次較便宜但每天累積起來也很可觀。

AI 公司最花錢的地方，通常不是寫幾行程式，而是買 GPU(圖形處理器)、租資料中心、付電費、準備資料、聘請研究員與工程師，以及反覆測試模型。這些加起來，就是大家常聽到「訓練一個大型模型可能要花上千萬甚至上億美元」的原因。

為什麼這重要

理解 AI 成本，可以幫你看懂三件事。第一，為什麼不是每家公司都能自己訓練 ChatGPT 這種等級的模型。不是因為大家都不聰明，而是入場費太高，就像不是每家餐廳都能自己蓋發電廠。

第二，你會明白為什麼 AI 服務有免費版、付費版、企業版。當你用 ChatGPT 寫週報、請通義千問整理會議記錄，或在 Discord(社群語音與文字平台)裡讓機器人即時回答問題，每一次互動背後都在消耗算力。免費不是沒有成本，而是有人先幫你付了。

第三，你會更懂 AI 公司估值邏輯。投資人看一家 AI 公司，不只看它有沒有漂亮的介面，也會看它是否掌握模型能力、資料、算力來源、使用者規模，以及未來能不能把昂貴成本轉成可持續收入。

核心概念分解

第一個概念：GPU 為什麼這麼貴。一般電腦的 CPU(中央處理器)像是一位很聰明但一次主要處理少數任務的主管；GPU 則像是一整排工人，可以同時做大量重複計算。AI 訓練需要處理海量矩陣運算，這正是 GPU 擅長的事。

但高階 GPU 不只是硬體本身貴，還有供應稀缺、製造難度高、全球需求爆炸等因素。大型 AI 公司會一次買成千上萬張 GPU，小公司很難搶得到。這就像熱門演唱會門票，位置有限，大家都想買，價格自然高。

第二個概念：訓練成本。訓練 LLM(大型語言模型)時，模型會讀大量文字、程式碼、圖片或其他資料，從中調整內部參數。每一次調整都要大量計算。模型越大、資料越多、訓練時間越長，成本就越高。

第三個概念：推理成本。模型訓練好後，使用者輸入 prompt(指令)，模型把文字拆成 token(語意片段)，再一個一個預測接下來該輸出什麼。你請它寫一封短信，成本較低；請它讀十頁文件、寫三千字報告，成本就更高。

第四個概念：電費與散熱。GPU 全速運轉時非常耗電，也會產生大量熱。資料中心 data center(資料中心)必須有穩定電力、冷卻系統、網路設備與維修人員。訓練 AI 不是只買顯卡插上去就好，而是要維持一座高性能工廠。

實際例子

想像一家中文 AI 新創公司，想訓練一個專門幫企業寫週報、客服回覆、法務摘要的模型。第一步，它要收集大量中文資料，例如公開文章、客服對話範例、企業內部文件格式。資料還要清洗，刪掉重複、錯誤、低品質內容。

第二步，它要租用或購買 GPU 叢集。假設訓練要連續跑幾週，中間不能常常出錯，否則就像煮一鍋湯煮到一半停電，前面時間可能白費。工程師還要監控訓練狀態，調整參數，避免模型學壞或效果不穩。

第三步，模型訓練完不代表可以直接賺錢。還要做安全測試、中文語氣調整、企業功能串接，例如讓模型可以讀 Google 文件、飛書、釘釘或公司內部知識庫。這些都是額外成本。

再看推理。假設一家公司每天有一萬名員工使用 AI 寫週報，每人平均產生五次對話。單次成本也許不高，但一天五萬次、一個月一百五十萬次，伺服器費用就會變成真金白銀。這也是為什麼 AI 公司會設計用量限制、會員方案或企業合約。

常見誤解

誤解一：「模型訓練好後就幾乎不用花錢。」其實推理一樣要成本。只要有人使用，就要算力、電力與伺服器。熱門產品的推理成本，甚至可能比訓練成本更長期、更沉重。

誤解二：「GPU 貴只是因為廠商故意漲價。」價格當然受市場影響，但根本原因是高階晶片製造困難、供應有限、需求暴增。AI、自駕車、雲端運算、科學研究都在搶同一類硬體。

誤解三：「只要模型大，就一定能賺錢。」大模型能力強，但成本也高。如果一家公司花很多錢訓練模型，卻找不到願意付費的使用場景，就像開了一家超豪華餐廳卻沒客人。真正關鍵是模型能力、成本控制與商業模式能不能配合。

誤解四：「AI 公司估值高，就是泡沫。」有些可能確實被高估，但估值高通常來自市場對未來的期待：如果它掌握稀缺算力、優質資料、強模型與大量用戶，就可能成為下一代基礎設施。投資人買的是未來現金流的可能性，不只是今天的收入。

今天小測驗（3 題）

1. AI 的「訓練成本」最像下面哪一種情境？

A. 醫生每看一位病人的診間成本
B. 培養一位醫生多年讀書與實習的成本
C. 使用者按下送出訊息的網路費
D. 手機下載 App 的時間

查看答案與解析

答案：B。訓練成本像是培養專業人才，需要大量資料、算力、時間與人力；推理成本才比較像每次看診或每次回答問題的成本。

2. 為什麼 GPU 對 AI 訓練特別重要？

A. 因為 GPU 最會儲存文字資料
B. 因為 GPU 可以同時處理大量重複計算
C. 因為 GPU 可以讓螢幕顏色更漂亮
D. 因為 GPU 不需要用電

查看答案與解析

答案：B。AI 訓練需要大量矩陣與並行運算，GPU 擅長同時處理大量計算任務，因此成為訓練大型模型的重要硬體。

3. 看 AI 公司估值時，下面哪一項最不合理？

A. 看它是否有穩定取得算力的能力
B. 看它是否能把使用成本轉成收入
C. 只看模型參數大不大，其他都不重要
D. 看它是否有有價值的應用場景與客戶

查看答案與解析

答案：C。模型大不等於商業成功。AI 公司估值通常要綜合看模型能力、算力、資料、成本控制、用戶規模與商業模式。