第 6 天:為什麼 AI 訓練要花這麼多錢
你可以把 AI(人工智慧)想像成一位準備考大學的學生。平常我們問它問題,就像請它現場回答;但在它能回答以前,背後其實經歷了超大量「讀書、刷題、改錯」。這個讀書過程,就是訓練。問題是,這位學生不是坐在書桌前用檯燈讀書,而是住在一整棟電腦機房裡,旁邊有成千上萬張高級顯卡一起運轉,冷氣還要 24 小時開著。這就是為什麼訓練一個厲害的 AI 模型,常常貴得像在蓋一座小型工廠。
3 分鐘秒懂
AI 的成本大致可以分成兩種:訓練成本與推理成本。訓練,就是讓模型從大量資料中學會語言、知識與規律;推理 inference(推理),則是模型已經訓練好之後,使用者每問一次問題,它產生一次回答的成本。
用生活比喻來說,訓練像是培養一位醫生:要讀多年書、做大量練習、使用昂貴設備;推理像是這位醫生看診:每看一位病人都會花時間、人力與診間成本。前者是一次性但超級昂貴,後者是單次較便宜但每天累積起來也很可觀。
AI 公司最花錢的地方,通常不是寫幾行程式,而是買 GPU(圖形處理器)、租資料中心、付電費、準備資料、聘請研究員與工程師,以及反覆測試模型。這些加起來,就是大家常聽到「訓練一個大型模型可能要花上千萬甚至上億美元」的原因。
為什麼這重要
理解 AI 成本,可以幫你看懂三件事。第一,為什麼不是每家公司都能自己訓練 ChatGPT 這種等級的模型。不是因為大家都不聰明,而是入場費太高,就像不是每家餐廳都能自己蓋發電廠。
第二,你會明白為什麼 AI 服務有免費版、付費版、企業版。當你用 ChatGPT 寫週報、請通義千問整理會議記錄,或在 Discord(社群語音與文字平台)裡讓機器人即時回答問題,每一次互動背後都在消耗算力。免費不是沒有成本,而是有人先幫你付了。
第三,你會更懂 AI 公司估值邏輯。投資人看一家 AI 公司,不只看它有沒有漂亮的介面,也會看它是否掌握模型能力、資料、算力來源、使用者規模,以及未來能不能把昂貴成本轉成可持續收入。
核心概念分解
第一個概念:GPU 為什麼這麼貴。一般電腦的 CPU(中央處理器)像是一位很聰明但一次主要處理少數任務的主管;GPU 則像是一整排工人,可以同時做大量重複計算。AI 訓練需要處理海量矩陣運算,這正是 GPU 擅長的事。
但高階 GPU 不只是硬體本身貴,還有供應稀缺、製造難度高、全球需求爆炸等因素。大型 AI 公司會一次買成千上萬張 GPU,小公司很難搶得到。這就像熱門演唱會門票,位置有限,大家都想買,價格自然高。
第二個概念:訓練成本。訓練 LLM(大型語言模型)時,模型會讀大量文字、程式碼、圖片或其他資料,從中調整內部參數。每一次調整都要大量計算。模型越大、資料越多、訓練時間越長,成本就越高。
第三個概念:推理成本。模型訓練好後,使用者輸入 prompt(指令),模型把文字拆成 token(語意片段),再一個一個預測接下來該輸出什麼。你請它寫一封短信,成本較低;請它讀十頁文件、寫三千字報告,成本就更高。
第四個概念:電費與散熱。GPU 全速運轉時非常耗電,也會產生大量熱。資料中心 data center(資料中心)必須有穩定電力、冷卻系統、網路設備與維修人員。訓練 AI 不是只買顯卡插上去就好,而是要維持一座高性能工廠。
實際例子
想像一家中文 AI 新創公司,想訓練一個專門幫企業寫週報、客服回覆、法務摘要的模型。第一步,它要收集大量中文資料,例如公開文章、客服對話範例、企業內部文件格式。資料還要清洗,刪掉重複、錯誤、低品質內容。
第二步,它要租用或購買 GPU 叢集。假設訓練要連續跑幾週,中間不能常常出錯,否則就像煮一鍋湯煮到一半停電,前面時間可能白費。工程師還要監控訓練狀態,調整參數,避免模型學壞或效果不穩。
第三步,模型訓練完不代表可以直接賺錢。還要做安全測試、中文語氣調整、企業功能串接,例如讓模型可以讀 Google 文件、飛書、釘釘或公司內部知識庫。這些都是額外成本。
再看推理。假設一家公司每天有一萬名員工使用 AI 寫週報,每人平均產生五次對話。單次成本也許不高,但一天五萬次、一個月一百五十萬次,伺服器費用就會變成真金白銀。這也是為什麼 AI 公司會設計用量限制、會員方案或企業合約。
常見誤解
誤解一:「模型訓練好後就幾乎不用花錢。」其實推理一樣要成本。只要有人使用,就要算力、電力與伺服器。熱門產品的推理成本,甚至可能比訓練成本更長期、更沉重。
誤解二:「GPU 貴只是因為廠商故意漲價。」價格當然受市場影響,但根本原因是高階晶片製造困難、供應有限、需求暴增。AI、自駕車、雲端運算、科學研究都在搶同一類硬體。
誤解三:「只要模型大,就一定能賺錢。」大模型能力強,但成本也高。如果一家公司花很多錢訓練模型,卻找不到願意付費的使用場景,就像開了一家超豪華餐廳卻沒客人。真正關鍵是模型能力、成本控制與商業模式能不能配合。
誤解四:「AI 公司估值高,就是泡沫。」有些可能確實被高估,但估值高通常來自市場對未來的期待:如果它掌握稀缺算力、優質資料、強模型與大量用戶,就可能成為下一代基礎設施。投資人買的是未來現金流的可能性,不只是今天的收入。
今天小測驗(3 題)
1. AI 的「訓練成本」最像下面哪一種情境?
A. 醫生每看一位病人的診間成本
B. 培養一位醫生多年讀書與實習的成本
C. 使用者按下送出訊息的網路費
D. 手機下載 App 的時間
查看答案與解析
答案:B。訓練成本像是培養專業人才,需要大量資料、算力、時間與人力;推理成本才比較像每次看診或每次回答問題的成本。
2. 為什麼 GPU 對 AI 訓練特別重要?
A. 因為 GPU 最會儲存文字資料
B. 因為 GPU 可以同時處理大量重複計算
C. 因為 GPU 可以讓螢幕顏色更漂亮
D. 因為 GPU 不需要用電
查看答案與解析
答案:B。AI 訓練需要大量矩陣與並行運算,GPU 擅長同時處理大量計算任務,因此成為訓練大型模型的重要硬體。
3. 看 AI 公司估值時,下面哪一項最不合理?
A. 看它是否有穩定取得算力的能力
B. 看它是否能把使用成本轉成收入
C. 只看模型參數大不大,其他都不重要
D. 看它是否有有價值的應用場景與客戶
查看答案與解析
答案:C。模型大不等於商業成功。AI 公司估值通常要綜合看模型能力、算力、資料、成本控制、用戶規模與商業模式。