拒絕 AI 一本正經胡說八道！DeepConf 論文解析：如何利用「信心分數」優化推理並大幅節省 Token?

2025-12-28 約 4559 字預計閱讀 20 分鐘

探索 Meta AI 與 UCSD 最新發表的 DeepConf 技術！本文深入解析如何讓大型語言模型 (LLM) 具備「信心感知」能力，在推理過程中自動識別並終止低品質的思考路徑。了解 DeepConf 如何在不犧牲準確率的前提下，解決平行思維 (Parallel Thinking) 成本過高的問題，並大幅節省 Token 消耗，是 AI 開發者優化模型效能的必讀指南。

1 前言: AI 懂得「自我反思」嗎?

在現今的人工智慧領域，大型語言模型 (LLM)已經能寫詩、寫程式，甚至解開複雜的數學題。但你有沒有想過，當 AI 在回答問題時，它到底是有十足的把握，還是在「一本正經地胡說八道」?

通常，為了讓 AI 解題更準確，我們會讓它「多想幾種解法」(這在術語上稱為 Parallel Thinking 或 Self-Consistency)。這就像是考試時，老師叫你把題目算 100 遍，然後看哪個答案出現最多次。這雖然有效，但非常浪費時間與算力。

今天要介紹的這篇論文 Deep Think with Confidence (DeepConf)，由 Meta AI 與 UCSD 的研究團隊提出，他們試圖解決這個問題。他們賦予了 AI 一種能力: 即時感知自己的信心。如果 AI 發現自己算到一半開始「心虛」了，它就會立刻停下來，不再浪費時間。這不僅大幅節省了成本，甚至還能提高答對的機率！

論文連結: arXiv:2508.15260
專案程式碼: GitHub

2 問題定義: 為什麼我們需要「有信心」的思考?

在深入技術細節前，我們先來看看這篇論文想要解決什麼棘手的挑戰。

2.1 平行思維 (Parallel Thinking) 的困境

想像你正在參加一場困難的數學競賽。

方法 A (單次思考): 你只算一次就交卷。這很容易因為一個小粗心就錯了。
方法 B (平行思維 / 多數決): 你召集了 100 個分身，讓每個分身獨立解題。最後大家投票，哪個答案票數多就選哪個。

目前最先進的 AI 推理技術，用的就是 方法 B。這雖然能顯著提升準確率，但卻帶來了三個巨大的問題:

成本極高 (High Cost): 請 100 個分身解題，你需要付 100 份的薪水 (計算資源)。論文指出，為了讓準確率提升 14%，可能需要額外消耗上億個 Token 的運算量，這在商業應用上幾乎是不可接受的。
效益遞減 (Diminishing Returns): 並不是分身越多越好。當分身數量多到一定程度，準確率就不再提升了，甚至可能因為大家都在亂猜而下降。
盲目的民主 (Blind Voting): 這是最關鍵的一點。在傳統的多數決中，一位數學天才的答案和一個完全不懂數學的人亂猜的答案，在投票箱裡都只算「一票」。這顯然不合理！如果有大量低品質的思考路徑 (胡說八道) 混進來，很容易淹沒正確答案。

核心目標

這篇論文的目標非常明確: 我們能不能在不犧牲 (甚至提升) 準確率的前提下，大幅減少計算成本? 方法就是: 讓 AI 學會「察言觀色」，辨識出哪些解題過程是高品質的，並在發現是低品質過程時提早喊卡。

3 方法介紹: DeepConf 如何運作?

DeepConf 的核心思想建立在一個簡單的觀察上: 當模型在胡說八道時，它的「語氣」通常會變得猶豫不決。 但電腦不懂語氣，我們如何用數學來量化這種「猶豫」呢?

這就要從資訊理論中最經典的概念 —— Shannon Entropy 說起。

3.1 測量信心: 從 Token Entropy 開始

AI 生成文字是一字一字(Token by Token)吐出來的。在每一個字生成時，模型其實都在心裡計算一張「機率表」。

3.1.1 Shannon Entropy 基礎教室

Entropy (熵) 在資訊理論中，是用來衡量一個系統的「不確定性」或「混亂程度」。

其公式如下:

H_i = - \sum_{j} P_i(j) \log P_i(j)

其中 $P_i(j)$ 代表模型預測下一個字是 $j$ 的機率。

這個公式可能看起來很抽象，讓我們用兩個生活化的例子來對比，你就能瞬間理解為什麼「低 Entropy = 高信心」:

情境 A: 高信心 (Low Entropy, High Peak) 假設模型正在填空: 「法國的首都是 [?]」。模型非常有把握，它腦中的機率分佈可能長這樣:
- “Paris”: 99%
- “London”: 0.5%
- 其他: 0.5%
這時候，機率分佈圖會出現一個巨大的尖峰 (Peak)。因為大部分機率都集中在一個選項上，不確定性極低，算出來的 Entropy 數值會非常接近 0。
結論: Entropy 越低 $\rightarrow$ 機率分佈越尖銳 $\rightarrow$ 模型越有信心。
情境 B: 低信心(High Entropy, Flat Distribution) 假設模型正在填空: 「今天晚餐我想吃 [?]」。模型覺得什麼都有可能，很猶豫:
- “漢堡”: 10%
- “披薩”: 10%
- “壽司”: 10%
- … (大家都差不多)
這時候，機率分佈圖會是一條平坦的線 (Flat)。機率分散，不確定性很高，算出來的 Entropy 數值會很大。
結論: Entropy 越高 $\rightarrow$ 機率分佈越平坦 $\rightarrow$ 模型越猶豫/沒信心。

3.1.2 實戰選擇: Token Confidence ( $C_i$ )

雖然 Entropy 是衡量信心的黃金標準，但在實際工程上它有個缺點: 計算太慢。要算出精確的 Entropy，我們得把字典裡幾萬個字的機率全部加總。

為了追求極致的速度，論文設計了一個替代指標 Token Confidence，只看機率最高的 $k$ 個字 (例如 Top-20):

C_i = - \frac{1}{k} \sum_{j=1}^{k} \log P_i(j)

這個指標巧妙地利用了數學轉換:

當模型很有信心時 (像情境 A)，競爭對手的機率極低 (趨近於 0)，取 Log 後會變成很大的負數，再取平均並加負號，會得到一個很大的正數。
當模型沒信心時 (像情境 B)，大家機率都差不多，Log 值不會太負，最後得到一個較小的正數。

重點筆記

在這個定義下: Token Confidence 數值越高 $\uparrow$ = 模型信心越高。這與 Entropy 剛好相反 (Entropy 是越低越有信心)，但物理意義是一致的。這樣做的好處是計算速度極快，幾乎不影響生成時間。

3.2 評估整條路徑: 抓出「害群之馬」

有了單個字的信心還不夠，我們要評估整串推理過程 (Reasoning Trace) 的好壞。

3.2.1 平均值 (Average) 的陷阱

最直觀的做法是算整段話的平均信心。但这有個致命傷: 高分會掩蓋低分。想像一段 100 步的推理，其中 95 步都是廢話 (信心很高)，只有關鍵的 5 步邏輯錯了 (信心很低)。如果取平均，整段看起來還是高分，但答案卻是錯的。

3.2.2 解決方案: Group Confidence (分組信心)

DeepConf 引入了 滑動視窗 (Sliding Window) 的概念。它不是看整體的平均，而是拿著放大鏡，一段一段地(例如每 1024 個 Token 一組)檢查信心。

C_{G_i} = \frac{1}{|G_i|} \sum_{t \in G_i} C_t

這樣做有兩個好處:

平滑化: 過濾掉單個字的雜訊。
捕捉局部崩潰: 這最重要！一旦推理過程中出現一段「語無倫次」或「邏輯卡頓」，那一個區間的 Group Confidence 就會驟降。

圖解不同的信心測量方式。可以看到 Lowest Group 能精準抓到信心崩潰的瞬間。

3.3 三種評分策略

有了 Group Confidence，我們如何給整條路徑打最終分數? 論文提出了三個指標，運用了木桶理論 (水桶能裝多少水，取決於最短的那塊木板):

Lowest Group Confidence (最低分組信心): 找出整條路徑中分數最低的那一段，當作這條路徑的成績。只要有一段邏輯崩潰，整條路徑就不及格。
Bottom 10% Group Confidence: 找出表現最差的 10% 片段取平均。這比只看最低分更穩健一點，避免被單一極端值誤導。
Tail Confidence (結尾信心): 只看推理過程的最後一段。因為推理通常越後面越難，如果結尾很穩，通常代表前面推導得不錯。

3.4 關鍵應用流程: Offline 與 Online

了解了如何打分數後，DeepConf 究竟是如何應用的?論文提出了兩種截然不同的場景。

3.4.1 場景一: Offline Thinking (離線篩選) —— 考完試再改卷

在這個場景下，假設我們不計成本，已經讓模型生成了 100 條完整的解答路徑。我們的任務是: 在這 100 條路徑中，怎麼選出最正確的答案?

DeepConf 在這裡做了兩層優化:

Step 1: 信心過濾 (Confidence Filtering) —— 去蕪存菁 我們不再讓所有路徑都參與投票。我們先計算每條路徑的信心分數 (例如用 Bottom-10%)，然後進行篩選。論文提出了兩種策略:

菁英策略 (Top 10%): 只留下分數最高的 10 條路徑，把剩下 90 條丟進垃圾桶。這種做法假設「真理掌握在少數人手中」。
大眾策略 (Top 90%): 只剔除分數最低的 10%「垃圾」，保留大部分路徑。這種做法比較穩健。

Step 2: 加權投票 (Weighted Majority Voting) —— 專家話語權 剩下的路徑進行投票時，不再是一人一票。

V(a) = \sum_{t \in T} C_t \cdot I(\text{answer}(t) = a)

如果一條路徑信心很高(例如 0.9 分)，它投給答案 A，那答案 A 就得 0.9 分。
如果一條路徑信心很低(例如 0.2 分)，它投給答案 B，那答案 B 只得 0.2 分。最終，得分最高的答案勝出。這確保了高品質的推理能主導最終結果。

3.4.2 場景二: Online Thinking (線上即時控制) —— 老師監考中

這是這篇論文最精華、最能幫公司省錢的部分！在這個場景下，我們一邊生成，一邊檢查。目標是: 一旦發現學生 (模型) 開始亂寫，馬上把考卷收走 (停止生成)，不要浪費時間。

這個流程稍微複雜一點，我們把它拆解成三個步驟:

Step 1: 熱身 (Offline Warmup) —— 設定「及格線」 在正式開始前，我們先讓模型生成一小批完整的路徑 (例如 16 條)。

我們計算這 16 條路徑的信心分數。
假設我們要保留 Top 10% 的水準，我們就看這 16 條裡面的前 10% 分數是多少 (例如 0.8 分)。
這個 0.8 分 就變成了接下來所有路徑的生死門檻 (Threshold $s$ )。

Step 2: 線上處決 (The Kill Switch) —— 即時止損 接著開始大規模生成。在每一條路徑生成的過程中，系統會持續計算當前的 Group Confidence。

還記得 Group Confidence 是一個滑動視窗嗎?每生成一個字，我們都在算分數。
關鍵邏輯: 如果現在這一小段的分數已經低於門檻 $s$ (例如掉到 0.4 分)，我們就可以斷定這條路徑最終的 Lowest Score 絕對不會高於 0.4。
行動: 既然這條路徑注定不及格，系統會立刻切斷生成 (Early Stop)。
效益: 這條路徑可能原本要寫 1000 個字，我們在第 200 字就殺掉它，直接省下了 800 個字的運算費！

Step 3: 自適應採樣 (Adaptive Sampling) —— 見好就收 我們還需要知道「什麼時候該停止生成新的路徑」。

每生成完一條有效路徑，我們就更新一次投票結果。
如果發現某個答案的得票率已經超過 95%(共識很高)，代表大家意見一致，勝負已定。
這時，我們就停止整個任務，輸出答案。不需要為了湊滿 100 條而繼續浪費錢。

Online Thinking 流程圖: 紅色叉叉代表被提早終止的路徑。透過這種機制，DeepConf 能過濾掉無效運算，極大化效率。

4 實驗結果: 數據會說話

DeepConf 的效果如何?論文在 AIME (數學競賽)、GPQA (研究生等級科學問答) 等高難度資料集上進行了測試，結果令人驚艷。

4.1 「少即是多」: 丟掉答案反而更準

在離線測試中，研究發現，如果我們丟掉 90% 的低信心路徑，只讓剩下 10% 的菁英進行投票，準確率往往比讓所有人投票還要高。

例如 DeepSeek-8B 在 AIME24 上，傳統投票準確率 86.7%，使用 DeepConf 篩選後提升至 93.3%。這證明了低信心的路徑大多是雜訊。

離線評估結果: 可以看到經過信心篩選(尤其是 Bottom-10%)，準確率普遍高於傳統多數決 (Cons@512)。

4.2 省錢奇蹟: 成本大降，效能不減

在線上測試中，DeepConf 展現了極致的效率。

DeepConf-low (激進省錢版): 在某些任務上，能節省高達 84.7% 的 Token，同時準確率還能持平甚至提升！這意味著原本要跑 10 小時的任務，現在可能 2 小時就跑完了。
DeepConf-high (保守穩健版): 在幾乎不犧牲任何準確率的情況下，穩定節省 20%~50% 的成本。

線上評估結果: 注意看 Token (Δ%) 這一欄，負值代表節省的比例，數字非常驚人。

4.3 局部優於全局

實驗數據也證實，使用 Bottom-10% 或 Tail 這種關注「局部」和「短板」的指標，其分辨好壞的能力優於單純看整體的平均值。這驗證了「一條錯誤的推理往往源自於某個片段的崩潰」這一假設。

5 結論: 讓 AI 學會「適可而止」

Deep Think with Confidence (DeepConf) 並不是要訓練一個更強大的新模型，而是教導我們如何更聰明地使用現有的模型。

透過簡單的信心監控機制，DeepConf 成功解決了平行思維 (Parallel Thinking) 高昂成本的問題。它告訴我們:

AI 是有「自知之明」的，它知道自己什麼時候在瞎掰。
與其讓 AI 盲目地生成大量文字，不如在它猶豫不決時即時喊卡。
這種「去蕪存菁」的過程，不僅省下了巨額的運算成本，往往還能讓最終的答案更加精準。

對於未來的 AI 應用開發者來說，這篇論文提供了一個極具價值的思路: 高品質的推理，不在於想得多，而在於想得「精」且「穩」。

目錄

目錄

拒絕 AI 一本正經胡說八道！DeepConf 論文解析：如何利用「信心分數」優化推理並大幅節省 Token?

1 前言: AI 懂得「自我反思」嗎?