目錄

拒絕 AI 一本正經胡說八道!DeepConf 論文解析:如何利用「信心分數」優化推理並大幅節省 Token?

在現今的人工智慧領域,大型語言模型 (LLM)已經能寫詩、寫程式,甚至解開複雜的數學題。但你有沒有想過,當 AI 在回答問題時,它到底是有十足的把握,還是在「一本正經地胡說八道」?

通常,為了讓 AI 解題更準確,我們會讓它「多想幾種解法」(這在術語上稱為 Parallel ThinkingSelf-Consistency)。這就像是考試時,老師叫你把題目算 100 遍,然後看哪個答案出現最多次。這雖然有效,但非常浪費時間與算力。

今天要介紹的這篇論文 Deep Think with Confidence (DeepConf),由 Meta AI 與 UCSD 的研究團隊提出,他們試圖解決這個問題。他們賦予了 AI 一種能力: 即時感知自己的信心。如果 AI 發現自己算到一半開始「心虛」了,它就會立刻停下來,不再浪費時間。這不僅大幅節省了成本,甚至還能提高答對的機率!

在深入技術細節前,我們先來看看這篇論文想要解決什麼棘手的挑戰。

想像你正在參加一場困難的數學競賽。

  • 方法 A (單次思考): 你只算一次就交卷。這很容易因為一個小粗心就錯了。
  • 方法 B (平行思維 / 多數決): 你召集了 100 個分身,讓每個分身獨立解題。最後大家投票,哪個答案票數多就選哪個。

目前最先進的 AI 推理技術,用的就是 方法 B。這雖然能顯著提升準確率,但卻帶來了三個巨大的問題:

  1. 成本極高 (High Cost): 請 100 個分身解題,你需要付 100 份的薪水 (計算資源)。論文指出,為了讓準確率提升 14%,可能需要額外消耗上億個 Token 的運算量,這在商業應用上幾乎是不可接受的。
  2. 效益遞減 (Diminishing Returns): 並不是分身越多越好。當分身數量多到一定程度,準確率就不再提升了,甚至可能因為大家都在亂猜而下降。
  3. 盲目的民主 (Blind Voting): 這是最關鍵的一點。在傳統的多數決中,一位數學天才的答案一個完全不懂數學的人亂猜的答案,在投票箱裡都只算「一票」。這顯然不合理!如果有大量低品質的思考路徑 (胡說八道) 混進來,很容易淹沒正確答案。
核心目標
這篇論文的目標非常明確: 我們能不能在不犧牲 (甚至提升) 準確率的前提下,大幅減少計算成本? 方法就是: 讓 AI 學會「察言觀色」,辨識出哪些解題過程是高品質的,並在發現是低品質過程時提早喊卡

DeepConf 的核心思想建立在一個簡單的觀察上: 當模型在胡說八道時,它的「語氣」通常會變得猶豫不決。 但電腦不懂語氣,我們如何用數學來量化這種「猶豫」呢?

這就要從資訊理論中最經典的概念 —— Shannon Entropy 說起。

AI 生成文字是一字一字(Token by Token)吐出來的。在每一個字生成時,模型其實都在心裡計算一張「機率表」。

Entropy (熵) 在資訊理論中,是用來衡量一個系統的「不確定性」或「混亂程度」。

其公式如下:

Hi=jPi(j)logPi(j) H_i = - \sum_{j} P_i(j) \log P_i(j)

其中 Pi(j)P_i(j) 代表模型預測下一個字是 jj 的機率。

這個公式可能看起來很抽象,讓我們用兩個生活化的例子來對比,你就能瞬間理解為什麼「低 Entropy = 高信心」:

  • 情境 A: 高信心 (Low Entropy, High Peak) 假設模型正在填空: 「法國的首都是 [?]」。 模型非常有把握,它腦中的機率分佈可能長這樣:

    • “Paris”: 99%
    • “London”: 0.5%
    • 其他: 0.5%

    這時候,機率分佈圖會出現一個巨大的尖峰 (Peak)。因為大部分機率都集中在一個選項上,不確定性極低,算出來的 Entropy 數值會非常接近 0

    結論: Entropy 越低 \rightarrow 機率分佈越尖銳 \rightarrow 模型越有信心。

  • 情境 B: 低信心(High Entropy, Flat Distribution) 假設模型正在填空: 「今天晚餐我想吃 [?]」。 模型覺得什麼都有可能,很猶豫:

    • “漢堡”: 10%
    • “披薩”: 10%
    • “壽司”: 10%
    • … (大家都差不多)

    這時候,機率分佈圖會是一條平坦的線 (Flat)。機率分散,不確定性很高,算出來的 Entropy 數值會很

    結論: Entropy 越高 \rightarrow 機率分佈越平坦 \rightarrow 模型越猶豫/沒信心。

雖然 Entropy 是衡量信心的黃金標準,但在實際工程上它有個缺點: 計算太慢。要算出精確的 Entropy,我們得把字典裡幾萬個字的機率全部加總。

為了追求極致的速度,論文設計了一個替代指標 Token Confidence,只看機率最高的 kk 個字 (例如 Top-20):

Ci=1kj=1klogPi(j) C_i = - \frac{1}{k} \sum_{j=1}^{k} \log P_i(j)

這個指標巧妙地利用了數學轉換:

  • 當模型很有信心時 (像情境 A),競爭對手的機率極低 (趨近於 0),取 Log 後會變成很大的負數,再取平均並加負號,會得到一個很大的正數
  • 當模型沒信心時 (像情境 B),大家機率都差不多,Log 值不會太負,最後得到一個較小的正數
重點筆記
在這個定義下: Token Confidence 數值越高 \uparrow = 模型信心越高。 這與 Entropy 剛好相反 (Entropy 是越低越有信心),但物理意義是一致的。這樣做的好處是計算速度極快,幾乎不影響生成時間。

有了單個字的信心還不夠,我們要評估整串推理過程 (Reasoning Trace) 的好壞。

最直觀的做法是算整段話的平均信心。但这有個致命傷: 高分會掩蓋低分。 想像一段 100 步的推理,其中 95 步都是廢話 (信心很高),只有關鍵的 5 步邏輯錯了 (信心很低)。如果取平均,整段看起來還是高分,但答案卻是錯的。

DeepConf 引入了 滑動視窗 (Sliding Window) 的概念。它不是看整體的平均,而是拿著放大鏡,一段一段地(例如每 1024 個 Token 一組)檢查信心。

CGi=1GitGiCt C_{G_i} = \frac{1}{|G_i|} \sum_{t \in G_i} C_t

這樣做有兩個好處:

  1. 平滑化: 過濾掉單個字的雜訊。
  2. 捕捉局部崩潰: 這最重要!一旦推理過程中出現一段「語無倫次」或「邏輯卡頓」,那一個區間的 Group Confidence 就會驟降。
圖解不同的信心測量方式。可以看到 Lowest Group 能精準抓到信心崩潰的瞬間。

有了 Group Confidence,我們如何給整條路徑打最終分數? 論文提出了三個指標,運用了木桶理論 (水桶能裝多少水,取決於最短的那塊木板):

  1. Lowest Group Confidence (最低分組信心): 找出整條路徑中分數最低的那一段,當作這條路徑的成績。只要有一段邏輯崩潰,整條路徑就不及格。
  2. Bottom 10% Group Confidence: 找出表現最差的 10% 片段取平均。這比只看最低分更穩健一點,避免被單一極端值誤導。
  3. Tail Confidence (結尾信心): 只看推理過程的最後一段。因為推理通常越後面越難,如果結尾很穩,通常代表前面推導得不錯。

了解了如何打分數後,DeepConf 究竟是如何應用的?論文提出了兩種截然不同的場景。

在這個場景下,假設我們不計成本,已經讓模型生成了 100 條完整的解答路徑。我們的任務是: 在這 100 條路徑中,怎麼選出最正確的答案?

DeepConf 在這裡做了兩層優化:

Step 1: 信心過濾 (Confidence Filtering) —— 去蕪存菁 我們不再讓所有路徑都參與投票。我們先計算每條路徑的信心分數 (例如用 Bottom-10%),然後進行篩選。論文提出了兩種策略:

  • 菁英策略 (Top 10%): 只留下分數最高的 10 條路徑,把剩下 90 條丟進垃圾桶。這種做法假設「真理掌握在少數人手中」。
  • 大眾策略 (Top 90%): 只剔除分數最低的 10%「垃圾」,保留大部分路徑。這種做法比較穩健。

Step 2: 加權投票 (Weighted Majority Voting) —— 專家話語權 剩下的路徑進行投票時,不再是一人一票。

V(a)=tTCtI(answer(t)=a) V(a) = \sum_{t \in T} C_t \cdot I(\text{answer}(t) = a)
  • 如果一條路徑信心很高(例如 0.9 分),它投給答案 A,那答案 A 就得 0.9 分。
  • 如果一條路徑信心很低(例如 0.2 分),它投給答案 B,那答案 B 只得 0.2 分。 最終,得分最高的答案勝出。這確保了高品質的推理能主導最終結果。

這是這篇論文最精華、最能幫公司省錢的部分! 在這個場景下,我們一邊生成,一邊檢查。目標是: 一旦發現學生 (模型) 開始亂寫,馬上把考卷收走 (停止生成),不要浪費時間。

這個流程稍微複雜一點,我們把它拆解成三個步驟:

Step 1: 熱身 (Offline Warmup) —— 設定「及格線」 在正式開始前,我們先讓模型生成一小批完整的路徑 (例如 16 條)。

  • 我們計算這 16 條路徑的信心分數。
  • 假設我們要保留 Top 10% 的水準,我們就看這 16 條裡面的前 10% 分數是多少 (例如 0.8 分)。
  • 這個 0.8 分 就變成了接下來所有路徑的生死門檻 (Threshold ss)

Step 2: 線上處決 (The Kill Switch) —— 即時止損 接著開始大規模生成。在每一條路徑生成的過程中,系統會持續計算當前的 Group Confidence

  • 還記得 Group Confidence 是一個滑動視窗嗎?每生成一個字,我們都在算分數。
  • 關鍵邏輯: 如果現在這一小段的分數已經低於門檻 ss(例如掉到 0.4 分),我們就可以斷定這條路徑最終的 Lowest Score 絕對不會高於 0.4。
  • 行動: 既然這條路徑注定不及格,系統會立刻切斷生成 (Early Stop)
  • 效益: 這條路徑可能原本要寫 1000 個字,我們在第 200 字就殺掉它,直接省下了 800 個字的運算費!

Step 3: 自適應採樣 (Adaptive Sampling) —— 見好就收 我們還需要知道「什麼時候該停止生成新的路徑」。

  • 每生成完一條有效路徑,我們就更新一次投票結果。
  • 如果發現某個答案的得票率已經超過 95%(共識很高),代表大家意見一致,勝負已定。
  • 這時,我們就停止整個任務,輸出答案。不需要為了湊滿 100 條而繼續浪費錢。
Online Thinking 流程圖: 紅色叉叉代表被提早終止的路徑。透過這種機制,DeepConf 能過濾掉無效運算,極大化效率。

DeepConf 的效果如何?論文在 AIME (數學競賽)、GPQA (研究生等級科學問答) 等高難度資料集上進行了測試,結果令人驚艷。

在離線測試中,研究發現,如果我們丟掉 90% 的低信心路徑,只讓剩下 10% 的菁英進行投票,準確率往往比讓所有人投票還要高。

  • 例如 DeepSeek-8B 在 AIME24 上,傳統投票準確率 86.7%,使用 DeepConf 篩選後提升至 93.3%。這證明了低信心的路徑大多是雜訊。
離線評估結果: 可以看到經過信心篩選(尤其是 Bottom-10%),準確率普遍高於傳統多數決 (Cons@512)。

在線上測試中,DeepConf 展現了極致的效率。

  • DeepConf-low (激進省錢版): 在某些任務上,能節省高達 84.7% 的 Token,同時準確率還能持平甚至提升!這意味著原本要跑 10 小時的任務,現在可能 2 小時就跑完了。
  • DeepConf-high (保守穩健版): 在幾乎不犧牲任何準確率的情況下,穩定節省 20%~50% 的成本。
線上評估結果: 注意看 Token (Δ%) 這一欄,負值代表節省的比例,數字非常驚人。

實驗數據也證實,使用 Bottom-10%Tail 這種關注「局部」和「短板」的指標,其分辨好壞的能力優於單純看整體的平均值。這驗證了「一條錯誤的推理往往源自於某個片段的崩潰」這一假設。

Deep Think with Confidence (DeepConf) 並不是要訓練一個更強大的新模型,而是教導我們如何更聰明地使用現有的模型

透過簡單的信心監控機制,DeepConf 成功解決了平行思維 (Parallel Thinking) 高昂成本的問題。它告訴我們:

  1. AI 是有「自知之明」的,它知道自己什麼時候在瞎掰。
  2. 與其讓 AI 盲目地生成大量文字,不如在它猶豫不決時即時喊卡
  3. 這種「去蕪存菁」的過程,不僅省下了巨額的運算成本,往往還能讓最終的答案更加精準。

對於未來的 AI 應用開發者來說,這篇論文提供了一個極具價值的思路: 高品質的推理,不在於想得多,而在於想得「精」且「穩」。