Home avatar

ACL 2025 | 超越 Self-Consistency!CER 論文解析:無需訓練,靠「過程自信度」激發 Llama 3 與 DeepSeek 推理潛能

深入解析 ACL 2025 重磅論文 CER (Confidence Enhanced Reasoning),這項無需訓練 (Training-free) 的技術透過分析「推理過程自信度」並過濾 Logits 雜訊,顯著提升 Llama 3 與 DeepSeek-R1 的數學及問答準確率。了解 CER 如何克服 Self-Consistency 的缺陷,成為優化 LLM 推理能力的最佳輕量化方案。

RLHF 讓模型變無聊?揭秘「典型性偏差」與 Verbalized Sampling 如何喚醒 LLM 潛在的創造力

透過 Verbalized Sampling (VS) 解鎖 LLM 的創造力。本文深入解析 RLHF 導致模型發生「模式坍縮」的數學原理(典型性偏差),並提供一種無需訓練的 Prompting 策略,能有效提升模型輸出的多樣性並優化合成數據生成的效果。

拒絕 AI 一本正經胡說八道!DeepConf 論文解析:如何利用「信心分數」優化推理並大幅節省 Token?

探索 Meta AI 與 UCSD 最新發表的 DeepConf 技術!本文深入解析如何讓大型語言模型 (LLM) 具備「信心感知」能力,在推理過程中自動識別並終止低品質的思考路徑。了解 DeepConf 如何在不犧牲準確率的前提下,解決平行思維 (Parallel Thinking) 成本過高的問題,並大幅節省 Token 消耗,是 AI 開發者優化模型效能的必讀指南。

不微調、不靠 GPT-4!微軟 rStar 如何透過 MCTS 讓 LLaMA2-7B 數學能力暴增 5 倍? (ICLR 2025)

深入解析微軟亞洲研究院 rStar 論文 (ICLR 2025):探索如何結合蒙地卡羅樹搜索 (MCTS) 與互助推理 (Mutual Reasoning) 機制。了解此方法如何在不微調、不依賴 GPT-4 的情況下,讓 LLaMA2-7B 等小模型在 GSM8K 上的準確率從 12% 暴增至 63%,解鎖小模型的深層推理潛力。