深入解析 RAFT 論文:如何針對特定領域 (Domain-Specific) RAG 訓練 LLM,讓語言模型結合外部文件與內部知識,大幅提升在專業領域的問答能力。
深入了解 Retrieval-Augmented Generation (RAG) 技術如何增強黑箱 LLM 的能力。本文詳解 NAACL 2024 論文 REPLUG,探索其在 Inference 和 Training 階段提升 LLM 回答品質的創新方法,有效減少幻覺現象。
深入探索 Python 的 Small Integer Cache 機制!了解 Python 如何透過預先配置 [-5, 256] 範圍內的整數物件以優化記憶體、提升執行效率。本文將搭配 id()、Reference Count 及 REPL 與檔案執行的差異進行說明
深入解析紐約大學2024年6月發表的 Cambrian-1 論文。這項開源研究以「視覺為中心」,全面探討多模態大型語言模型 (VLM) 的視覺表徵、連接器設計、訓練策略與數據集,旨在真正提升模型的視覺理解能力,並開源了 Cambrian-1 模型、CV-Bench 基準測試及 Cambrian-7M 資料集。
本篇文章中我們介紹了 Meta 最新發表以及開源的 Multi-Token Prediction Model,有別於目前絕大多數的 LLM 都是以 Next-Token Prediction 的方式進行訓練,Meta 發現對於 3B 以上的 LLM 透過 Multi-Token Prediction Task 來訓練,反而能夠提升模型的表現。此外,在本文中我們也詳細介紹了 Multi-Token Prediction Model 的架構,以及如何透過 Sequential Prediction 的方式來減少 GPU Memory 的用量。
本篇文章介紹 ICLR 2024 的 Tuning LayerNorm in Attention,理解如何只單純 Finetune Attention Block 中的 LayerNorm Layer,也可以把 LLM 訓練成很強的 MLLM。
為何連 GPT-4 這種頂尖 AI,都難以處理人類眼中的簡單任務?快來一探究竟由 AI 巨頭 Yann LeCun 團隊提出的 GAIA 評測,了解它如何跳脫傳統框架,定義一個真正「通用 AI 助理」所需具備的能力!