深入解析紐約大學2024年6月發表的 Cambrian-1 論文。這項開源研究以「視覺為中心」,全面探討多模態大型語言模型 (VLM) 的視覺表徵、連接器設計、訓練策略與數據集,旨在真正提升模型的視覺理解能力,並開源了 Cambrian-1 模型、CV-Bench 基準測試及 Cambrian-7M 資料集。
本篇文章中我們介紹了 Meta 最新發表以及開源的 Multi-Token Prediction Model,有別於目前絕大多數的 LLM 都是以 Next-Token Prediction 的方式進行訓練,Meta 發現對於 3B 以上的 LLM 透過 Multi-Token Prediction Task 來訓練,反而能夠提升模型的表現。此外,在本文中我們也詳細介紹了 Multi-Token Prediction Model 的架構,以及如何透過 Sequential Prediction 的方式來減少 GPU Memory 的用量。
本篇文章介紹 ICLR 2024 的 Tuning LayerNorm in Attention,理解如何只單純 Finetune Attention Block 中的 LayerNorm Layer,也可以把 LLM 訓練成很強的 MLLM。
為何連 GPT-4 這種頂尖 AI,都難以處理人類眼中的簡單任務?快來一探究竟由 AI 巨頭 Yann LeCun 團隊提出的 GAIA 評測,了解它如何跳脫傳統框架,定義一個真正「通用 AI 助理」所需具備的能力!
想了解 LLM 多智能體(Multi-Agent)?本文帶你讀懂 ICLR 2024 論文 ChatEval,解析其如何透過多個具備不同人設(Persona)的智能體辯論來完成評估任務。一篇絕佳的 Multi-Agent 入門介紹。
深入解析 Meta 發表的 Branch-Train-MiX (BTX) 論文。本文將帶您了解如何透過專家混合模型 (MoE) 技術,將多個領域專家 LLM 整合為單一強大模型,有效解決分散式訓練的效能瓶頸,並避免災難性遺忘問題。
探索 Google 發表的 Sparse Upcycling 技術,了解如何將已訓練好的 Dense AI 模型升級為高效的 Mixture-of-Experts (MoE) 模型。本文教你如何用更低的訓練成本,進一步提升模型表現,並避免從零開始訓練的耗時過程。