Home avatar

[論文介紹] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

深入解析紐約大學2024年6月發表的 Cambrian-1 論文。這項開源研究以「視覺為中心」,全面探討多模態大型語言模型 (VLM) 的視覺表徵、連接器設計、訓練策略與數據集,旨在真正提升模型的視覺理解能力,並開源了 Cambrian-1 模型、CV-Bench 基準測試及 Cambrian-7M 資料集。

[論文介紹] Better & Faster Large Language Models via Multi-token Prediction

本篇文章中我們介紹了 Meta 最新發表以及開源的 Multi-Token Prediction Model,有別於目前絕大多數的 LLM 都是以 Next-Token Prediction 的方式進行訓練,Meta 發現對於 3B 以上的 LLM 透過 Multi-Token Prediction Task 來訓練,反而能夠提升模型的表現。此外,在本文中我們也詳細介紹了 Multi-Token Prediction Model 的架構,以及如何透過 Sequential Prediction 的方式來減少 GPU Memory 的用量。