這是用戶在 2025-7-1 18:45 為 https://36kr.com/p/3334839040813318 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

一句話生成任務專屬 LoRA,Transformer 作者創業公司顛覆 LLM 微調

量子位·2025 年 06 月 13 日 20:21
能夠動態調製大模型的超網路架構

告別繁瑣微調,一句話就能生成 LoRA?!

由 Transformer 作者之一 Llion Jones 聯合創立的明星 AI 公司 SakanaAI,近期推出 Text-to-LoRA (T2L),徹底簡化了模型適配流程:

現在,微調大模型時動輒數周的數據集準備、反覆調整超參數的複雜流程,可以省了。

使用 T2L 生成的 LoRA 在參數壓縮率上可達 80% 卻僅降 1.2% 準確率,零樣本場景下更以 78.3% 的平均準確率超越現有 SOTA 方法。

可以說,“一句話定製模型” 的時代正在開啟,非技術使用者不再需要學習複雜的微調知識,直接用通俗易懂的自然語言就可以完成相應工作。

有網友甚至把它比喻為 LLM 的一個只有文字描述的私人教練,將會徹底改變遊戲規則。

目前該論文已被 ICML2025 收錄。

詳細內容如下:

從文本到 LoRA

LLM 在執行特定任務前,都需要先進行適配的 LoRA 微調,為每個任務單獨訓練低秩矩陣,往往耗費大量計算資源和時間。

研究團隊從人類視覺系統中汲取靈感,即在有限的感官線索下可以實現環境快速適應,並由此構建了能夠動態調製大模型的超網路架構 Text-to-LoRA(T2L)。

T2L 包含 3 種架構變體,它們在輸出空間和參數規模上各有不同,具體為:

  • T2L-L:

為每個目標模組(如注意力層、MLP 層)和網路層生成完整的 LoRA 權重矩陣。

該架構的參數規模最大,但能靈活適配不同層的特性,適用於需要精細控制每層適配的場景。

  • T2L-M:

按模組類型(而非具體層)共用輸出空間。 對於同一類型的模組,超網路僅生成一組共用的 LoRA 矩陣,並應用於該類型下的所有層。

該架構通過參數共用減少了模型規模,同時保留了模組類型級別的適配能力,在參數效率和性能之間取得平衡。

  • T2L-S:

為整個模型生成統一的 LoRA 適配器,不區分模組類型和層索引。

該架構參數規模最小,適用於計算資源有限或任務需求較通用的場景,通過全域適配實現快速部署。

為了訓練 T2L 模型,可以採用兩種訓練模式,分別是基於 LoRA 的重建和跨多個任務的監督微調  (SFT)。

LoRA 重建的核心思想是讓 T2L 從任務的文本描述中,生成與真實 LoRA 適配器效果相近的參數,從而最大限度地減少生成適配器和目標適配器之間的重建損失。

這種方法避免了傳統方法中對大量任務數據的依賴,轉而利用已有的 LoRA 適配器和文本描述構建監督信號,壓縮了現有的 LoRAs,但難以進行零鏡頭泛化。

監督微調則是使用任務描述,在任務數據集上直接端到端訓練 T2L。 這改進了對未知任務的泛化,並能夠根據文本描述生成具有可引導行為的適配器。

針對 T2L 的適配器壓縮性能,團隊進行了實驗驗證。

通過設置 9 個不同的 NLP 任務,將一一對應的 LoRA 適配器參數壓縮為文本描述的嵌入向量,並通過 3 種 T2L 變體分別重建 LoRA 參數。

實驗發現,重建 LoRA 與原始 LoRA 相比,參數規模從 15.8M 下降為 3.2M,壓縮率達 80%,但在任務的平均準確率上僅下降了 1.2%,證明瞭壓縮過程中的知識保留能力。

其中,T2L-L 在壓縮后性能最接近原始 LoRA,而 T2L-S 壓縮率最高。

T2L 能夠實現高效的參數壓縮,可以極大地減少存儲需求,説明 LLM 在資源受限環境中進行部署。

團隊還進一步驗證了 T2L 在零樣本場景下生成 LoRA 適配器的能力。

構建了 12 個全新的 NLP 任務並各自提供自然語言描述,使用 T2L 生成的對應 LoRA 適配器直接應用於基礎模型,測試其在標註數據集上的性能。

結果表明,T2L 的平均準確率達到了 78.3%,顯著高於多任務 LoRA 的 65.1%,和目前最先進的零樣本 LoRA 路由方法 Arrow Routing 的 72.4%。

其中 T2L-L 因為能夠為不同層定製參數,在複雜任務中表現最佳,而 T2L-S 在簡單任務上效率更高,參數規模僅為 T2L-L 的五分之一,但性能僅下降 3.2%

源於超網路對 「文本語義 - 參數空間」 映射的顯式學習,T2L 實現了真正的文本驅動,無需任務數據即可通過自然語言描述生成有效 LoRA,這為模型快速適應長尾任務提供了可能。

Transformer 作者創業公司

背後的公司 Sakana AI,由前谷歌研究人員 Llion Jones 於 2023 年 7 月共同創立。

Llion Jones 是著名論文 《Attention Is All You Need》 的 8 位核心作者之一,論文中首次提出了 Transformer 架構 ,為現代 LLM 架構奠定了基石。

在谷歌工作期間,他還深度參與 NLP、模型架構創新等眾多核心 AI 專案,例如 Prot Trans、Tensor2Tensor 等。

而創辦 Sakana AI 後,他也始終致力於探索超越和補充當前 Transformer 範式的新路徑,例如他們在去年底推出了用於 Transformer 的新型神經記憶系統 NAMM,今年 1 月提出的 Transformer² 可以針對各種任務動態調整權重。

目前公司專注利用自然啟發的方法(如進化計算和集體智慧)來開發基礎模型,例如在今年 5 月他們根據達爾文進化論提出了達爾文哥德爾機  (DGM),可以讓 AI 通過讀取和修改自身代碼來提升編碼性能。

而本篇論文則由 Rujikorn Charakorn、Edoardo Cetin、Yujin Tang、Robert T. Lange 共同完成。

Rujikorn Charakorn 曾在朱拉隆功大學就讀,目前在 VISTEC 研究所攻讀博士學位,主要研究方向是深度強化學習、多智慧體學習和元學習。

Edoardo Cetin 於 2023 年獲得倫敦國王學院的博士學位,目前是 Sakana AI 的研究科學家,此前還曾在推特的 Cortex 團隊、豐田和高盛實習。

而 Yujin Tang 則博士畢業於東京大學,曾在谷歌工作長達 5 年,後來於 2024 年加入 Sakana AI。

Robert T. Lange 是 Sakana AI 的研究科學家和創始成員之一,致力於用基礎模型來增強和自動化科學發現過程。

他還主導參與了首個獨立生成學術論文的 “AI 科學家” 專案,還曾在社區引起廣泛熱議。

論文連結:https://arxiv.org/abs/2506.06105 代碼連結:https://github.com/SakanaAI/Text-to-Lora

參考連結:

[1]https://x.com/RobertTLange/status/1933074366603919638

[2]https://huggingface.co/SakanaAI/text-to-lora/tree/main

[3]https://x.com/tan51616/status/1932987022907670591

[4]https://x.com/SakanaAILabs/status/1932972420522230214

本文來自微信公眾號 “量子位”,作者:關注前沿科技,36 氪經授權發佈。

+1
89

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
36氪
36氪

下一篇

Transformer 八周年,Attention Is All You Need 被引破 18 萬封神 Transformer 已滿 8 歲,革命性論文《Attention Is All You Need》被引超 18 萬次,掀起生成式 AI 革命。

2025-06-13

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业