機器之心專欄
機器之心編纂部
2022 年底,隨著 ChatGPT 的爆火,人類正式進入了大模子年代。但是,練習大模子必要的時空斲喪仍然居高不下,給大模子的普及和提高帶來了宏大困難。面臨這一挑唆,原先在盤算機視覺范疇盛行的 LoRA 武藝告捷轉型大模子 [1][2],帶來了接近 2 倍的時間增速和實際最高 8 倍的空間緊縮,將微調武藝帶進千家萬戶。
但 LoRA 武藝仍存在一定的挑唆。一是 LoRA 武藝在很多職責上還沒有凌駕正常的全參數微調 [2][3][4],二是 LoRA 的實際實質分析比力困難,給其進一步的研討帶來了攔阻。
UIUC 團結 LMFlow 團隊成員對 LoRA 的實行實質舉行了分析,不測發覺 LoRA 十分側重 LLM 的底層和頂層的權重。使用這一特性,LMFlow 團隊提出一個極度簡便的算法:Layerwise Importance Sampled AdamW(LISA)。
LISA 先容
LISA 算法的中心在于:
- 一直更新底層 embedding 和頂層 linear head;
- 隨機更新少數正中的 self-attention 層,好比 2-4 層。
出乎意料的是,實行發覺該算法在指令微調職責上凌駕 LoRA 乃至全參數微調。
更緊張的是,其空間斲喪和 LoRA 相當乃至更低。70B 的總空間斲喪低落到了 80G*4,而 7B 則直接降到了單卡 24G 以下!
進一步的,由于 LISA 每次正中只會激活一小局部參數,算法對更深的網絡,以及梯度反省點武藝(Gradient Checkpointing)也很友好,可以帶來更大的空間節流。
在指令微調職責上,LISA 的收斂實質比 LoRA 有很大提升,到達了全參數調治的水平。
并且,由于不必要像 LoRA 一樣引入分外的 adapter 布局,LISA 的盤算量小于 LoRA,速率比 LoRA 快將近 50%。
實際實質上,LISA 也比 LoRA 更容易分析,Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等現有優化范疇的數學東西都可以用于分析 LISA 及其變種的收斂實質。
一鍵使用 LISA
為了奉獻大模子開源社區,LMFlow 現已集成 LISA,安裝完成后只需一條指令就可以使用 LISA 舉行微調:
假如必要進一步變小大模子微調的空間斲喪,LMFlow 也以前支持一系列最新武藝:
假如在使用歷程中遇就職何成績,可經過 github issue 或 github 主頁的微信群接洽作者團隊。LMFlow 將持續維護并集成最新武藝。
總結
在大模子比賽的趨向下,LMFlow 中的 LISA 為一切人提供了 LoRA 以外的第二個選項,讓大大多平凡玩家可以經過這些武藝到場到這場使用和研討大模子的海潮中來。正如團隊標語所表達的:讓每一局部都能訓得起大模子(Large Language Model for All)。
[1] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 2022.
[2] Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." Advances in Neural Information Processing Systems 36 (2024).
[3] Ding, Ning, et al. "Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models." arXiv preprint arXiv:2203.06904 (2022).
[4] Lialin, Vladislav, et al. "Stack more layers differently: High-rank training through low-rank updates." arXiv preprint arXiv:2307.05695 (2023).
版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除
原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/wangluozixun/45187.html