30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯了

前沿科技 3年前 (2022) 虛像

機器之心報道

編輯：澤南、小舟

不增加算力需求，谷歌總結的指令微調方法能讓 8000 萬到 5400 億參數的模型都顯著提升性能。

人工智能一個重要的目標是開發泛化能力強的模型。在自然語言處理（NLP）領域中，預訓練語言模型在這方面取得了重大進展。這類模型往往通過微調來適應新的任務。

近日，來自谷歌的研究者分析了多種指令微調方法，包括擴展對指令微調的影響。實驗表明，指令微調確實可以根據任務數量和模型大小實現良好的擴展，最大到 5400 億參數的模型都能明顯受益，未來的研究應該進一步擴大任務的數量和模型的大小。此外，該研究還分析了微調對模型執行推理能力的影響，結果都是很吸引人的。

由此產生的 Flan-T5 對 1800 余種語言任務進行了指令微調，明顯提高了提示和多步推理能力，30 億參數跑基準就能超過 GPT-3 的 1750 億參數。

30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯了

看起來谷歌又為大模型找到了一個能力提升的方向。不過這一研究不僅引來了機器學習社區的歡迎，也有 Gary Marcus 的吐槽：

谷歌的模型為什么把谷歌自己的著名科學家 Geoffrey Hinton 的出生日期搞錯了？人家明明是 1947 年出生的老前輩。

論文作者之一的谷歌大腦首席科學家 Quoc Le 趕緊出來圓場：是臨時工圖片做錯了，在論文里 Flan-T5 模型其實沒有把 Geoff 的出生年月搞錯，有圖為證。

順便說一句，出生于 1963 年的著名 AI 學者是 Jürgen Schmidhuber。

既然出錯的不是 AI 模型，讓我們看看谷歌的新方法究竟能夠為預訓練模型帶來哪些改變吧。

論文：Scaling Instruction-Finetuned Language Models

論文地址：https://arxiv.org/abs/2210.11416

公開模型：https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

該研究使用 540B 參數模型訓練 Flan-PaLM，將微調任務的數量增加到 1800 個以上，并包含思維鏈（CoT；Wei et al., 2022b）數據。經過訓練后的 Flan-PaLM 優于 PaLM，在多個基準測試中達到了新的 SOTA。在推理能力方面，Flan-PaLM 能夠利用 CoT 和自洽性（self-consistency；Wang et al., 2022c）在大規模多任務語言理解（MMLU; Hendrycks et al., 2020）上實現 75.2% 的準確率。

此外，在一組具有挑戰性的開放式生成問題上，Flan-PaLM 的表現明顯優于 PaLM，可用性大幅提高。

總體而言，谷歌的這項研究闡明了使用指令微調來提高模型性能的具體方法。

方法

具體來說，該研究主要關注影響指令微調的幾個方面，包括：（1）擴展任務數量，（2）擴展模型大小，以及（3）對思維鏈數據進行微調。

該研究發現具有上述方面的指令微調顯著改進了各種模型類（PaLM、T5、U-PaLM）、prompting 設置（零樣本、少樣本、CoT）和評估基準（MMLU、BBH、 TyDiQA、MGSM、開放式生成）。例如，在 1.8K 任務上進行指令微調的 Flan-PaLM 540B 大大優于 PALM 540B（平均 + 9.4%）。Flan-PaLM 540B 在幾個基準測試中實現了最先進的性能，例如在五次 MMLU 上達到 75.2%。

研究者還公開了 Flan-T5 檢查點，即使與更大的模型（例如 PaLM 62B）相比，它也能實現強大的少樣本性能。總體而言，指令微調是提高預訓練語言模型的性能和可用性的通用方法。

圖 1. 研究人員在 1800 余個任務中對各種語言模型進行了微調，在有 / 缺乏樣本（零樣本和少樣本）以及有 / 沒有思維鏈的情況下進行微調，從而能夠在一系列評估場景中進行泛化。

圖 2. 微調數據包括 473 個數據集、146 個任務類別和共計 1836 個任務。

在數據微調和程序微調過程完成后，研究者根據模型大小對任務的性能來對比規模擴展的影響。首先，對于所有三種模型大小，多任務指令微調與沒有微調相比性能有很大提高，增益范圍從 9.4% 到 15.5%。其次，增加微調任務的數量可以提高性能。

最后，我們可以看到將模型規模增加一個數量級（8B → 62B 或 62B → 540B）可以明顯提高微調和未微調模型的性能。

多任務指令微調相對于模型大小（參數量）和微調任務數量及規模擴展對準確率的影響。

增加微調數據中的任務數量可以提高 Flan-PaLM 在大多數評估基準上的性能。

研究人員證明了在微調混合中包含九個帶有思維鏈 ( CoT ) 注釋的數據集可以提高推理能力。下表顯示 Flan-PaLM 的 CoT 提示能力在四個保留的評估基準上優于 PaLM。

該研究發現對 CoT 數據進行指令微調的另外一個好處是可以實現零樣本（zero-shot）推理，模型在沒有針對 CoT 的少量樣本的情況下就自行產生了推理能力，這可能需要大量工程調教才能正確實現。

圖 6：PaLM 和 Flan-PaLM 在一組 23 個具有挑戰性的 BIG-Bench 任務 ( BBH ) 上的 zero-shot 性能。Flan-PaLM 需要通過「讓我們一步一步思考」指令激活的思想鏈 ( CoT ) 生成。

為了展示新方法的通用性，谷歌訓練了 T5、PaLM 和 U-PaLM，涵蓋了從 8000 萬到 5400 億參數的模型體量范圍，發現所有模型都能大幅提升性能。

表 5. 指令微調 ( Flan ) 在其他持續預訓練方法之上提高了性能。

經過測試，指令微調大大提高了所有模型類型的歸一化平均性能，與非微調模型相比，T5 模型從指令微調中受益最多。這些結果對于某些基準測試來說是相當強的——例如，Flan-T5-XL 只有 30 億參數，就達到了 47.6% 的 MMLU 分數，超過了 GPT-3 1750 億參數的 43.9% 分數。

除了 NLP 基準之外，語言模型還能夠為開放式問題請求生成長格式答案。在這一方面，標準的 NLP 基準和用于評估它們的自動指標不足以衡量人類的偏好。研究人員對此進行了評估，創建了一個包含 190 個示例的評估集。該評估集包括以零樣本方式向模型提出的問題，涉及五個具有挑戰性的類別，每個類別 20 個問題：創造力、上下文推理、復雜推理、計劃和解釋。

對于其中的 60 個示例（來自復雜的推理、計劃和解釋類別），該研究創建了一個帶有思維鏈觸發短語（例如，「讓我們一步一步思考」）的變體，作為微調是否進行的另一個評估在 CoT 上啟用 zero-shot。除了上述 160 個零樣本輸入之外，研究中還包括 30 個用于測試少樣本能力的輸入，這些沒有指令微調的強語言模型已被證明在這些方面表現良好。

研究人員認為，指令微調和規模擴展均可以持續提升大語言模型性能，而微調對于推理能力至關重要，其還能泛化模型能力。通過指令微調與其他模型適應技術（例如 UL2R）結合，谷歌在這項工作中提出了最強模型 Flan-U-PaLM。

重要的是，指令微調并不像模型規模擴展一樣會大幅增加計算成本，例如對于 PaLM 540B，指令微調只需要 0.2% 的預訓練計算，但卻可以將跨評估基準的歸一化平均值提高 9.4%。使用指令微調的小型模型有時可以勝過沒有微調的大模型。

出于這些原因，研究人員建議對幾乎所有預訓練的語言模型都進行指令微調。

原文地址：http://www.myzaker.com/article/63541a748e9f090dee776cae

abs ai nlp 人工智能谷歌

版權聲明：虛像發表于 2022年10月24日 am8:36。
轉載請注明：30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯了 | 快導航網

亚洲婷婷免费_区一区二区三区中文字幕_欧美做受高潮电影o_日韩av电影免费在线_国产精品麻豆入口_无码国产精品96久久久久_99热在线免费_成人性生交大片免费看午夜_成人高清av_欧美三级免费

30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯了

Copilot要攤官司了！工作20年老程序員重新激活律師證，發起集體訴訟，還喊網友加入

培養皿里的神經細胞會打電子小球嗎？

相關文章

熱門文章

最新資訊

熱門網址

熱門標簽

亚洲婷婷免费_区一区二区三区中文字幕_欧美做受高潮电影o_日韩av电影免费在线_国产精品麻豆入口_无码国产精品96久久久久_99热在线免费_成人性生交大片免费看午夜_成人高清av_欧美三级免费

30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯了

Copilot要攤官司了！工作20年老程序員重新激活律師證，發起集體訴訟，還喊網友加入

培養皿里的神經細胞會打電子小球嗎？

相關文章

熱門文章

最新資訊

熱門網址

熱門標簽

運營相關

軟件下載

跨境電商

購物網站

設計相關

行業企業

自媒體相關

網絡科技

編程幫手

綜合其他

站長助手

知識充能

電商運營

生活服務

榜單排名

服務生活

日常生活

新聞媒體

教育文化

政府組織

探索發現

影視工具

影視基地

工具大全

學術資源

學習教育

娛樂生活

發現資源

醫療健康

興趣愛好

元宇宙

體育健身

休閑娛樂

交通旅游

NFT概念

ACG