最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

TRL 正式推出,來訓練你的首個 RLHF 模型吧!

2023-08-10 23:35 作者:HuggingFace  | 我要投稿


正式向大家介紹 TRL——Transformer Reinforcement Learning。這是一個超全面的全棧庫,包含了一整套工具用于使用強化學習 (Reinforcement Learning) 訓練 transformer 語言模型。從監(jiān)督調(diào)優(yōu) (Supervised Fine-tuning step, SFT),到訓練獎勵模型 (Reward Modeling),再到近端策略優(yōu)化 (Proximal Policy Optimization),實現(xiàn)了全面覆蓋!并且 TRL 庫已經(jīng)與 ?? transformers 集成,方便你直接使用!

?? 文檔地址在這里 https://hf.co/docs/trl/

小編帶大家簡單看看 API 文檔里各個部分對應(yīng)了什么需求:

  • Model Class: 涵蓋了每個公開模型各自用途的概述

  • SFTTrainer: 幫助你使用 SFTTrainer 實現(xiàn)模型監(jiān)督調(diào)優(yōu)

  • RewardTrainer: 幫助你使用 RewardTrainer 訓練獎勵模型

  • PPOTrainer: 使用 PPO 算法進一步對經(jīng)過監(jiān)督調(diào)優(yōu)的模型再調(diào)優(yōu)

  • Best-of-N Samppling: 將“拔萃法”作為從模型的預測中采樣的替代方法

  • DPOTrainer: 幫助你使用 DPOTrainer 完成直接偏好優(yōu)化

文檔中還給出了幾個例子供 ?? 寶子們參考:

  • Sentiment Tuning: 調(diào)優(yōu)模型以生成更積極的電影內(nèi)容

  • Training with PEFT: 執(zhí)行由 PEFT 適配器優(yōu)化內(nèi)存效率的 RLHF 訓練

  • Detoxifying LLMs: 通過 RLHF 為模型解毒,使其更符合人類的價值觀

  • StackLlama: 在 Stack exchange 數(shù)據(jù)集上實現(xiàn)端到端 RLHF 訓練一個 Llama 模型

  • Multi-Adapter Training: 使用單一模型和多適配器實現(xiàn)優(yōu)化內(nèi)存效率的端到端訓練

?? 寶子們快行動起來,訓練你的第一個 RLHF 模型吧!https://github.com/huggingface/trl


TRL 正式推出,來訓練你的首個 RLHF 模型吧!的評論 (共 條)

分享到微博請遵守國家法律
印江| 思茅市| 德钦县| 慈溪市| 鄂伦春自治旗| 定襄县| 宁都县| 彭山县| 乳源| 东辽县| 平顶山市| 于都县| 上蔡县| 吉林省| 鄂托克旗| 青浦区| 台东县| 房产| 贺兰县| 五峰| 龙口市| 大化| 孝义市| 修水县| 永和县| 青海省| 五常市| 宁陕县| 石棉县| 满城县| 平昌县| 贵德县| 虎林市| 秦安县| 久治县| 灌阳县| 靖安县| 利川市| 清镇市| 朝阳市| 天水市|