中国投资网 快讯 Together AI 发布 RedPajama v2:包含 30 万亿 token 数据集,用于大模型训练

Together AI 发布 RedPajama v2:包含 30 万亿 token 数据集,用于大模型训练

据站长之家 11 月 6 日报道,AI 初创公司 Together AI 发布 RedPajama v2,这是一个包含 30 万亿 token 的数据集,旨在支持大型语言模型的研究和开发。 研究人员从 CommonCrawl 和其他公开可用的网络数据中提取了原始文本数据,其中包括 40 多个质量注释和去重集群。他们计划扩展这些注释,以包括与常用 LLM 基准的比较、主题建模和分类注释等内容,以促进更深入的研究。据悉,RedPajama v2 的数据集还经过最小处理,以保持尽可能多的原始数据,并让模型构建者在后续处理中进行过滤和重新加权。

本文来自网络,不代表本站立场,转载请注明出处:https://news9.com.cn/n/a54860.html

Together,AI,发布,RedPajama,v2:包含,30,万亿,token,数据集,用于大模型训练

中国投资网后续将为您提供丰富、全面的关于Together,AI,发布,RedPajama,v2:包含,30,万亿,token,数据集,用于大模型训练内容,让您第一时间了解到关于Together,AI,发布,RedPajama,v2:包含,30,万亿,token,数据集,用于大模型训练的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。