据站长之家 11 月 6 日报道,AI 初创公司 Together AI 发布 RedPajama v2,这是一个包含 30 万亿 token 的数据集,旨在支持大型语言模型的研究和开发。 研究人员从 CommonCrawl 和其他公开可用的网络数据中提取了原始文本数据,其中包括 40 多个质量注释和去重集群。他们计划扩展这些注释,以包括与常用 LLM 基准的比较、主题建模和分类注释等内容,以促进更深入的研究。据悉,RedPajama v2 的数据集还经过最小处理,以保持尽可能多的原始数据,并让模型构建者在后续处理中进行过滤和重新加权。
Together AI 发布 RedPajama v2:包含 30 万亿 token 数据集,用于大模型训练
本文来自网络,不代表本站立场,转载请注明出处:https://news9.com.cn/n/a54860.html