中国投资网快讯 Together AI 发布 RedPajama v2：包含 30 万亿 token 数据集，用于大模型训练

Together AI 发布 RedPajama v2：包含 30 万亿 token 数据集，用于大模型训练

作者: hao333 发布:2023-11-06 14:19:34 8420阅读 9063评论

据站长之家 11 月 6 日报道，AI 初创公司 Together AI 发布 RedPajama v2，这是一个包含 30 万亿 token 的数据集，旨在支持大型语言模型的研究和开发。研究人员从 CommonCrawl 和其他公开可用的网络数据中提取了原始文本数据，其中包括 40 多个质量注释和去重集群。他们计划扩展这些注释，以包括与常用 LLM 基准的比较、主题建模和分类注释等内容，以促进更深入的研究。据悉，RedPajama v2 的数据集还经过最小处理，以保持尽可能多的原始数据，并让模型构建者在后续处理中进行过滤和重新加权。

本文来自网络，不代表本站立场，转载请注明出处：https://news9.com.cn/n/a54860.html

1864赞

Together,AI,发布,RedPajama,v2：包含,30,万亿,token,数据集，用于大模型训练

中国投资网后续将为您提供丰富、全面的关于Together,AI,发布,RedPajama,v2：包含,30,万亿,token,数据集，用于大模型训练内容，让您第一时间了解到关于Together,AI,发布,RedPajama,v2：包含,30,万亿,token,数据集，用于大模型训练的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。

Together,AI,发布,RedPajama,v2：包含,30,万亿,token,数据集，用于大模型训练

相关文章