中国投资网快讯字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA，可解读视频内容

字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA，可解读视频内容

作者: hao333 发布:2024-01-08 18:07:08 2508阅读 2927评论

据站长之家 1 月 8 日报道，字节跳动与浙江大学合作推出了多模态大语言模型 Vista-LLaMA，该模型专为视频内容理解而设计，能够输出高质量视频描述。通过创新的视觉与语言 token 处理方式，Vista-LLaMA 解决了在视频内容中出现“幻觉”现象的问题。 Vista-LLaMA 在多个开放式视频问答基准测试中表现卓越，尤其在 NExT-QA 和 MSRVTT-QA 测试中取得了突破性成绩。其在零样本 NExT-QA 测试中实现了 60.7% 的准确率，在 MSRVTT-QA 测试中达到了 60.5% 的准确率，超过了目前所有的 SOTA 方法。这些结果证明了 Vista-LLaMA 在视频内容理解和描述生成方面的高效性和精准性。

本文来自网络，不代表本站立场，转载请注明出处：https://news9.com.cn/n/a91993.html

2284赞

字节跳动与浙大联合推多模态大语言模型,Vista-LLaMA，可解读视频内容

中国投资网后续将为您提供丰富、全面的关于字节跳动与浙大联合推多模态大语言模型,Vista-LLaMA，可解读视频内容内容，让您第一时间了解到关于字节跳动与浙大联合推多模态大语言模型,Vista-LLaMA，可解读视频内容的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。

字节跳动与浙大联合推多模态大语言模型,Vista-LLaMA，可解读视频内容

相关文章