为了确保Llama 3接受最高质量数据的训练 , 研究团队开发了一系列数据过滤pipeline,包括使用启发式过滤器(filter)、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量 。
研究团队发现前几代Llama非常擅长识别高质量数据 , 因此Meta使用Llama 2为给Llama 3提供支持的文本质量分类器生成训练数据 。
研究团队还进行了广泛的实验,以评估出在最终预训练数据集中不同来源数据的最佳混合方式,最终确保Llama 3在各种用例(包括日常问题、STEM、编码、历史知识等)中表现良好 。
Meta表示 , 最大的Llama 3参数超过400B,虽然这些机型仍在训练中 , 但在接下来的几个月中也将陆续发布,新功能包括多模态、多语言对话能力、更长的上下文窗口以及更强的整体能力 。
Meta希望Llama 3能赶上OpenAI的GPT-4 。不过知情人士透露,因为研究人员尚未开始对Llama 3进行微调 , 所以尚未决定Llama 3是否将是多模态模型 。微调是开发人员为现有模型提供额外数据的过程,以便它可以学习新信息或任务 。较大的模型通常会提供更高质量的答复,而较小的模型往往会更快的提供答复 。有消息称,正式版的Llama 3将会在今年7月正式推出 。
Meta还宣布与Alphabet的谷歌建立新的合作伙伴关系,在助手的答复中包括实时搜索结果,作为与微软必应现有合作的补充 。随着此次更新 , Meta AI助手正在扩展到美国以外的十多个市场,包括澳大利亚、加拿大、新加坡、尼日利亚和巴基斯坦 。考克斯说 , Meta“仍在努力以正确的方式在欧洲做到这一点” 。欧洲的隐私规定更加严格,即将出台的人工智能法案也准备提出披露模型训练数据等要求 。
每日经济新闻综合公开资料
推荐阅读
- Meta AI 全球市场扩张,并上线网页版 meta.ai
- 《不可告人》迷雾剧场重磅归来,欧豪李一桐携手破解悬疑迷局!
- 浪姐2024重磅来袭!公式照公布!韩雪柳岩苗苗等加盟,你最期待谁
- Meta如何将缓存一致性提高到99.99999999%
- AI是万灵药?Meta要把大模型塞进AR眼镜里
- AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
- Meta:Quest 手势追踪不会用于模拟手柄
- 重磅减肥科研突破:科学家揭示二甲双胍与食物如何联手抑制食欲
- 03重磅真丝怎么样,真丝衣服缩水 重磅真丝缩水么
- 要上天!美国公司推出电动“飞的”每英里收费43元