重磅！Meta推出开源大模型Llama 3，性能直逼GPT-4( 二 ) _Llama

为了确保Llama 3接受最高质量数据的训练，研究团队开发了一系列数据过滤pipeline，包括使用启发式过滤器（filter）、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量。
研究团队发现前几代Llama非常擅长识别高质量数据，因此Meta使用Llama 2为给Llama 3提供支持的文本质量分类器生成训练数据。
研究团队还进行了广泛的实验，以评估出在最终预训练数据集中不同来源数据的最佳混合方式，最终确保Llama 3在各种用例（包括日常问题、STEM、编码、历史知识等）中表现良好。
Meta表示，最大的Llama 3参数超过400B，虽然这些机型仍在训练中，但在接下来的几个月中也将陆续发布，新功能包括多模态、多语言对话能力、更长的上下文窗口以及更强的整体能力。
Meta希望Llama 3能赶上OpenAI的GPT-4 。不过知情人士透露，因为研究人员尚未开始对Llama 3进行微调，所以尚未决定Llama 3是否将是多模态模型。微调是开发人员为现有模型提供额外数据的过程，以便它可以学习新信息或任务。较大的模型通常会提供更高质量的答复，而较小的模型往往会更快的提供答复。有消息称，正式版的Llama 3将会在今年7月正式推出。
Meta还宣布与Alphabet的谷歌建立新的合作伙伴关系，在助手的答复中包括实时搜索结果，作为与微软必应现有合作的补充。随着此次更新， Meta AI助手正在扩展到美国以外的十多个市场，包括澳大利亚、加拿大、新加坡、尼日利亚和巴基斯坦。考克斯说， Meta“仍在努力以正确的方式在欧洲做到这一点” 。欧洲的隐私规定更加严格，即将出台的人工智能法案也准备提出披露模型训练数据等要求。
每日经济新闻综合公开资料

重磅！Meta推出开源大模型Llama 3，性能直逼GPT-4( 二 )

推荐阅读

作者1047841▲快讯！广东省气象台发布明（27日）起未来三天天气预报

上海市闵行区人民政府网站|区人社局联合云南省保山市开展“网络直播”技能培训

[辅助训练]分清主次，辅助训练只能是辅助！

怎么样选购一台存储照片和视频为主的电脑

「黄磊」原来，孙红雷和黄磊对《极限挑战》造成的伤害这么大！

【潇湘名医】遏制关键通路才是制胜关键，治疗类风湿关节炎

三弄车汇|15万选什么车？哈弗F7x还是领克02？读完你就清楚了

医院|女子花6万做隆胸，结果“像放了两块石头”！美容医院：不退钱

宝宝几岁分房睡比较好呢?

大连|大连小伙笑对再进隔离区热出花癣斑：打败我的是天真热！

台湾地区流■被造谣患新冠肺炎，台北市长柯文哲今正常工作并直率回呛

欢愉驿站|发现规律后，粉丝笑了，《月上重火》罗云熙哭戏太虐人

装修工16楼作业不慎弄脏业主衣服被对方割断安全绳

少年的你经典句子，写进作文加10分少年的你经典短句

名字中逸的寓意逸的寓意

[走私]警方突袭走私仓库，发现10架共轴旋翼直升机，居然是纯手工打造

袋泡红茶怎么样泡才好喝

「钢铁侠」漫威：毁灭地球需要用多久？美国队长用1个月，钢铁侠用1天，他仅用1秒！

女人戴手表的3大禁忌女生的手表应该戴在左手还是右手

山东鲁能■前鲁能队长仅比郑智小1岁，辗转效力7队，曾被汪嵩索要15元快递费