一文解析「小米大模型」 _大模型

站在科技变革的交汇点，以智能为核心的技术正掀起新一轮的科技浪潮。浪潮之下，大模型技术让AI发展看到了新的光芒，小米便是浪潮中的逐光者。
8月14日晚，雷军在年度演讲中宣布小米科技战略升级：深耕底层技术、长期持续投入，软硬深度融合，AI全面赋能，总结为公式（软件×硬件）?? 。作为首家把AI放在次方地位的科技公司，小米将包括大模型在内的AI技术看作一种生产力，将AI真正镶嵌在业务与产品中，为生产、生活赋能。

文章插图
本次演讲中，小米自研大模型正式亮相，雷军宣布小米大模型技术的主力突破方向为“轻量化、本地部署”，让用户在享受安心的数据保护的同时，拥有大模型带来的先进生产力。值得一提的是，小米自研大模型在近日的权威中文评测榜单C-EVAL和CMMLU中，取得同参数量级第一的好成绩；小米自研手机端侧大模型初步跑通，部分场景效果媲美云端。

文章插图
那什么是大模型？小米为什么要做大模型？小米大模型有哪些独特闪光点？今天，我们来告诉你答案。
01
解码大模型
ChatGPT出现以来，大模型优异的理解能力和生成能力令人惊艳，关于其用途的探索也越来越多。目前看来，很多传统的自然语言处理任务都可以用它来完成，比如搜索、翻译、问答、摘要、信息抽取和分类以及写作等。在日常生活中，所有基于对话的服务，如客服、教育、咨询、导游等，以ChatGPT为代表的大模型都有一定的用武之地。
【一文解析「小米大模型」】大模型指参数数量巨大、层次结构复杂的机器学习模型。这些模型通常具有十亿到千亿甚至万亿个参数，通过大量的数据进行训练，提供更高的理解和生成能力。
在小米看来，大模型不仅是指模型参数多、尺寸大，更重要的是代表了一种新的训练范式。我们将其总结为：大数据、大任务、大参数。

文章插图
- 大数据：指需要用海量的数据去训练，让模型从中自动挖掘出所需的信息。通常采用自监督或者无监督学习方式，无需人工标注就可以提炼规律、学习知识，从而提升模型的眼界。
- 大任务：指学习的目标足够复杂、覆盖面广。这样才能“强迫”模型按照模块化、高类聚、低耦合的方式组织知识点，实现举一反三的泛化能力。
- 大参数：指模型的知识容量。大模型的参数规模越大，模型的表达能力和学习能力也就越强。
在这个范式中，我们认为大数据和大任务是不可或缺的。如果没有大数据，模型不可能学到丰富的常识；如果没有大任务，知识点和技能点不可能在模型中有机高效地组织起来。
02
布局人工智能
全力突破大模型
▍以AI为基石，沉淀技术积累
小米基于对产业和时代的思考与理解，选择对人类文明有长期价值的战略方向，并坚持长期持续的投入。我们已经布局了12个技术领域，99个细分赛道，未来五年（2022-2026）我们至少会投1000亿以上的研发经费。由此构建核心竞争力、牢筑护城河，对人类社会未来的进步发展注入澎湃力量。

文章插图
AI是未来的生产力，也是小米长期持续投入的底层赛道。小米很早就对人工智能进行布局，2016年小米AI实验室成立，并组建了第一支视觉AI团队，今年4月成立专职大模型团队，历经7年6次扩展，小米人工智能团队已经有3000多人，逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。

文章插图
成为浪潮之上的角逐者，必须有对技术的沉淀和积累。作为小米AI技术的“试验田”和“弹药库”，小米AI实验室会研发中长期的前沿技术，围绕小米业务做储备，在集团需要的时候输出“弹药” 。小米对AI的深刻认识与掌握的技术能力，也有效地赋能了手机、机器人等各个业务板块。
大模型是未来科技的发展趋势，更是下一个人工智能的高地。2021年开始，小米就对大模型的方向特别关注，并开展了对话大模型的预研工作。在闲聊对话场景下，依托于月活超过1.15亿的智能语音助理小爱同学，小米研发了参数规模为28亿的对话模型，达到了当时同等参数规模下业界的最佳效果。这为小米积累了多卡分布式训练的经验，为后续开展大规模语言模型训练奠定了基础。