一文解析「小米大模型」

站在科技变革的交汇点,以智能为核心的技术正掀起新一轮的科技浪潮 。浪潮之下,大模型技术让AI发展看到了新的光芒,小米便是浪潮中的逐光者 。
8月14日晚,雷军在年度演讲中宣布小米科技战略升级:深耕底层技术、长期持续投入,软硬深度融合,AI全面赋能,总结为公式(软件×硬件)?? 。作为首家把AI放在次方地位的科技公司,小米将包括大模型在内的AI技术看作一种生产力,将AI真正镶嵌在业务与产品中,为生产、生活赋能 。

一文解析「小米大模型」

文章插图
本次演讲中,小米自研大模型正式亮相,雷军宣布小米大模型技术的主力突破方向为“轻量化、本地部署”,让用户在享受安心的数据保护的同时,拥有大模型带来的先进生产力 。值得一提的是,小米自研大模型在近日的权威中文评测榜单C-EVAL和CMMLU中,取得同参数量级第一的好成绩;小米自研手机端侧大模型初步跑通,部分场景效果媲美云端 。
一文解析「小米大模型」

文章插图
那什么是大模型?小米为什么要做大模型?小米大模型有哪些独特闪光点?今天,我们来告诉你答案 。
01
解码大模型
ChatGPT出现以来,大模型优异的理解能力和生成能力令人惊艳,关于其用途的探索也越来越多 。目前看来,很多传统的自然语言处理任务都可以用它来完成,比如搜索、翻译、问答、摘要、信息抽取和分类以及写作等 。在日常生活中,所有基于对话的服务,如客服、教育、咨询、导游等,以ChatGPT为代表的大模型都有一定的用武之地 。
【一文解析「小米大模型」】大模型指参数数量巨大、层次结构复杂的机器学习模型 。这些模型通常具有十亿到千亿甚至万亿个参数,通过大量的数据进行训练,提供更高的理解和生成能力 。
在小米看来,大模型不仅是指模型参数多、尺寸大,更重要的是代表了一种新的训练范式 。我们将其总结为:大数据、大任务、大参数 。
一文解析「小米大模型」

文章插图
- 大数据:指需要用海量的数据去训练,让模型从中自动挖掘出所需的信息 。通常采用自监督或者无监督学习方式,无需人工标注就可以提炼规律、学习知识,从而提升模型的眼界 。
- 大任务:指学习的目标足够复杂、覆盖面广 。这样才能“强迫”模型按照模块化、高类聚、低耦合的方式组织知识点,实现举一反三的泛化能力 。
- 大参数:指模型的知识容量 。大模型的参数规模越大,模型的表达能力和学习能力也就越强 。
在这个范式中,我们认为大数据和大任务是不可或缺的 。如果没有大数据,模型不可能学到丰富的常识;如果没有大任务,知识点和技能点不可能在模型中有机高效地组织起来 。
02
布局人工智能
全力突破大模型
▍以AI为基石,沉淀技术积累
小米基于对产业和时代的思考与理解,选择对人类文明有长期价值的战略方向,并坚持长期持续的投入 。我们已经布局了12个技术领域,99个细分赛道,未来五年(2022-2026)我们至少会投1000亿以上的研发经费 。由此构建核心竞争力、牢筑护城河,对人类社会未来的进步发展注入澎湃力量 。
一文解析「小米大模型」

文章插图
AI是未来的生产力,也是小米长期持续投入的底层赛道 。小米很早就对人工智能进行布局,2016年小米AI实验室成立,并组建了第一支视觉AI团队,今年4月成立专职大模型团队,历经7年6次扩展,小米人工智能团队已经有3000多人,逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力 。
一文解析「小米大模型」

文章插图
成为浪潮之上的角逐者,必须有对技术的沉淀和积累 。作为小米AI技术的“试验田”和“弹药库”,小米AI实验室会研发中长期的前沿技术,围绕小米业务做储备,在集团需要的时候输出“弹药” 。小米对AI的深刻认识与掌握的技术能力,也有效地赋能了手机、机器人等各个业务板块 。
大模型是未来科技的发展趋势,更是下一个人工智能的高地 。2021年开始,小米就对大模型的方向特别关注,并开展了对话大模型的预研工作 。在闲聊对话场景下,依托于月活超过1.15亿的智能语音助理小爱同学,小米研发了参数规模为28亿的对话模型,达到了当时同等参数规模下业界的最佳效果 。这为小米积累了多卡分布式训练的经验,为后续开展大规模语言模型训练奠定了基础 。


推荐阅读