把大模型装进手机,分几步?

文章转载来源:Model进化论
原文来源:光锥智能

把大模型装进手机,分几步?

文章插图
图片来源:由无界 AI‌ 生成大模型“跑”进手机,AI的战火已经从“云端”烧至“移动终端” 。
“进入AI时代,华为盘古大模型将会来助力鸿蒙生态 。”8月4日,华为常务董事、终端BG CEO、智能汽车解决方案BU CEO 介绍,通过盘古大模型的底层技术,Harmony OS带来了下一代智能终端操作系统 。
在手机上使用大模型早已不是新鲜事,此前ChatGPT、文心一言、妙鸭等App、小程序都是通过调用云端算力,满足手机终端AI应用的需求 。
下一步,则是让大模型直接运行在手机上 。
从今年四、五月开始,美国科技三巨头——高通、微软、英伟达,最受瞩目的AI新星OpenAI,以及国内AI“头部战队”的腾讯、百度等,都已经纷纷加速推进在移动终端的轻量化部署AI大模型 。高通甚至宣布,正在逐渐转型成一家智能边缘计算(在移动终端等数据源头提供计算服务)的公司 。
巨头的群力强推下,大模型从云到端迈进的产业趋势已经十分明确 。
大模型为什么要“跑”在手机上?
大模型的最大特点就是“大”,动辄百亿千亿甚至万亿参数,且为了更好运行大模型,算力集群都已经升级到“万卡”级别 。如今,为什么又非要把大模型“塞”进巴掌大的小手机?
大模型确实会给手机用户带来一些体验上的提升 。例如,华为终端智能助手小艺不仅可以根据语音提示推荐餐厅,还可以进行摘要总结、信息检索、多语种翻译等信息处理,数千字的英文长文,具备大模型能力的手机智能助手就可以生成摘要,还可以翻译成中文 。尤其后一点,在信息爆炸时代,对于提高学习工作效率还是很有价值的 。
把大模型装进手机,分几步?

文章插图
华为终端BG AI与智能全场景业务部总裁贾永利解释,一方面,大语言模型具备泛化能力,能够帮助手机智能助手提升理解能力 。另一方面,大模型Plug-in的插件能力,可以在手机内部打通各应用之间的壁垒,借助工具拓展能力 。
此外,ChatGPT等AIGC应用一直以来都伴随着强烈的隐私安全争议,但如果完全在端侧运行,就能够完全避免这一问题 。因为大模型在端侧运行,数据也不会离开端侧 。而且,这样响应的速度还会更快 。
另一边,大模型对于到手机等移动终端的需求也已经非常迫切 。
大模型的汹涌之势让云端越来越无法独自承载算力的需求 。高通高级副总裁Alex Katouzian近期就直言,“随着连接设备和数据流量加速增长,叠加数据中心成本攀升,(我们)不可能将所有内容都发送到云端 。”
不算数据传输要消耗网络带宽、存储,以及硬件等大量资源,光是云端算力现在已经让相关厂商有些吃不消 。ChatGPT仅在推理阶段,保守估计每个月算力成本在1000万美元左右 。
最大的问题还不是“贵”,而是“缺” 。
此前,就连OpenAI创始人Sam Altaman都自曝GPU很缺,甚至直言不希望太多人用ChatGPT 。近期,也有业内人士推测,小型和大型云提供商的大规模H100集群容量即将耗尽,H100的需求趋势至少会持续到2024年底 。当前英伟达H100的产能还严重受制于供应链 。
所以,云端和终端形成配合,手机等终端闲置算力资源被利用起来,解决“集中式”算力与“分布式”需求的错配,已经成为大模型发展“降本增效”的确定趋势 。更重要的是,相比数量有限的中心节点,众多的移动终端堪称触及万千场景的“毛细血管”,也就决定了这一入口会是大模型加速应用渗透的关键 。
如何把大模型“装进口袋”?
“相比传统的PC或者服务器,移动终端最大的挑战就是如何平衡好体验和能耗,这是鸿蒙内核设计最重要的核心点之一 。”华为终端业务软件部总裁龚体强调 。
大模型需要大量的计算资源和存储资源,尤其是基于现有的手机硬件配置,这就需要软件系统做好协调,提升效率降低能耗 。
现在手机为了提高性能,至少是8个芯片内核,就需要手机系统做协同,这个过程就会消耗大量算力 。如果采用异构资源调度,就可以高效协调CPU、GPU、NPU 。龚体表示,这样调度效率可以提升60%以上 。
手机系统能够进行运算,调度的最小单位叫做线程,传统的操作系统中往往上万线程同时运行,其中就会存在大量无效线程 。针对这点,就可以通过更轻量的并发模型来处理并发操作,降低无效线程切换对算力的消耗 。据龚体说,并发模型可以让任务切换开销节省50% 。


推荐阅读