半岛体育全站天工一刻一文看懂小模型与端侧模型

作者：小编发布时间：2024-10-23 11:49:07 浏览量：

　　随着大模型技术迎来颠覆性突破，新兴AI应用大量涌现，不断重塑着人类、机器与智能的关系。

　　为此，昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中，我们将对大模型产业热点、技术创新、应用案例进行深度解读，同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、半岛体育全站技术进展，以飨读者。

　　就在6月28日，谷歌刚刚发布了Gemma系列的最新SOTA（State-of-the-Art，当前最领先）模型Gemma-2，有9B和27B两种大小，谷歌还称计划在未来几个月发布2B版本，更适合手机终端运行。

　　而不久前的苹果WWDC大会上，苹果先是推出了端侧AI系统Apple Intelligence，随后又在技术博客中介绍了其自研的端侧3B小模型——性能全面超越主流7B大模型。

　　在更早之前的4月，则更是全球小模型和端侧模型“神仙打架”的月份。短短的一月之内，Meta、微软、苹果等集中发布Llama-3、Phi-3、OpenELM，对小模型和端侧模型产业带来极大冲击。如果把时间放宽到2024年上半年，则还有MobileLLM、Gemma-7B、Qwen-7B、MiniCPM、TinyLlama等一系列代表玩家。

　　手机厂商更是早早就杀入局中。在全球手机/PC市场保有量居高不下、用户换机周期高达51个月的当前，AI大模型无疑成为各大终端厂商全力押注之处。

　　从2023年下半年开始，华为、小米、OPPO、vivo、苹果、三星，以及产业链上的高通、联发科等都陆续推出手机AI大模型或手机AI大模型芯片。根据Counterpoint数据，仅在2024年第一季度，全球具有生成式AI功能的智能手机型号就从16个增加到30多个，AI手机销量占比从1.3%提高到6%。

　　大模型厂商、终端厂商、终端芯片厂商……小模型与端侧模型的兴起，已经逐渐成为产业共识。

　　“小模型”通常指的是那些参数规模远少于GPT-3或Llama-13B的大语言模型，几个具有代表性的参数为1.5B、3B、7B等。

　　这些小模型虽然参数规模较少，但通过特定的设计和优化，仍然能够在某些任务上达到与大型模型相似的性能，从而降低计算资源消耗，提高能耗比。

　　“端侧模型”则通常指的是部署在手机、半岛体育全站电脑、或其他移动设备、嵌入式系统等资源受限的设备上的模型，这些设备的计算资源（AI算力、内存等）往往不足以直接运行大型的预训练模型，同时对于端侧的能耗、发热等问题有着更为极致的要求。

　　因此，端侧模型需要特别设计以减少模型大小和模型架构，以便能够在端侧设备上高效运行。

　　其中，学术界关于小模型的技术研究较为深入，而产业界更注重端侧模型的工程化研究。

　　不过目前手机、PC等终端设备受限于计算资源问题，大多只能流畅运行小模型，因此大量相关研究都存在重合领域。本文内容对于两类模型均有所覆盖。

　　不过具体到各个小模型的模型设计、训练方法、数据工程领域，则衍生出不同的技术派别。

　　Meta的Llama是大模型领域市场认知度最高的开源大模型系列。2024年4月，Meta在官网通过技术博客的形式正式发布了最新的Llama-3系列大模型，在当时的主流榜单上取得了不俗的成绩。

　　其中，Llama-3共有80亿（8B）、700亿（70B）两种参数；而根据Meta透露，其4000亿（400B）参数的Llama-3模型还在训练当中。

　　Llama-3在模型架构上跟上一代Llama-2差别不大，但训练数据规模上却有了惊人的提升。

　　相比起来，Llama-3砸进去的15万亿tokens堪称数据“暴力美学”——但也确实卓有成效，Llama-3-8B在同等规模的模型间取得了惊人的优秀表现。

　　Meta研究人员还表示，15万亿并非是终点。研究人员在对Llama-3训练超过15万亿规模的数据之后，模型依旧展现出了对数线性级（log-linearly）的性能提升。

　　虽然几乎同期发布，但微软Phi-3的训练数据思路与Llama-3大不相同。

　　Phi是微软旗下专注于开源小模型的系列模型。其中，Phi-1与Phi-2系列的模型参数规模都不超过3B，但表现十分亮眼。

　　Phi-3系列由微软于2024年4月发布，不仅依旧将研究重心放在小模型上，Phi-3的技术论文标题更是直白地写为《Phi-3技术报告：一个能在手机本地运行的高性能语言模型》，重点瞄准了端侧AI。

　　在训练数据设计思路上，Phi-3与Llama-3有着最大的分歧。根据技术论文信息，Phi-3的训练数据仅为3.3万亿tokens，只有Llama-3的四分之一不到。

　　但是，Phi-3研究人员对这3.3万亿的数据进行了大量数据工程研究，保证高质量数据的筛选与把控。

　　这一思路沿用自微软Phi系列开山论文《Textbooks Are All You Need》的高质量数据集路线。在该论文中，微软用规模仅为 7B token 的“教科书级高质量数据”训练出1.3B参数的Phi-1，并自此沿用了这一路线。

　　Phi系列在训练数据领域的“精耕细作”与Llama系列的“暴力出奇迹”形成了强烈反差，也是当前两派技术争论的焦点之一。

　　除了上述Phi-3与Llama-3这类在数据工程、数据训练等领域展开的研究外，目前业内也有不少玩家重点关注小模型与端侧模型的架构创新，试图打造更为“原生”的小模型与端侧模型。

　　受限于端侧软硬件与小模型规模的天然限制，这类创新架构主要关注如何在保持注意力机制有效性的前提下，减少计算量和内存占用，提高模型的训练和推理效率。

　　例如，苹果于4月推出的OpenELM系列模型采用了细粒度的优化技术，用以提升模型的性能和资源利用效率。举例而言，在模型架构设计方面，OpenELM采用模型分层精调设计，使得整个模型可以面向硬件瓶颈做精细设计和优化，提高了小模型在端侧的运行效率。

　　Meta的MobileLLM系列则更是开始研究1B以下小模型的实验和验证，在其2024年2月的论文中分别提出了125M和300M两种最新小尺寸的模型，通过模型架构创新与模型参数高效分配，在该参数范围内取得了最好效果（SOTA），其API调用任务精度甚至做到了与Llama-2-7B接近，进一步降低了小模型端侧运行的潜在设备门槛。

　　在小模型与端侧模型的设计中，“高效（Efficient）”是一个核心思路，这一点在各类注意力（Attention）网络的架构创新中体现得尤为明显。

　　注意力网络是Transformer大模型技术的核心。传统的全局注意力网络需要对每个输入序列的所有位置进行计算，导致算力和内存需求暴增——这一点在端侧十分不利。

　　为了提高模型效率，无数研究人员自大模型诞生以来就投入有关注意力网络的创新中。

　　一个具有代表性的技术路径是稀疏注意力（Sparse Attention）。

　　谷歌在6月28日发布的最新SOTA模型Gemma-2中就用到了稀疏注意力网络。Gemma-2拥有9B和27B两种大小，谷歌称更适合手机终端运行的2B版本也即将发布。

　　此外，分组查询注意力机制（Grouped-query Attention, GQA）也是当前在小模型领域应用最广泛的技术之一。

　　虽然GQA技术正式提出还不到1年时间，但在Phi-3、Llama-3、苹果端侧模型、MobileLLM、Gemma-2、以及几乎所有主流小模型中全部采用了这一技术，其火爆程度可见一斑。

　　GQA则通过使用多个Key-value Head（数量少于Query Head）的方法进行“折中”半岛体育全站，使得最终模型表现质量能够与MHA媲美的同时，模型响应速度提高3倍，达到MQA的标准，从而取得模型性能/表现的更好平衡。

　　在数据资源日益稀缺的当下，合成数据（Synthetic Data）也是大模型业内最关注的技术突破之一。

　　Meta、微软、苹果等主流小模型都在其技术报告中提及了合成数据的使用，其中：Meta表示使用Llama-2生成训练数据用于支持Llama-3的文本质量分类器（text-quality classifiers）；微软表示Phi-3使用合成数据来训练模型的推理能力和部分细分领域能力；苹果则表示在Post-training阶段引入了合成数据。

　　整体而言，半岛体育全站小模型和端侧模型目前还在产业发展早期，这几个热点方向仍有待学术与产业界的进一步探索。

　　虽然上文在讨论过程中同时提及了端侧模型与小模型，但具体到端侧，还有很多特有的挑战有待解决。

　　端侧AI算力不足是个老生常谈的问题，众多端侧AI硬件公司所瞄准的也是这一方向。但事实上，目前端侧模型落地部署的最大瓶颈未必是AI算力——反而是内存。

　　相比云服务器，手机等端侧设备内存容量和存储空间通常都要小得多。可大模型即使经过压缩，依然会需要占用大量内存和存储空间，这对于资源有限的端侧设备来说几乎难以承受。

　　同时，端侧设备对功耗和实时性有严格的要求。大模型计算过程中所产生的高功耗会导致设备功耗飙升半岛体育全站，甚至导致高温发热、甚至影响系统整体稳定性。

　　最后，端侧应用还往往需要满足实时性的要求，例如语音识别、图像处理等应用，需要在极短的时间内给出响应。如果只是把大模型进行压缩裁剪，但模型的推理速度不能满足端侧应用的实时性要求，依然不适用于端侧。

　　设计更小的模型只是第一步，想要模型在端侧落地，必须对模型进行进一步的优化和调整，以确保在有限的内存、算力、功耗、实时性、稳定性限制下高效运行。

　　因此，虽然可以通过量化、裁剪等方式将云端大模型压缩成小模型，但具体在端侧模型领域，许多研究人员更倾向于从0构建一个专用小模型或专用端侧模型，而非对现有大模型进行裁剪。

　　同时，从发展的眼光看，随着技术的进步和硬件性能的提升，端侧设备能够运行的模型势必会变得更大、功能更全面。

　　过去10年间，端侧算力经历了爆发式增长半岛体育全站。移动设备、物联网设备、边缘计算设备等的硬件性能显著提升，计算能力不断增强。

　　举个例子，10年前，苹果iPhone 5s搭载的A7处理器上集成了10亿个晶体管。而10年后的今天，最新一代iPhone 15 Pro Max中的A17 Pro处理器集成了多达190亿个晶体管，算力提升惊人。

　　20年前，大部分手机甚至还未迈入智能机时代，只能打电话、发送短信、玩贪吃蛇。手机几乎不具备任何多媒体处理能力，摄像头的像素数极低，连视频都无法录制。

　　方汉认为，在经历完3-5年的换机周期后，主流人群将普遍换上能支撑大模型端侧运行的新手机，这个过程中，更高效、便宜的端侧推理是关键。而大模型战争的“终局”是终端AI手机的全面普及——未来，推理成本将成为用户购机成本的一部分，实现AI的广泛落地。

　　一直以来，昆仑万维以“实现通用人工智能，让每个人更好地塑造和表达自我”为使命，致力于成为领先的人工智能科技企业，全力推动人工智技术应用落地。

　　2024年5月，昆仑万维天工AI每日活跃用户（DAU）已超过100万，位列国内人工智能企业第一梯队。未来，昆仑万维也将不断投入前沿技术研发，优化端侧AI系统，让越来越多用户能够享受AI大模型带来的生活便利。

上一篇 : 摩尔线程、百度地图战略合作！打造全国产数字孪生地图半岛全站

下一篇 : 半岛体育全站氢燃料电池汽车技术没啥子竞争优势

半岛全站(中国)官方网站IOS/安卓通用版/手机APP

半岛体育全站天工一刻一文看懂小模型与端侧模型

推荐新闻

集成电路的好坏判断

光电二极管工作在什么状态?

场效应管和晶闸管的区别是什么？

电源输出电容插反了怎么测试

电容的作用及使用注意事项

如何判断电容器的好坏

关注半岛全站