在当今科技高速发展的时代,人工智能与大模型的崛起成为了推动社会变革的核心力量。回顾人类历史上的历次工业革命,每一次都伴随着生产工具的重大革新,从而引发生产力的飞跃和社会的深刻变革。如今,我们正站在智能革命的浪潮之巅,而大模型推理技术,正悄然改变着我们生活和工作的方方面面。

“这场革命的核心在于两点:算法的突破与芯片算力的跃升。”上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩表示。
正如蒸汽机需要煤炭驱动,大模型的智能同样依赖海量数据和强大算力。但与传统工业革命不同,智能革命的迭代速度远超想象——技术更新以“天”为单位推进,模型参数量从十亿级迈向万亿级,推理需求呈指数级增长。
更深远的影响在于生产关系的重构。过去劳动者是人,未来可能是机器。而机器的“劳动”本质是推理——通过模型计算完成决策、对话、控制等任务。无论是金融风控还是医疗诊断,大模型推理正在成为各行业的新生产力。
从预训练模型到推理模型,对算力的需求也在不断增加,这为整个行业带来了新的挑战和机遇。
一张PPT背后:新技术催生的算力“刚需”
戴国浩教授引用了英伟达CEO黄仁勋今年3月在HTC大会上的一张PPT。在这张PPT中,一条核心定律揭示了AI发展的密码——尺度定律(Scaling Law)。模型能力随着参数规模和数据量的增加而提升,但这种增长需要付出巨大代价:其中预训练阶段需要用海量数据“喂养”模型,耗电量堪比小型城市;在推理阶段,模型实际应用时,算力需求不降反增。用户对实时性的期待(如秒级响应)与模型复杂度的提升形成矛盾。

戴国浩教授通过实测发现:运行一个“满血版”大模型推理,需同时调用16张英伟达H100显卡,若将同等算力移植到手机,电量仅能支撑10秒。这暴露了一个残酷现实——推理算力成本已成为AI普及的最大瓶颈。
随着模型参数量和数据量的增加,模型的能力也在不断增强。从预训练阶段的规模扩展,到补充增强训练和推理阶段的规模扩展,每一个阶段都对算力提出了更高的要求。为了满足这种需求,推理技术需要不断创新和优化,以提高算力的利用效率。
相关数据显示,自2020年起,全球人工智能算力需求每3-4个月便翻一番,远超传统计算领域发展速度。这种迅猛的增长态势给科技产业带来巨大挑战,也促使科研人员和企业不断探索新的算力解决方案,以满足人工智能快速发展的需求。
存算融合 vs 存算分离:一场技术路线的对决
推理过程可以分为Prefill、Decode和调度三个阶段。

在云侧推理中,面临着如何高效调度算力资源、存储资源和网络资源等问题。存储方面,KV Cache的管理和内存碎片化问题成为关键挑战。计算方面,推理任务不像训练任务那样密集,如何提高计算利用率成为一个难题。

目前,推理技术主要分为存算融合和存算分离两种路线。存算融合技术,如vLLM,通过统一管理计算和存储资源,提高了内存利用率,但计算任务之间容易产生干扰。存算分离技术,如Mooncake和DeepSeek,将计算和存储分开,减少了计算干扰,但存储碎片化和冗余存储问题较为突出。

戴国浩教授团队提出的半分离式方案(semi-PD),结合了存算融合和分离的优点,实现了高效的推理性能:通过计算分离,为不同任务分配独立计算单元,避免资源争夺;而结合存储融合,采用vLLM的分页缓存技术,将内存利用率提升至90%以上。实测显示,该方案比主流框架SGLang的端到端延迟降低40%,且代码即将开源,有望重塑云端推理架构。
发力端侧,以SpecEE应对资源不足
在端侧推理场景下,资源受限是主要问题。面对终端设备的算力困局,戴国浩教授团队另辟蹊径——如果模型不必完整运行,能否提前输出结果?戴国浩教授团队提出了SpecEE技术,通过自适应和动态的机器学习模型,在Transformer的级联结构中提前判断是否已经输出正确结果,从而减少计算层数,实现轻量化推理。在不联网的情况下,让手机或电脑等智能终端设备充分享受智能能力。

SpecEE的动态性和正交性使其不仅适用于端侧设备,在单用户云端场景也能发挥优势,还可与其他端侧加速方案无感兼容,进一步提升模型推理精度和速度。
实测中,SpecEE在保持95%以上准确率的同时,将端侧推理速度提升3倍。这项技术已与联想等厂商合作,应用于新一代AI PC,让离线环境下的智能助手“快如闪电”。
推理革命:一场关乎每个人未来的生产力升级
戴国浩教授坚信,2025 年是大模型推理至关重要的一年。推理算力作为智能革命的基本生产资料和生产力,降低成本是关键目标。通过团队的核心技术和原始创新,他们致力于推动大模型推理技术的发展和应用。

戴国浩教授团队的研究,正在从两个方向推动智能革命落地:在云侧,他们的技术已经赋能了上海、北京、杭州等地的公共算力平台建设,提升了模型推理的服务能力。在端侧,与合作伙伴共同推动了联想AIPC产品的智能化发展。无论是在云侧还是端侧,他们的实时响应、弹性扩展的推理系统都为人们更好地享受智能能力提供了支持。
戴教授团队希望通过总结方法论,与更多合作伙伴共同努力,不断推进模型推理能力的发展,让智能革命的浪潮持续涌动,为人类社会带来更多的变革和机遇。
这场变革的本质是“推理民主化”——当算力成本降低至当前的1/10,AI将不再局限于科技巨头,中小企业和个人开发者也能调用智能能力。正如电力普及让工厂走进千家万户,推理技术的突破将让智能革命真正渗透到每个角落。
戴国浩教授最后强调:“30年前,计算机从实验室走向办公室;今天,我们要让大模型从云端走进每个人的口袋。”这场始于算力的革命,终将重塑人类与机器协作的方式,而推理技术,正是打开未来之门的钥匙。
- 智能革命的引擎:大模型推理如何重塑未来生产力 – 2025年5月7日
- 北汽智能座舱AI化的探索与实践:构建下一代智慧出行空间 – 2025年5月7日
- 丁禹兮先锋助阵,比音勒芬“小领T” 破局高端服饰同质化 – 2025年4月30日