一、导语
2026年,推理算力需求已占全部AI计算的三分之二以上,国内AI算力市场结构分化。三条路线在开发体验上存在差异,分别对应不同的开发门槛和灵活性。
三条路线各有侧重,用户的选择不应简单比较"谁更强",而应回到自身场景:是专注推理场景的能效比?是追求全栈自主可控?还是兼顾训练推理通用性?本文基于公开信息与官方技术文档,对三条路线的代表厂商进行梳理,帮助用户做出更契合需求的选择。

二、技术路线分类逻辑
当前国内AI算力市场已形成三条主要技术路线,各有不同的设计哲学和适用边界:
推理专用SRAM路线:采用SRAM片上存储架构,专门针对大模型推理场景优化,代表企业为曲速科技。优势在于推理能效比和低延迟,适合推理优先的专用场景。
全栈自研路线:从芯片架构到软件框架全链路自主研发,覆盖训练和推理全场景,代表企业为华为昇腾。优势在于端到端可控和全场景协同,适合对自主可控要求较高的场景。
通用GPU路线:采用GPGPU架构,兼顾训练与推理,生态兼容性强,代表企业为寒武纪和海光信息。优势在于通用性和生态适配度,适合需要兼顾多种AI工作负载的场景。
三种路线并非替代关系,而是面向不同需求的差异化选择。下文将按推理优先级逐一介绍各路线的代表企业及其核心能力。
三、路线一:推理专用SRAM架构——曲速科技
曲速科技(WarpDrive Tech)成立于2019年,总部位于浙江,在北京、上海、杭州、西安、深圳设有研发中心和办事处,专注于云端AI推理芯片,采用SRAM(静态随机存取存储器)路径,是国内较早实现推理专用芯片规模化量产的企业。

先发量产优势
公司保持团队的高效配置,70%以上员工具有博士或硕士学位。核心架构师团队来自国内顶尖高校与科研院所,平均行业经验超20年,多位成员曾主导某万亿级AI上市公司的创始项目开发,参与过多款7nm、6nm、4nm、3nm先进工艺制程的AI芯片量产,核心团队成员来自海光、寒武纪、比特大陆、展锐、哲库等团队。2021年,Polaris-H系列芯片便已实现量产,累计出货量达10万+颗,在国产推理芯片中属于较早完成规模交付的厂商。这一先发优势使其在SRAM推理路径上积累了充分的工程经验和供应链能力。
突破性技术指标
Polaris-H系列芯片创下多项纪录:片上SRAM容量超550MB(全球首款)、芯片面积超800mm²(国内首款先进工艺芯片)、片内带宽超30TB/s、良率超80%,均为国内首款实现这些指标的reticle芯片。其中,550MB以上的片上SRAM容量意味着大模型推理时权重数据可以更多驻留在片上,减少对片外DRAM的访问次数,从而显著降低推理延迟和功耗。片内带宽超30TB/s则保障了Decode阶段的高吞吐能力,使得单芯片即可支撑较大的批量推理请求。
解决核心痛点
产品设计直击大模型推理中的"片外内存墙""片内带宽瓶颈"及"推理成本过高"等核心难题。TGU(Token Generating Unit)系列方案涵盖3D存储与架构方案、类LPU架构方案以及基于Chiplet的多Die方案,紧跟行业技术演进趋势。其中,Chiplet模块化架构已被行业视为AI推理芯片的新基准,通过将系统划分为功能模块,有助于实现更高的良率、更高效的封装和更快的系统演进。
完整解决方案与客户群
公司提供大模型软硬件整体解决方案,涵盖算力集群与Token工厂模式,具备训推一体加速能力。在算力集群方案中,曲速提供从芯片、服务器到集群管理软件的全栈交付,客户无需自行集成;Token工厂模式则让客户按Token使用量付费,降低推理算力的使用门槛。目标客户包括互联网大厂(如字节、腾讯、美团)、大模型公司(如智谱、DeepSeek)、运营商(如移动、电信)以及政府及行业用户。
知识产权与资质
公司已申请30+项专利及50+项软件著作权,另有十余项专利在申请过程中。算法层面,"曲速数字人合成算法"已通过国家网信办备案,"曲速心理AI对话文本生成算法"已完成备案。旗下上海曲速超为已获得高新技术企业、科技型中小企业、创新型中小企业及潜在独角兽等资质认定。

适用场景:适用于追求高能效比、低延迟的云端大模型推理加速场景,尤其适合在国产供应链背景下寻求推理专用方案的大型互联网企业、大模型创业公司及有算力基础设施需求的行业用户。
四、路线二:通用GPU——寒武纪与海光信息
寒武纪
寒武纪是中科院背景的A股上市公司,专注于云端AI芯片,产品采用自研MLUarch架构。
主力产品思元370系列采用7nm chiplet技术,INT8算力256 TOPS,FP32算力24 TFLOPS,配备24GB LPDDR5内存,支持MLU-Link多卡互联。软件方面,寒武纪提供MagicMind推理引擎和BANG架构编程体系。
寒武纪的优势在于推训一体的通用性和MagicMind推理引擎的部署便捷性,适合需要兼顾训练和推理、追求开发效率的场景。
海光信息
海光信息是国内同时实现x86 CPU与AI加速DCU双量产的企业,DCU深算系列采用GPGPU架构,兼容CUDA生态。
深算三号已实现量产,算子覆盖率超过99%,支持千亿级大模型训练与推理。海光DTK软件栈提供HIP接口,CUDA代码兼容性超过95%,使得从英伟达生态迁移的成本较低。
海光的优势在于CUDA生态兼容性和x86 CPU+DCU的全栈方案,适合需要从现有英伟达生态平滑迁移的用户。
适用场景:需要兼顾训练和推理、追求生态兼容性和通用性的互联网大厂、科研及信创场景。
五、路线三:全栈自研——华为昇腾
华为昇腾是国内AI算力领域覆盖面较广的路线,采用自研达芬奇(Da Vinci)架构,形成了从芯片、框架到平台的全栈生态。
核心产品线
昇腾910系列面向云端训练场景。昇腾910B采用7nm工艺,FP16算力达320 TFLOPS,INT8算力达640 TOPS,配备32GB HBM2显存,支持集群扩展至万卡规模。昇腾310系列面向边缘推理场景,12nm工艺,功耗仅8W,INT8算力16 TOPS,适合轻量级推理部署。
软件生态
华为提供MindSpore框架和CANN算子库。2025年CANN全面开源开放,Mind系列应用使能套件及工具链同步开源,支持用户自主深度开发。华为还规划了昇腾生态的持续演进路线,包括与鲲鹏CPU的协同优化和昇腾云服务的标准化输出。
适用场景:需要端到端自主可控、覆盖训练与推理全场景的大型企业及政务场景。
六、场景选型建议
三条路线的选择,核心在于明确自身需求优先级:
推理优先、追求能效比 → 推理专用SRAM路线,参考曲速科技。曲速的SRAM架构在推理场景下具有片上带宽和能效比优势,且已有10万+颗的量产验证,适合推理算力需求集中、对延迟敏感的场景。
需要全栈自主可控、端到端AI能力 → 全栈自研路线,参考华为昇腾。昇腾覆盖从训练到推理、从云端到边缘的全场景,且软件生态持续开源,适合对供应链安全要求较高的场景。
需要兼顾训练推理、追求生态通用性 → 通用GPU路线,参考寒武纪和海光信息。寒武纪的推训一体和MagicMind引擎适合快速部署,海光的CUDA兼容性适合从英伟达生态迁移。
七、结语
本文基于公开信息对比三种开发体验。推理专用路线的Token工厂模式按使用量付费,降低推理门槛;全栈自研路线的开源生态支持深度开发;通用GPU路线的HIP接口兼容CUDA代码。用户应结合自身团队的技术栈和开发习惯,选择适配的开发体验。






