【会员动态】腾云智算×元象丨被严重低估的AI角色扮演：大模型推理的“地狱级”考场与破局之道

"你们和直接租GPU有什么区别？"

做推理云这件事，这个问题我们团队被问过很多次。

我们一直觉得，这个问题本身就说明了市场现在的认知状态。大多数人谈到GPU云，想到的是算力、是卡的数量、是价格。推理优化这件事，还没有被当成一种独立的专业能力来看待。

元象是帮我们把这件事想清楚的客户之一。

合作超过8个月，百卡规模，推理成本下降50%，用户留存不变，服务稳定性超过3个9。我们想借这个节点，把这段合作里真正重要的事情说清楚。

我们选择客户的方式

腾云智算云产品团队成立之初做过一个决定：不做纯算力租赁的生意。

在GPU“一卡难求”时，这笔钱确实很好赚。但我们清楚它的终点：一场拼价格、拼规模，毫无技术壁垒的消耗战。对于我们这支10人的技术团队来说，把核心资源押在这里太可惜了。

我们选择了更有技术门槛的路——大模型推理优化

我们的目标很明确：帮有自研或精调模型的AIGC企业把模型跑得更快、更便宜，同时质量不掉。

这需要深入客户的业务场景，没法靠一套现成的开源方案交差。顺着这个方向，我们锁定了最需要我们的核心客户群体：

· 有门槛：拥有自研或精调模型；

· 有痛点：推理成本是核心经营压力；

· 有诉求：团队想专注业务，不愿被底层基建牵绊。

元象，完美契合了这个画像

如果你关注“AI应用出海”，元象绝对是一个绕不开的名字。那么，他们到底在做什么样的业务？

总部位于深圳的公司，创始人姚星（前腾讯副总裁、腾讯AI Lab创始人）。如果你玩过王者荣耀，大概率领教过AI“绝悟”的厉害，那就是姚星带队打出的战绩。

元象致力于把AI和3D融合，构建一个更智能、更真实的数字世界，自研的专为泛娱乐场景设计的大模型 XVERSE-Ent 深度适配角色扮演、故事叙事、多轮互动场景。

其打磨出的AI角色互动产品更是杀入全球数十国畅销榜，收获超过百万真实用户。

连续三年入选胡润全球独角兽榜，背后是腾讯、红杉中国、高瓴创投、淡马锡等机构的持续押注。

角色扮演，一个被低估了难度的推理场景

很多人觉得AI角色扮演是个娱乐产品，技术上不高。实际上，这是推理优化里要求最苛刻的场景之一。原因在于，这个场景对推理的要求是同时施压的：

速度、质量、成本，三者同时承压，而且互相制约。这不是一个可以靠单点优化解决的问题，需要从量化方案、推理框架、调度策略到硬件选型的系统性配合。

元象的算法团队在找到我们之前，已经自己测试过PTQ（训练后量化）的路径。

结果很残酷：模型在评测集上的质量下降了3%～4%。在角色扮演场景里，这意味着用户能明显感知到AI“变了”，留存率会往下掉。这个方案被果断否决。

他们急需一条质量损耗可控、又能真正降低推理成本的路径。

用QAT+FP4守住质量与成本的生死线

腾云给出的答案是

QAT+FP4 无损量化全链路方案

QAT（量化感知训练）和PTQ最核心的差异在于时机：PTQ是训练完成后再压缩，模型对量化误差毫无准备；QAT是在训练过程中就让模型感知量化的存在，相当于让模型提前适应低精度环境，精度保留远优于PTQ。

NVFP4在我们的Blackwell服务器集群上，能释放出比传统FP8方案更高的吞吐上限——这是Hopper做不到的事情，因为Hopper架构不支持NVFP4。

完整优化链路

每一层都在为最终的推理的效率、用户体验、稳定性服务。这是一套需要从模型训练阶段就介入的方案，不是交付一个推理镜像就能做到的。

数字是最诚实的

元象在上线后做了现网用户留存的对比测试——NVFP4+QAT方案与此前方案的留存对比，结果几乎没有差异。

最后这个指标

比前两个分量更重

质量损耗控制在1%以内

（PTQ方案为 3～4 个百分点）

这不是实验室里跑出来的数据，而是真实用户行为验证的铁证。对于一个以留存为核心经营指标的C端产品，这是最硬的证明。

在角色扮演赛道，这1%与PTQ的3%～4%之间的差距，就是用户留存“守得住”与“守不住”的生死分水岭。

8个月，我们在做什么

推理优化不是一次性交付的事。

合作期间，腾云智算除了推理优化本身，还承接了负载均衡、集群监控等MLOps托管服务。

元象算法团队不需要分心管底层，出了问题我们先响应，他们只需将全部精力倾注于模型迭代和业务创新。这种分工看起来简单，但需要双方都认可一件事：

推理基础设施是一项极具门槛的专业能力，必须交给最专业的团队来做。

元象认可这一点，这是合作能走到今天的前提。

元象如何评价这次合作

在签约后的深度对话里，元象算法负责人说了这样一段话：

腾云智算作为我们的推理云合作伙伴非常专业：

推理并发和吞吐翻倍、首Token延迟下降40%、用户留存不下降，这个结果说实话是很震撼的。

我们对接下来在Serverless推理服务、推理优化、Multi-LoRA部署等方向上的合作很期待

"很震撼"这三个字，我们记住了。

不是因为这是一句好话，而是因为这句话说明了一件事：大多数AIGC公司，还没有见过推理优化被认真做是什么样子。

这既是我们存在的理由，也是我们还有很多事情要做的提醒。

我们和元象要一起做的事

目前，双方的合作已迈入下一阶段，并锁定了三个极具前瞻性的方向：

元象将迁移至完全Serverless的产品形态，底层资源对业务层完全透明。

对C端产品来说，弹性比固定资源更重要——流量高峰自动扩容，低谷自动释放，算力成本随业务走，不再有资源闲置的浪费。

元象有多个差异化场景，需要不同风格的模型能力。

Multi-LoRA方案在同一基座上挂载多个LoRA，按需调度，同一批GPU覆盖多个业务场景，算力利用率大幅提升。这是AIGC推理下一个有真实价值的工程方向。

模型在迭代，场景在扩展，这不是一次性的工程，是长期的技术合作。

腾云智算

腾云智算是一家专注AI推理优化的云服务商，我们做的事情用一句话说：

让AIGC团队只需要对接API，推理优化、MLOps、弹性扩缩的事情由我们来做。

我们的定位不是算力平台，是API Inference Cloud。

核心技术

EAGLE3投机解码

已被SGLang、Eagle-3收录，HuggingFace下载量 20,000+

NVFP4量化推理全链路方案

QAT+DPO训练与推理一体化平台

目标客户

有自研或精调模型、推理成本是核心经营压力、希望算法团队专注在模型和业务而不是推理工程上的AIGC应用公司。

如果您的团队正面临以上难题，欢迎来聊！

往期精彩回顾↓↓

SAIIA

关于协会

深圳市人工智能行业协会（简称：SAIIA）成立于2017年，经深圳市民政局核准注册登记，由与人工智能有关的企事业单位自愿发起的非营利性社会团体组织，是全国首家人工智能行业协会，被深圳市民政局评为5A级社会组织。协会致力于加速人工智能技术成果转化，构建人工智能应用生态体系，推动人工智能技术和应用的发展，并规范行业行为、推动行业自律提供行业服务、保障行业良性发展。

协会荣誉

5A级社会组织、2025年广东省“四好”商会建设优秀案例、2025深圳标杆商会、联合国大学(UNU)全球人工智能网络成员、“AI ALLIANCENET WORK”创始单位、首批广东省智能制造生态合作伙伴、深圳市高技能人才培训基地“数字经济”专项基地、深圳市人大常委会立法联系点、知识产权保护工作站、公平贸易工作站、海智工作站、深圳行业协会商会高质量100

入会、合作咨询

请添加小助理微信号

saiia2020

菜单

分享

【会员动态】腾云智算×元象丨被严重低估的AI角色扮演：大模型推理的“地狱级”考场与破局之道

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业