lch
发布于 2026-05-18 / 0 阅读
0

【会员动态】腾云智算×元象丨被严重低估的AI角色扮演:大模型推理的“地狱级”考场与破局之道



"你们和直接租GPU有什么区别?"


做推理云这件事,这个问题我们团队被问过很多次。


我们一直觉得,这个问题本身就说明了市场现在的认知状态。大多数人谈到GPU云,想到的是算力、是卡的数量、是价格。推理优化这件事,还没有被当成一种独立的专业能力来看待。


元象是帮我们把这件事想清楚的客户之一。


合作超过8个月,百卡规模,推理成本下降50%,用户留存不变,服务稳定性超过3个9。我们想借这个节点,把这段合作里真正重要的事情说清楚。


01

我们选择客户的方式


腾云智算云产品团队成立之初做过一个决定:不做纯算力租赁的生意。


在GPU“一卡难求”时,这笔钱确实很好赚。但我们清楚它的终点:一场拼价格、拼规模,毫无技术壁垒的消耗战。对于我们这支10人的技术团队来说,把核心资源押在这里太可惜了。


我们选择了更有技术门槛的路——大模型推理优化


我们的目标很明确:有自研或精调模型的AIGC企业把模型跑得更快、更便宜,同时质量不掉。


这需要深入客户的业务场景,没法靠一套现成的开源方案交差。顺着这个方向,我们锁定了最需要我们的核心客户群体:


· 有门槛: 拥有自研或精调模型;

· 有痛点: 推理成本是核心经营压力;

· 有诉求: 团队想专注业务,不愿被底层基建牵绊。


元象,完美契合了这个画像


如果你关注“AI应用出海”,元象绝对是一个绕不开的名字。那么,他们到底在做什么样的业务?



总部位于深圳的公司,创始人姚星(前腾讯副总裁、腾讯AI Lab创始人)。如果你玩过王者荣耀,大概率领教过AI“绝悟”的厉害,那就是姚星带队打出的战绩。


元象致力于把AI和3D融合,构建一个更智能、更真实的数字世界,自研的专为泛娱乐场景设计的大模型 XVERSE-Ent 深度适配角色扮演、故事叙事、多轮互动场景。


其打磨出的AI角色互动产品更是杀入全球数十国畅销榜,收获超过百万真实用户。


连续三年入选胡润全球独角兽榜,背后是腾讯、红杉中国、高瓴创投、淡马锡等机构的持续押注。



02

角色扮演,一个被低估了难度的推理场景


很多人觉得AI角色扮演是个娱乐产品,技术上不高。实际上,这是推理优化里要求最苛刻的场景之一。原因在于,这个场景对推理的要求是同时施压的:



速度、质量、成本,三者同时承压,而且互相制约。这不是一个可以靠单点优化解决的问题,需要从量化方案、推理框架、调度策略到硬件选型的系统性配合。


元象的算法团队在找到我们之前,已经自己测试过PTQ(训练后量化)的路径。


结果很残酷:模型在评测集上的质量下降了3%~4%。在角色扮演场景里,这意味着用户能明显感知到AI“变了”,留存率会往下掉。这个方案被果断否决。


他们急需一条质量损耗可控、又能真正降低推理成本的路径。


03

用QAT+FP4守住质量与成本的生死线


腾云给出的答案是

QAT+FP4 无损量化全链路方案


QAT(量化感知训练)和PTQ最核心的差异在于时机:PTQ是训练完成后再压缩,模型对量化误差毫无准备;QAT是在训练过程中就让模型感知量化的存在,相当于让模型提前适应低精度环境,精度保留远优于PTQ。


NVFP4在我们的Blackwell服务器集群上,能释放出比传统FP8方案更高的吞吐上限——这是Hopper做不到的事情,因为Hopper架构不支持NVFP4。


完整优化链路


每一层都在为最终的推理的效率、用户体验、稳定性服务。这是一套需要从模型训练阶段就介入的方案,不是交付一个推理镜像就能做到的。


04

数字是最诚实的


元象在上线后做了现网用户留存的对比测试——NVFP4+QAT方案与此前方案的留存对比,结果几乎没有差异。



最后这个指标

比前两个分量更重



质量损耗控制在1%以内

(PTQ方案为 3~4 个百分点)


这不是实验室里跑出来的数据,而是真实用户行为验证的铁证。对于一个以留存为核心经营指标的C端产品,这是最硬的证明。


在角色扮演赛道,这1%与PTQ的3%~4%之间的差距,就是用户留存“守得住”与“守不住”的生死分水岭


8个月,我们在做什么



推理优化不是一次性交付的事。


合作期间,腾云智算除了推理优化本身,还承接了负载均衡、集群监控等MLOps托管服务


元象算法团队不需要分心管底层,出了问题我们先响应,他们只需将全部精力倾注于模型迭代和业务创新。这种分工看起来简单,但需要双方都认可一件事:


推理基础设施是一项极具门槛的专业能力,必须交给最专业的团队来做。


元象认可这一点,这是合作能走到今天的前提。


05

元象如何评价这次合作


在签约后的深度对话里,元象算法负责人说了这样一段话:


腾云智算作为我们的推理云合作伙伴非常专业:

推理并发和吞吐翻倍、首Token延迟下降40%、用户留存不下降,这个结果说实话是很震撼的。

我们对接下来在Serverless推理服务、推理优化、Multi-LoRA部署等方向上的合作很期待


"很震撼"这三个字,我们记住了。


不是因为这是一句好话,而是因为这句话说明了一件事:大多数AIGC公司,还没有见过推理优化被认真做是什么样子。


这既是我们存在的理由,也是我们还有很多事情要做的提醒。


06

我们和元象要一起做的事



目前,双方的合作已迈入下一阶段,并锁定了三个极具前瞻性的方向:



元象将迁移至完全Serverless的产品形态,底层资源对业务层完全透明。


对C端产品来说,弹性比固定资源更重要——流量高峰自动扩容,低谷自动释放,算力成本随业务走,不再有资源闲置的浪费。



元象有多个差异化场景,需要不同风格的模型能力。


Multi-LoRA方案在同一基座上挂载多个LoRA,按需调度,同一批GPU覆盖多个业务场景,算力利用率大幅提升。这是AIGC推理下一个有真实价值的工程方向。



模型在迭代,场景在扩展,这不是一次性的工程,是长期的技术合作。


腾云智算


腾云智算是一家专注AI推理优化的云服务商,我们做的事情用一句话说:


让AIGC团队只需要对接API,推理优化、MLOps、弹性扩缩的事情由我们来做。


我们的定位不是算力平台,是API Inference Cloud。


核心技术


EAGLE3投机解码


已被SGLang、Eagle-3收录,HuggingFace下载量 20,000+


NVFP4量化推理全链路方案


QAT+DPO训练与推理一体化平台



目标客户



有自研或精调模型、推理成本是核心经营压力、希望算法团队专注在模型和业务而不是推理工程上的AIGC应用公司。


如果您的团队正面临以上难题,欢迎来聊!





 往期精彩回顾↓↓

SAIIA



关于协会

深圳市人工智能行业协会(简称:SAIIA)成立于2017年,经深圳市民政局核准注册登记,由与人工智能有关的企事业单位自愿发起的非营利性社会团体组织,是全国首家人工智能行业协会,被深圳市民政局评为5A级社会组织。协会致力于加速人工智能技术成果转化,构建人工智能应用生态体系,推动人工智能技术和应用的发展,并规范行业行为、推动行业自律提供行业服务、保障行业良性发展。


协会荣誉

5A级社会组织、2025年广东省“四好”商会建设优秀案例、2025深圳标杆商会、联合国大学(UNU)全球人工智能网络成员、“AI ALLIANCENET WORK”创始单位、首批广东省智能制造生态合作伙伴、深圳市高技能人才培训基地“数字经济”专项基地、深圳市人大常委会立法联系点、知识产权保护工作站、公平贸易工作站、海智工作站、深圳行业协会商会高质量100




 入会、合作咨询

 请添加小助理微信号

 saiia2020