AMD高级副总裁、计算与图形总经理Jack Huynh谈道,到2030年,将有50亿人使用AI,几乎覆盖地球上的每一个人。PC普及花了45年,互联网花了27年,智能手机花了15年,与以往任何技术相比,AI的普及速度都是史无前例的。推理Token需求的激增正在推动服务成本飙升,算力已从成本问题演变为战略资源的竞争。对于AI开发者而言,一套更高效的方案究竟应该是什么样的?AMD给出的答案覆盖AI部署路径三阶段:开发、规模测试、部署。1、开发算力不再是唯一的决定性制约因素,内存所扮演的角色远比以往重要得多。内存大小决定了能运行的模型规模和上下文窗口的长度,内存带宽决定了解码速度。这正是AMD打造Ryzen AI Max的原因——128GB统一内存,能在本地运行200B前沿模型,整个模型置于同一内存池中,无需分片,无需卸载,带来如云端部署般的体验。搭载它的设备轻薄到可以放入背包里。目前市面上已有超过35款搭载Ryzen AI Max的系统,其中许多在中国上市,涵盖笔记本电脑、一体机和紧凑型工作站。2、规模化测试Radeon AI Pro R9700 GPU专为那些需要超越笔记本性能、但尚未准备好将一切推入生产基础设施的开发者而打造,用于原型开发、微调与推理开发,旨在为开发者提供工作站加速能力。AI工作负载涉及调度编排、数据移动和工具调用,需要多Agent同时运行。这就要有一颗能够跟上节奏的主机处理器——Threadripper Pro 9000,AMD称它是“世界最快的工作站CPU”,提供128条PCIe 5.0通道,可从单一主机支撑多块Radeon AI Pro GPU协同运行。这意味着AI开发者可以在本地构建,在规模化环境中测试与模拟,以极具成本效益的方式优化部署方案。3、部署在AMD上构建的产品,其软件栈会持续成熟与演进。过去18个月,AMD持续加速,让开发者更轻松地基于开放标准、跨异构系统进行开发,不断简化从开发、交付到部署的整个过程。Ryzen AI Max用于本地开发,Radeon AI Pro配合ROCm用于规模化测试,开发者可以立即让数十个Agent投入运行,不再受制于公有云会话限制或云端容量瓶颈,一切由开源软件生态驱动。“二十年前,PC意味着一个人与一台机器。未来二十年,则是一个人指挥一组Agent团队。”Jack Huynh展开说,数百个Agent在靠近工作发生的地方运行,实现更快的循环、更可预期的算力,以及在灵感迸发后立即付诸实践的自由。 04.Nick Ni:已适配DeepSeek、MiMo等国产模型,AMD用Agent辅助构建AI软件平台
AMD人工智能事业部高级总监Nick Ni着重分享了AMD的软件投入——面向所有AMD GPU的ROCm统一软件平台,让任何AI模型都能在AMD硬件上进行训练和推理,做到几乎零摩擦。ROCm有三大战略支柱:开源、抽象层、AI助手。开源方面,通过Hugging Face和魔搭社区,ROCm现支持超过300万个模型,对DeepSeek、阿里Qwen、MiniMax、Kimi、阶跃星辰、小米MiMo等的前沿开源模型做到了Day0支持。抽象层方面,如果开发者想编写自定义GPU内核,ROCm原生支持OpenAI Triton,还有Gluon、TileLang、FlyDSL等新项目,让GPU编程的体验更接近写Python。AI助手方面,AMD正在使用Agent来帮助构建ROCm本身,AI编写GPU内核、分析性能瓶颈、自动完成“基准测试→优化”的闭环。AMD有数千个Agent在持续监控开源项目,识别AMD支持中的缺口,自动生成完整的PR(Pull Request),在工程师早上起床前就已完成自动测试。其工程师从每周提交几个PR,提升到了每天提交几个PR。AI还可以辅助做性能优化。每个模型、每个推理负载、每次训练运行都有不同的内核特征,手动探索优化空间极其缓慢。Agent能生成内核排列组合,自动做性能分析并迭代,速度远超单个工程师。面向开发者,AMD推出了AMD AI Playbooks(AI实践手册)网站,提供涵盖各类热门AI工作负载的分步指南,包括本地推理、强化学习、视频生成到微调等,Windows和Linux都支持。AMD AI开发者计划提供免费云端算力券、超过100小时的教学内容、专属会员社群及技术支持,还构建了一个有趣的积分系统。 05.朱亦博:笔记本跑近200B阶跃星辰大模型,解码速度比很多云端API还快
阶跃星辰联合创始人兼CTO朱亦博谈道,阶跃星辰今年2月发布的Step 3.5 Flash模型,从设计之初就以智能体任务为核心目标,能够可靠地进行工具调用、高效运行。该模型拥有约1960亿参数,其在4位量化后能在AMD平台上流畅运行,包括搭载AI Max+ 395的AMD笔记本电脑。模型需要大约100GB内存,而Ryzen AI Max+ 395恰好有128GB统一内存。通过与AMD工程师合作优化,Step 3.5在AMD笔记本上解码速度接近每秒100个Token,甚至比很多云端模型API还要快。朱亦博透露说,很快阶跃星辰将发布一个智能体能力更强的新模型,它可以继续在AMD平台上流畅运行。他相信未来AI模型一定是端云协同,今天开发者使用云端大模型的Token成本正在急剧上升,如果能在本地运行一个足够强的模型,Token成本将趋近于零。 06.汪玉:与AMD联合设计物理AI推理框架,4个月揽星3.3K