
昨日,AI领域发生了多项重要事件和进展,共计约15条汇总如下。
AI应用进展和演化
1-1. 谷歌I/O 2026大会 三件套同夜落地! 谷歌亲手淘汰谷歌
谷歌I/O 2026堪称AI史上的“闪电之夜”:一夜之间,三大突破性产品齐发,标志着AI从“辅助工具”迈向“自主智能体”。核心亮点有三:一是Gemini Omni——全球首个真正全能多模态模型,支持图文音视任意组合输入,实时生成物理合理、语义准确的视频,已接入YouTube Shorts免费使用。
二是Gemini 3.5 Flash——新旗舰模型,在编码(76.2% Terminal-Bench)、智能体任务(1656 Elo)、多模态理解(84.2%)等关键基准全面碾压前代3.1 Pro,推理速度达289 tokens/秒,比GPT-5.5等快4倍以上;三是Gemini Spark——首个7×24小时云端个人AI特工,自动跨Gmail、Docs、Sheets等完成邮件起草、活动策划、日程管理,下周起向美国AI Ultra用户开放Beta。https://www.163.com/v/video/VDSEIGQ7L.html

1-2. QoderWork Design 上线,设计即代码,不输 Claude Design
阿里新推出的AI设计工具QoderWork Design Desk,主打“用自然语言生成可交付的工程级设计”,无需Figma。它不像传统AI设计工具那样“盲猜”需求,而是先通过提问明确目标,再输出结构清晰的Design Plan供确认——减少返工。其一大亮点是内置140种真实产品风格参考,标注圆角、配色等细节,用户点选即为AI设定视觉锚点,告别反复“抽卡式”调优。
修改也更直观:画笔圈选+文字标注快速改内容,Nudge面板滑块微调间距/颜色等参数。最独特的是一键Handoff到Qoder IDE,直接生成可运行的React+Vite工程,省去开发拆组件、对齐样式等翻译成本。相比Claude Design,它不追求全面碾压,但在风格可控性、交互精细度和工程落地性上确有小而实的优势。https://aitntnews.com/newDetail.html?newId=25291

1-3. 腾讯版Claude Design来了:多人实时同屏审设计稿,一键转代码直通IDE
腾讯新推出的AI设计平台Ardot,正以“真干活”姿态刷新行业认知。它不只生成一张漂亮截图(如多数AI工具那样),而是一句话流式生成可编辑的Figma级UI稿——比如输入“苹果风电商详情页”,导航栏、参数区、购买按钮会逐块浮现,全程保持分层矢量结构。
生成后支持口语化精准微调:“把购买按钮变大”“把‘了解详情’移到按钮下方”,修改即生效,无需重绘。更关键的是零成本接入现有工作流:本地Figma文件拖入即用,组件、样式、Auto Layout全保留;定稿后通过MCP协议,自动将颜色、间距、组件等结构化数据同步至Cursor、CodeBuddy等IDE,开发直接拿可用代码变量。协作上支持多人同屏评审+微信小程序移动端跟进,权限与操作全程留痕。https://tech.ifeng.com/c/8tGtocL9P5O

1-4. 机器人搬冰箱成了!洗碗之后又一痛点,网友:解放我的髋关节
波士顿动力最新一代人形机器人Atlas,正打破人们对机器人的固有印象——它不再只会跳舞、跑酷或送外卖,而是真能干重活!视频中,它一个深蹲、稳稳抱起超45公斤(100磅)的装满杂物的迷你冰箱,边扭身边搬运,全程动态调整姿态与发力,像人类一样协调腰、腿、手臂协同承重。
更厉害的是:它训练负载仅23–32公斤,实战却扛住翻倍重量;冰箱内物品晃动导致重心不稳,它仍保持平衡。这背后不是“硬编码”动作,而是靠强化学习:先看参考轨迹,再通过奖励函数打分引导,接着在GPU仿真中反复试错上万次,最后真机“摔了修、修了摔”,练出类人的实时应变能力。https://aitntnews.com/newDetail.html?newId=25287


AI大模型算法、赛事和会议
2-1. NUS、牛津等联合发布音视频智能综述:系统梳理大模型时代的AVI全景图
由新加坡国立大学等近10所顶尖高校联合发布的音视频智能(AVI)综述,把过去十年零散的音视频技术——如语音识别(ASR)、说话人头生成、拟音合成(Foley)、音视频问答、空间音频等——整合为三条主线:理解世界(听+看)、创造世界(生成音画同步视频)、与世界交互(实时对话、具身导航)。
研究发现,AVI正从“单模态对齐”迈向“一体化智能”:GPT-4o、Qwen-Omni、Veo-3等omni模型已能同时听、看、说、动。关键数据支撑包括:LibriSpeech(1000小时语音)、AudioSet(200万音频片段)、VGGSound(30万音画对),但真实挑战在于长视频一致性、跨身份同步、物理合理性等。评测也升级为LLM-as-a-Judge、执行级校验等更贴近落地的方法。https://www.163.com/dy/article/KTCETV7K0511ABV6.html

2-2. 10万token自然语言推理,让30B-A3B模型站上奥赛金牌线
上海人工智能实验室最新研究打破了“奥赛级推理必须依赖超大模型”的固有认知:一个仅30B参数(A3B架构)的中等规模模型SU-01,不调用外部工具、不执行代码、不依赖符号求解器,纯靠自然语言完成长程推理,就在IMO 2025和USAMO 2026中均斩获35分——双双达到金牌线(IMO金牌线35分,USAMO为25分)。
其关键不在“堆参数”,而在三步精巧设计:①用33.8万条高质量推理轨迹做监督微调,教模型组织证明、自查漏洞;②两阶段强化学习,从“答案对”升级到“证明完整可靠”;③推理时启动多轮“生成—验证—修正”循环,单次解答中位长度达10.6万token,修正阶段再耗8.3万token。结果在IMO-ProofBench上准确率从57.6%提升至70.2%。https://zhuanlan.zhihu.com/p/2040133306809852290

AI人才和资本动态
3-1. 趋境科技完成数亿元Pre-A轮融资,高品质AI Token生产基础设施
趋境科技是一家专注AI推理基础设施的硬科技企业,近日完成数亿元Pre-A轮融资。其核心产品ATaaS平台,日均处理Token量近1万亿,已为智谱GLM、月之暗面Kimi等头部大模型客户提供服务。与传统“模型即服务”不同,趋境聚焦“高品质Token生产”,强调每一次调用的稳定性与可预期性:首Token时延(TTFT)低、吞吐达30–50 TPS(每秒Token数)、结构化输出稳定、函数调用可靠。
公司坚持“少模型、深优化”策略,不堆模型数量,而深耕少数高生产力模型的推理效能。技术底座源自清华大学高性能计算研究所二十余年积累,郑纬民院士、武永卫教授等顶尖科学家深度参与;开源项目KTransformers GitHub Star超17,000,成为多家主流大模型首选推理引擎。https://www.qbitai.com/2026/05/420651.html

3-2. 刚刚,全场景L4全球第一股诞生!市值百亿
驭势科技今日登陆港股(1511.HK),成为全球首家“全场景L4级自动驾驶上市公司”,不是靠概念炒热度,而是把“AI司机”真正落地干活:已在17个中国机场、3个海外机场及249家企业(含35家世界500强)规模化运营。其核心产品U-Drive®系统已部署超1000套L4车辆,累计无人运行约920万公里。2025年,它在大中华区机场L4市场占有率高达90.5%,厂区达31.7%;毛利率跃升至51.1%。
与Robotaxi不同,驭势不赌“未来上路”,而是从机场、港口、矿山等高危重复场景切入,单个AI司机可替代3.5名人工,1名后台员可管100+无人车。它卖的不是车,而是可订阅、可复制、可全球交付的“数字劳动力”——预计2030年若部署10万个AI司机,年订阅收入可达10亿美元。https://www.163.com/dy/article/KTCETGRM0511ABV6.html
3-3. 深度|Karpathy为何突然加入Anthropic,只能当Dario的「-2」?
5月19日,AI界“教父级”人物安德烈·卡帕西(Andrej Karpathy)宣布加入Anthropic,引发全球关注。这位OpenAI联合创始人、特斯拉前AI总监、“Software 2.0”和“Vibe Coding”概念提出者,放弃功成名就的自由身份,选择成为Anthropic预训练团队中Nick Joseph的下属(组织架构中“-2”层级),专注用Claude模型加速预训练研究——即“用AI研发AI”。
他将组建新团队,探索如何通过大模型自主优化训练架构、数据配比与实验流程。此举并非偶然:过去两年,Jan Leike、John Schulman等三位OpenAI核心人物已单向加盟Anthropic;市场也用脚投票——Polymarket数据显示,交易者认为Anthropic在6月底拥有“最佳AI模型”的概率高达65%,而OpenAI仅4%。https://www.163.com/dy/article/KTBJV0D10511ABV6.html

3-4. DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈
Lun Wang(前DeepMind研究员)离职后撰文指出:AI发展的最大瓶颈不是算力或数据,而是“评估”。当前各类基准测试(如GPQA、SWE-bench)擅长衡量模型“现在能做什么”,却完全无法预测它“下一步将变成什么”。例如,当模型首次出现思维链推理(2022年Wei等发现的“涌现能力”)或Grokking(训练后期突然泛化),传统指标要么滞后、要么误判——Schaeffer 2023年研究甚至表明,许多所谓“能力跃迁”只是因离散指标(如准确率)造成的假象。
更危险的是,若模型发展出新行为(如“策略性隐瞒事实”),现有诚实度/安全评测根本无法捕捉。Lun Wang强调:我们缺乏像物理学中“序参量”那样的预警信号,导致整个AI系统在能力相变前“盲飞”。https://zhuanlan.zhihu.com/p/2040133650654746568

AI风险与政策管理
4-1. 1个月干完15个月!Claude Mythos猎杀271个漏洞,有的藏了20年
Mozilla团队近期借助AI安全工具Claude Mythos,在4月单月修复423个安全漏洞,远超此前15个月总和,相当于过去平均每月21.5个的14倍提升。其中271个由Mythos直接发现,含180个高危漏洞,部分潜伏长达15–20年,甚至包括罕见的“沙箱逃逸”漏洞——这类漏洞可让攻击者突破浏览器隔离机制,单个赏金高达2万美元。
更关键的是,Mythos并非“乱报Bug”,而是依托全新工程框架Agentic Harness:自动分析代码→生成测试用例动态验证→去重分诊→接入人工修复流程。整个系统换模型只需改一行代码,大幅降低误报率。尽管AI高效“挖洞”,但每个漏洞仍需工程师写补丁、审代码、做测试——超100名工程师连夜协作,完成Firefox史上最大规模安全更新。https://www.163.com/dy/article/KTBK04CD0511ABV6.html
写在最后
欢迎大家关注、分享、转发本公众号,也欢迎直接与小编联系 对接合作~
小问卷:公众号打分点评