
周末,AI领域发生了多项重要事件和进展,共计约15条汇总如下。
AI应用进展和演化
1-1. 龙虾之父月烧940万元的token!要不是入职OpenAI还真用不起
“龙虾之父”Peter Steinberger(OpenClaw创始人)近期公开其AI开发账单:过去30天,调用OpenAI API花费130.5万美元(约940万元人民币),消耗6030亿token,发起760万次请求——全部由OpenAI补贴承担。
这些资源主要用于运行约100个AI Agent(Codex),协同完成代码审查、漏洞扫描、自动修复、会议纪要转PR等软件开发全流程任务,实现高度“流水线化”的AI协作。虽可降本70%(月费仍达40万美元),但虾爹强调:相比旧金山高级工程师年薪数十万美元,这套AI团队更高效、更便宜。这并非“烧钱”,而是将AI视为“数字员工”,推动软件开发从“人用工具”迈向“人管Agent”。https://www.qbitai.com/2026/05/418822.html

1-2. 6.4k Stars!用Claude Code写论文的全套流水线,有人打包开源了
这是一套专为学术写作打造的AI辅助工具——academic-research-skills(ARS),已在GitHub开源并获6.4k星标。它用Claude Code构建了4个智能协作团队:Deep Research、Academic Paper、Reviewer、Pipeline(串联10阶段全流程)。整套系统两行命令即可安装,支持中英文,输出兼容LaTeX/DOCX/Markdown,可直接生成APA或IEEE格式PDF。
最亮眼的是它的“防翻车”设计:引用必经Semantic Scholar API核验(模糊匹配阈值0.7);设两道“完整性闸门”,自动筛查7类AI常见错误(实测揪出15个伪造引用);审稿时“魔鬼代言人”强制挑刺,且不许AI轻易让步;数据严格分三层隔离,避免AI“偷看答案”。全程跑完一篇1.5万字论文仅需4–6美元(约30–45元)。https://www.qbitai.com/2026/05/418737.html

1-3. 当机器学会了“手艺”:Agent Skill如何重塑世界
智能体时代的“技能”,已不再是人类独有的肌肉记忆或经验沉淀,而是一种可封装、复制、迁移的“数字认知模块”。它不是手机里的单一功能,而是能理解模糊需求、调用多源信息、自主决策执行的完整能力单元——例如“预订氛围好的意大利餐厅”,需综合口味偏好、禁忌、路况、日历等。
目前全球已有大量的商用智能体技能上线,正快速替代翻译、基础编程、客服等重复性知识工作。这带来双重效应:一方面降低专业门槛,让普通人秒获法律、行程规划等能力;另一方面冲击传统职业护城河,十年积累的“手感”可能一夜贬值。当技能可流动、可组合,人类的核心价值正从“会做事”转向“定目标、判对错、提问题”——做意图的源头,而非能力的容器。https://www.ofweek.com/ai/2026-05/ART-201717-8420-30687598.html

AI大模型算法、赛事和会议
2-1. SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”
在多模态大模型训练中,SFT非但没为强化学习(RL)铺路,反而挖了个“隐形坑”。数据显示,Qwen3-VL-8B模型经SFT后,在7个主流基准上的平均准确率下降5.2个百分点(63.3% → 58.1%),后续RL只能勉强“回血”到原起点——相当于RL一半功夫在“还债”。
根本原因在于:SFT强行用GPT/Gemini蒸馏数据等新分布覆盖已成熟的基座模型,导致感知偏差(“看错图”)和推理偏差(“想歪了”)同时恶化。PRISM提出全新三阶段范式,通过混合专家判别和黑盒蒸馏技术,无需教师模型内部参数即可实现精准对齐。实验表明,加入PRISM后,Qwen3-VL-8B在数学与通用多模态任务上平均提升+6.0分,验证了“补好断层,比跑得更快更重要”这一朴素却关键的洞见。https://www.qbitai.com/2026/05/418814.html

2-2. 一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式
Meta AI与港中文团队提出全新视觉推理范式ATLAS,用“一个词”革新大模型看图解题方式。它不生成中间图像、不调用外部工具、无需视觉监督,仅通过插入离散的Functional Token在文本推理链中隐式触发视觉操作——就像给模型教会了一套“视觉暗号”。
该方法统一了传统Agentic与Latent(纯内部表征)两大范式:既有明确操作语义,又保持轻量高效。团队构建了覆盖40+任务的ATLAS-178K数据集,采用SFT+RL两阶段训练,并创新提出LA-GRPO算法,精准强化稀疏Functional Token的梯度信号,避免“乱打标记”。实验表明,ATLAS在几何推理、空间关系、细粒度判断等任务上显著提升,推理速度比图像生成类方法快3–5倍,且完全兼容现有大模型训练流程。https://view.inews.qq.com/k/20260517A03M3R00

2-3. 8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026
Thoth是上海人工智能实验室等团队推出的首个面向生物实验protocol生成的科学推理模型,旨在解决当前大模型“写得像、但做不了”的痛点。实验protocol不是普通说明文,而是需满足粒度合适、顺序正确、语义准确的执行蓝图——例如缩放试剂体积时,APS和TEMED必须按比例精确调整,错1步就导致实验失败。
传统文本指标(如BLEU)无法识别这类执行级错误。Thoth创新提出“Sketch-and-Fill”推理范式:先结构化生成原子步骤,再转为自然语言;并设计SCORE评估体系。依托覆盖27个生物子领域的高质量数据集SciRecipe,Thoth在多项评测中超越Qwen3-8B(+17.78%)、DeepSeek-V3(顺序匹配+4.06%,参数保真+4.88%),甚至小幅领先ChatGPT-4o。https://aitntnews.com/newDetail.html?newId=25162

AI人才和资本动态
3-1. 贝佐斯380亿物理AI黑马杀出!联手斯坦福科学家,不卷OpenAI
贝佐斯“重返一线”,创办AI公司Project Prometheus(普罗米修斯),估值已达约380亿美元,刚完成近100亿美元融资,获贝莱德、摩根大通等顶级机构加持。与OpenAI等聚焦大模型和聊天机器人的“数字AI”不同,Prometheus专攻“物理AI”——把AI深度嵌入工厂、航天、芯片、汽车等实体经济场景。
其核心思路是:用高保真物理仿真训练AI,再让AI优化真实产线,形成“工厂喂数据→模型变更强→反哺工厂提效”的飞轮闭环。公司由贝佐斯亲任联席CEO,团队50–200人,布局旧金山、伦敦、苏黎世——直指AI人才与高端制造双中心。更关键的是,贝佐斯同步推动一只1000亿美元产业并购基金,计划收购传统制造与航天企业,用AI系统重构其运营。https://www.163.com/dy/article/KT4P11FK0511ABV6.html

3-2. 宠物健康大模型公司连融两轮,软硬一体化布局,已服务超200家宠物医院
绮算法科技是一家专注宠物健康AI的创新企业,2022年成立于重庆,核心团队来自英国国王学院、宾大等顶尖高校,深耕AI医疗与边缘计算。公司以“多模态大模型+软硬一体”为特色,已训练超千万份宠物病历、影像及行为数据,打造更懂猫狗的垂直模型。
其AI辅助问诊系统免费开放,服务超100万次问诊,覆盖200+宠物医院、3000名医生,日活近5000人,形成“问诊—诊疗—用药—数据回流”闭环。硬件方面,全球最轻(仅19克)的帕奇宠AI项圈3.0已售近2万台;AI喂食器预售1000台,AI ICU设备落地30+医院。还与OPPO合作,服务数十万用户。本轮获启赋资本、聚恒创投数千万元融资,将加速产品迭代与市场拓展,目标成为宠物健康管理的“基础设施级”平台。https://aitntnews.com/newDetail.html?newId=25183
3-3. 首发|王腾投身AI睡眠,今日宜休又融资了
今日宜休,是前小米“红米操盘手”王腾于2025年1月创办的AI睡眠健康公司。这位曾带出千万级爆款手机、坐拥186万粉丝的消费电子老兵,转身扎进“睡觉”这门古老生意——不是卖床垫或枕头,而是用AI做24小时在线的“精力管家”。数据显示,我国中等收入群体平均睡眠仅6.85小时,近半数人凌晨后入睡;睡眠健康产业规模预计2030年将破万亿元。
今日宜休已获两轮融資:种子轮数千万元,由高瓴、云九等领投;最新一轮再获CMC资本、弘晖基金等新老股东加持,老股东全部超额追投。公司不堆硬件参数,而是通过无感多模态传感器采集生理与环境数据,构建个人“精力档案”,让AI真正理解“为何睡不好”,并动态调节睡眠环境、给出日间精力建议。https://news.qq.com/rain/a/20260512A030G900
AI风险与政策管理
4-1. Claude Mythos猛虎出笼!秒破人类一年无解漏洞,GPT-5.5都压不住
Anthropic被传“因太危险而雪藏”的绝密大模型Claude Mythos,悄然在谷歌云上线——“Preview”标签已消失,标志其正式解禁。卡内基梅隆大学最新实测显示:Mythos在真实浏览器漏洞攻防基准ExploitBench(含41个野外高危CVE)中表现惊人——均分9.90/16,成功突破21个漏洞(T1级),远超GPT-5.5的5.51分、仅2个T1。
更关键的是,Mythos在全自主模式下仍达9.55分,几乎无需人工提示,而GPT-5.5跌至4.30分。它甚至用129轮调用破解了人类研究者苦战一年未果的“悬案漏洞”CVE-2024-0519,并首创性恢复V8随机数状态实现稳定利用。不过代价高昂:单次完整测试耗资约3.6万美元,是GPT-5.5(3075美元)的12倍。https://www.163.com/dy/article/KT4HFRMK0511ABV6.html

写在最后
欢迎大家关注、分享、转发本公众号,也欢迎直接与小编联系 对接合作~
小问卷:公众号打分点评