lch
发布于 2026-05-11 / 0 阅读
0

图灵奖得主辛顿、杨立昆与李飞飞的世界模型之争

点击上方图灵人工智能”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达


图片

转自AI-lab学习笔记,仅用于学术分享,如有侵权留言删除

—— LLM 到底懂不懂这个世界?

AlphaFold 拿了诺贝尔奖,GPT 通过了律师考试 —— 但 Sora 的玻璃穿过了桌子。LLM 到底懂不懂这个世界?LeCun 离开 Meta 创办 AMI Labs,李飞飞押注 World Labs,谢赛宁两次拒绝 Ilya —— 站在前沿的人给出了截然不同的答案。


开篇:三个让 AI 圈尴尬的瞬间

瞬间一。 2024 年,你在 GPT-4o 里让它画一只手。图是好看的 —— 线条流畅、光影逼真 —— 只有一个问题:那只手有六根手指。你让它重画,它画了七根。再重画,五根 —— 但大拇指长得像小指。

瞬间二。 2024 年 2 月,OpenAI 发布 Sora,号称“世界模拟器”。演示视频里:一个女人在东京街头走路、樱花飘落、灯光闪烁、精美无比。但仔细看有一段 —— 一个玻璃杯被打翻,玻璃直接穿过桌子落到了地板。OpenAI 自己的技术博客里展示了这段视频,承认“模型对物理仍有理解限制”。

瞬间三。 2016 年 3 月,AlphaGo 在第 37 手下了那个震惊全世界的棋。赛后记者问李世石:“你觉得它知道自己在下围棋吗?”李世石沉默了很久,说:“我不知道。它走的每一步都像在思考,但也可能它什么都没想。”

这三个瞬间指向同一个问题:AI 到底理解什么?

它画不对手指,是因为不懂“手是什么、人有几根手指” —— 还是因为“它懂,只是没有把手这个概念表征得好”?它让玻璃穿过桌子,是因为根本没有物理概念 —— 还是因为“它有,只是调用不到”?

这个问题听起来像哲学系的午后闲谈。但 AGI 走哪条路,一半取决于这个问题的答案。


但先让我们承认一个事实

在追问 AI “不懂什么”之前,先看看它已经做到了什么

2024 年,DeepMind 的 AlphaFold 把蛋白质结构预测从“博士论文级难题”变成了“几分钟出结果” —— Demis Hassabis 因此获得诺贝尔化学奖。这不是聊天机器人的花活,这是真实的科学突破,改变了生物学、医学、制药整个链条。

GPT-4 通过了美国律师资格考试(前 10%)、USMLE 医学执照考试,在 SAT 数学里接近满分。Claude 能一次性写出几千行代码并通过测试。LLM 正在帮全世界的学生理解微积分、帮不懂编程的人建网站、帮医生阅读文献。

这些贡献是实实在在的。否认它们,跟否认 LLM 的局限一样不诚实。

所以接下来的文章不是“LLM 不行”。而是:它行在哪里、不行在哪里、为什么?以及 —— 站在前沿的那些人,正在怎么想这个问题。


第一章:LeCun 的十年异议

如果你只能记住本文里一个人的名字,记住这个:Yann LeCun

他不是普通人。他是卷积神经网络的发明人之一。1989 年他在贝尔实验室用 CNN 识别手写邮政编码 —— 那是深度学习工业应用的第一个重大胜利。2018 年他和 Hinton、Bengio 一起获得图灵奖 —— AI 界的诺贝尔。他曾是 Meta 首席 AI 科学家,2025 年 11 月离开效力 13 年的 Meta,创办了一家押注世界模型的公司 AMI Labs

这样一个人,在 LLM 最热的时候提出了一条完全不同的路径。从 2016 年开始,LeCun 就在不同场合表达过这个核心论点。2022 年到 2024 年,他在 Twitter、访谈、演讲里说得越来越直白:

“LLM 是一条死胡同(off-ramp)。它们永远不会达到人类级别的智能。”

这不是谦虚或修辞。他讲了一个非常具体的技术论点:LLM 学的是文本表层的统计模式,不是世界的因果和物理结构

他常用的类比是:“一只猫比目前任何 LLM 都更懂这个世界。”为什么?因为一只猫知道:从桌子上跳下去会落地(重力);推一下玻璃杯它会滑动(摩擦和动量);躲到沙发后面主人就看不见它(遮挡、空间);听到罐头声音意味着吃的要来了(因果关联)。

这些常识一只猫用几个月就学会了。GPT-4 读遍整个互联网,还是会说“6 根手指”。

LeCun 有一个更激进的数字对比:一个 17 岁的青少年,20 小时就能学会开车。一个现代自动驾驶系统,用几百万小时的驾驶数据,还没法可靠处理边缘情况。他的结论是:人类是通过感知和互动学习世界的,不是通过文本。LLM 走反了路。

他提出了一个替代方案,叫 JEPA(Joint Embedding Predictive Architecture),我们第四章会详细讲。核心思想是:不要预测下一个 token,要预测抽象表示空间里的下一个状态

这话在 2022 年听起来像在说“深度学习走错了路” —— 在一个 LLM 刚刚让所有人疯狂、OpenAI 估值破千亿美元的时刻,这是极不讨好的观点。但 LeCun 坚持了 10 年。


第二章:Hinton 的反驳

Geoffrey Hinton —— 深度学习之父,LeCun 的图灵奖合作者,2024 年诺贝尔物理学奖得主(和 Hopfield 一起拿的,因为反向传播)。如果有一个人和 LeCun 平起平坐,就是 Hinton。

2023 年,77 岁的 Hinton 辞去了 Google 的职位。所有人都以为他会站出来批评 LLM 的局限性 —— 毕竟他是“AI 将毁灭人类”的预警者。很多记者以为他会赞同 LeCun。他恰恰相反。

Hinton 说:“LLM 其实已经在理解了。你只是没看见它在理解。

“当你把整个互联网的文本压缩进一个固定大小的模型 —— 几百 GB 变成几十 GB —— 你不可能只靠记忆做到。你必须提炼出世界的结构。这个结构就是一种理解。”

这个说法和贾因斯 1957 年谈熵时说的话几乎是一脉的 —— 压缩即理解。Hinton 的论据很直接:

你能问 GPT “如果我把一个苹果放到碗里,然后把碗倒过来,苹果在哪里?”它答对。它没有身体,没有眼睛,没有手 —— 但它答对了。你能问它 “假如动物不会疼,人类会更喜欢吃肉吗?”它能给出复杂的反事实推理。它在心里模拟一个不存在的世界。你能问它翻译一首从来没被翻译过的俄语诗。它用的不是查表,是语义上的把握

Hinton 有一个很重要的思想轨迹转变

“我以前以为,AI 要真正理解世界,必须像人一样有感知、有身体、有互动。我 2023 年改变了看法。我认为 LLM 证明了:理解可以从足够丰富的文本压缩中涌现出来。”

这段话分量极重。它等于说:LeCun 基于的那个‘人类怎么学习’的前提,可能根本不适用于硅基智能。

于是两位图灵奖得主,一位诺贝尔物理学奖得主,在 AI 理解世界这件事上,给出了截然不同的答案。这不一定是谁对谁错 —— 他们可能在描述同一座冰山的不同面。但分歧是真实的,而且这个分歧决定了 AGI 的下一步往哪走。


第三章:硬证据 —— LLM 内部到底有没有世界模型?

哲学辩论没有尽头,但近几年有一些实证工作让这场辩论有了锚点。

证据一:Othello-GPT(Li 等人, 2022)

研究者拿一个标准的 Transformer,只喂它一件东西:Othello 棋谱序列(比如 “e4 d6 c4 e5 ...”)。不告诉它棋盘长什么样、不告诉它规则、不告诉它这是游戏。就是一堆看起来像乱码的短字符串。

训练完后,研究者对模型内部激活做了一个叫 probing(探针)的实验:能不能从模型的中间层激活,还原出此时棋盘的完整状态能。他们用一个简单的线性分类器,就能从模型内部读出每个格子上是黑子、白子还是空。准确率接近 100%。

这个模型从来没见过一张棋盘。它只见过字符串。但它自发在内部构建了一个 8×8 的棋盘表征,并且用这个表征来预测下一步合法走法。一年后,Neel Nanda 等人做了一个更狠的实验:他们编辑模型内部的棋盘表征,强行把某个格子的状态改成“白子在这里” —— 结果模型接下来的预测就按照这个被编辑过的棋盘状态来走。

这不是“看起来像”。这是一个真正的棋盘模型。

如果一个只读过棋谱的模型能涌现出棋盘表征,一个读过整个互联网的模型,在内部涌现了什么?

证据二:空间和时间(Gurnee & Tegmark, 2023)

Max Tegmark(MIT 物理学家、作家)和学生 Wes Gurnee 收集了一大堆真实世界地点(城市、国家、地标)的名字,喂给 LLaMA,然后对内部激活做降维可视化。

结果:这些地点在模型里的表征位置,和它们在地球上的真实经纬度,几乎是一张地图的线性变换。 纽约在东北、东京在东、巴黎在中部欧洲 —— 一张模型内部的真实世界地图。他们又做了时间版本:历史事件、人物生卒年。模型内部有一根时间轴。标题取得很直白:Language Models Represent Space and Time

证据三:Anthropic 的稀疏自编码器(2024)

Anthropic 2024 年发表的可解释性论文里,用一种叫 Sparse Autoencoder(SAE)的技术,从 Claude 3 Sonnet 的中间层分离出了百万级数量的“单一概念”特征

其中一个特征精确对应:“金门大桥”。不是“大桥”、不是“旧金山”、不是“建筑” —— 精确到金门大桥。当激活这个特征,模型的回答会变得执着地提到金门大桥。当抑制这个特征,模型会“忘记”这个概念。他们还发现了“Python 代码错误”、“不确定性”、“即将发生的恶意行为”等等上万个可识别的语义特征。

这不是一个只会接词的词表。这是一个有内部概念结构的系统。

这些证据加起来说明什么?

说明 LLM 内部确实学到了某种世界模型。不是完整的物理引擎,不是婴儿那种 grounded 的常识,但也不是纯粹的表层模式匹配。它学到了某种中间状态:比字符串统计更深,比人类认知更浅。

LeCun 派的反驳:“这不是真正的世界模型。这是文本诱导出的伪世界模型,碰巧在分布内能用,一出分布就崩溃。”这个反驳也有证据 —— 就是 Sora 里的玻璃穿桌、GPT 画的 6 根手指。于是辩论继续。


第四章:JEPA 和 Transformer —— 架构分歧到底在哪?

LeCun 不只是批评 LLM,他提出了替代方案。要理解他的方案,先要看清 Transformer 到底在做什么:

Transformer 训练目标:给定前 n 个 token,预测第 n+1 个 token。

这个目标逼迫模型学习所有像素级(token 级)细节。LeCun 的批评:这就是问题所在。

想象你让一个人看一小时视频,然后预测下一帧。这是不可能的任务 —— 因为下一帧有无数种可能(光的微小变化、灰尘飘动、背景噪声)。所以模型为了最小化损失,必须学会给很多可能结果分配概率。大量的模型容量被浪费在预测不重要的细节上。

LeCun 的方案 JEPA(Joint Embedding Predictive Architecture)

JEPA 训练目标:给定输入,预测抽象表示空间里下一个状态 —— 不是像素、不是 token。

Transformer vs JEPA 架构对比

Transformer 要对齐每一个 token;JEPA 只对齐抽象状态。

这个区别听起来技术,但后果巨大:Transformer 必须学习细节,因为细节是它的损失函数;JEPA 不学习细节,它只学习“重要的是什么”。

LeCun 用一个比喻:“Transformer 预测下一个 token 就像你努力记住一本书里每一个逗号的位置。JEPA 预测下一个 embedding 就像你记住这本书在讲什么。”

2024 年,Meta 发布了 V-JEPA(视频版 JEPA)。它不预测下一帧的像素,而是预测下一段的抽象表示。初步结果显示:在物理合理性判断任务上,V-JEPA 比自回归视频模型强得多。

但 —— Sora 的路线不是 JEPA,是 DiT(Diffusion Transformer)。这就是本文的 cliffhanger。我们留到第六章说。


第五章:婴儿是怎么学世界的?

LeCun 派有一个最强的论据来自发展心理学。心理学家发现:婴儿在非常早的时候,就已经掌握了大量关于物理世界的常识 —— 远早于他们掌握语言

婴儿核心物理认知时间表

3 个月:物体恒存 —— 物体被盖住它仍然存在
5 个月:重力 —— 松手的东西会往下掉
6 个月:固态性 —— 两个固体不能占据同一空间
9 个月:因果 —— A 推 B 导致 B 动
1 岁:工具使用 —— 用棍子把够不到的东西拉近

这一切都是在不会说话的年纪完成的。婴儿不是读了一本《物理学入门》才知道这些。他们是通过身体和感知慢慢建立了一个关于这个世界的因果引擎。这个引擎比任何 LLM 都强大 —— 因为它不只是描述世界,它还能预测未观察的情况、想象反事实。

LeCun 的论点:“真正的智能需要一个世界模型,一个能让你在脑子里模拟事情、预测后果、想象未发生的事情的东西。纯文本训练永远建不起这个引擎。因为文本里没有因果,只有共现。”

反对派的回应:“LLM 从文本里也在学习因果结构。因为人类写作时已经把因果编码进了句子结构。证据就是 LLM 能做反事实推理、类比推理、chain-of-thought 推理。这些不是表层匹配能做到的。”

谁对?我的看法:LeCun 在一件事上对 —— LLM 缺少 grounded 的物理常识。这是为什么会有 6 根手指和穿桌玻璃。Hinton 在另一件事上对 —— LLM 内部确实在学抽象结构。这是为什么它能做反事实和类比。两件事不矛盾。

“理解”不是一个二值属性,是一个多维的、不均匀的东西。


第六章:Sora —— 一个测试案例

2024 年 2 月,OpenAI 发布 Sora。视频质量震惊了全世界。OpenAI 的博客里有一个大胆的声明:

“Sora 是一个视频生成模型,但我们相信它也是一个世界模拟器的早期版本。”

这个声明立刻引爆了整个辩论。Sora 到底有没有世界模型?

OpenAI 派的论证:Sora 能生成符合遮挡关系的视频;能生成符合重力的视频;能生成看起来有一致物理的视频(摄像机移动后场景保持一致)。这不是学到了某种物理模型是什么?

LeCun 派的反驳:Sora 经常出错。玻璃穿桌、绳子穿手、一个人走着走着变成两个人。这些错误不是“不够好”,而是物理上不可能 —— 一个真正有物理模型的系统不会犯这些错。Sora 学到的是“看起来像真实视频的统计分布”,不是“真实物理”。伪造符合物理的片段 ≠ 知道物理。

关键技术细节:Sora 用的不是 JEPA,而是 DiT(Diffusion Transformer) —— 本质上还是“预测 pixel 级别的细节”的路线。LeCun 派认为这就是问题根源。

我的判断:Sora 是一个非常强的“物理外观伪造器”,配了某种弱的物理先验。它不是 LeCun 理想中的世界模型,但也不是纯表层的模式匹配。它是一个中间产物 —— 像 LLM 一样。而这个中间产物足够好用,就让 OpenAI 又融了 400 亿美元。


第七章:“理解”到底是什么?

所有这些辩论最终会撞到同一个问题:“理解”到底是什么?哲学上有两个经典答案,值得知道。

答案一:Searle 的中文房间(1980)

哲学家 John Searle 提出了一个思想实验。想象一个只会说英语的人被关在一个房间里。外面的人用中文写纸条递进来,屋里这个人查一本详细的规则书(用英语写的),按规则写出中文回应,递出去。外面看起来:这个人懂中文。实际上:他完全不懂,他只是在查表。

Searle 的论点:符号处理 ≠ 理解。再强大的 LLM 也只是中文房间,不真的懂。

答案二:能做到就是懂(Turing, 1950)

图灵的答案:如果一个系统的行为和“真正懂”的系统无法区分,那么问它“是否真懂”就没有意义。这是个伪问题。Hinton 基本上是图灵派。他的观点:理解是能做预测、能泛化、能类比、能反事实推理的能力。LLM 能做这些,所以它懂 —— 至少懂某种程度。

我的观点

我认为 Searle 的中文房间问对了问题但给错了答案。对的问题是:“符号操作和真的懂之间有区别吗?”错的答案是“肯定有”。真实情况可能是:理解是一条连续光谱,不是二元开关

一个温度计“懂”温度吗?某种意义上懂 —— 它对温度有反应表达出来。一只猫“懂”重力吗?是的 —— 它能预测跳下去会落地。一个 LLM “懂”拿破仑吗?某种意义上懂 —— 它能正确回答大量关于拿破仑的问题、做反事实推理。

每一个系统都“懂”一些东西,“不懂”另一些东西。问“它是否真懂”是在把一个光谱压成一个点。

这个视角下:
• LLM 部分懂世界 —— 懂文本能捕捉的那部分
• LLM 不懂世界 —— 不懂感知接地的物理直觉
• 婴儿世界的物理,但不懂很多概念、关系、历史
• LeCun 和 Hinton 都对 —— 他们在说这个光谱的不同切片


第八章:站在前沿的,也是普通人

2026 年 3 月 16 日深夜,纽约布鲁克林,雪刚停。谢赛宁坐在一个播客录音棚里,已经连续说了六个小时。采访者张小珺问他怎么定义自己。他想了想,说了两个英文单词:

The normal one.

这不是谦虚。谢赛宁在上海交通大学 ACM 班读书时,周围全是信息学竞赛金牌得主。他不是天才少年,不是竞赛选手。他只是一个“正常人” —— 一个恰好对视觉表征着了迷的普通研究者。但这个“普通人”做了两件不普通的事。

两次拒绝 Ilya

2018 年,Ilya Sutskever —— OpenAI 首席科学家,AI 圈最炙手可热的人之一 —— 邀请谢赛宁加入 OpenAI。谢赛宁拒绝了。2024 年,Ilya 离开 OpenAI 创立 SSI,再次邀约。谢赛宁再一次拒绝了。

两次拒绝当时 AI 世界最热门的“船票” —— 不是个人恩怨,而是一个根本性的技术判断:

“Ilya 和 OpenAI 整个体系建立在一个信念上:语言模型通过足够的规模可以涌现出越来越强的智能。我不信这条路。”

他信什么?他信世界模型。他信表征空间里的预测,而不是 token 空间里的接龙。

从 DiT 到 AMI Labs

有意思的是,谢赛宁共同提出的 DiT(Diffusion Transformer)恰恰是 Sora 的架构基础 —— 而他本人不认为 Sora 路线能通向世界模型。他亲手造了一块砖,但不认为这座楼的图纸是对的。

2025 年 11 月,LeCun 确认离开效力 13 年的 Meta。2026 年 3 月,他和谢赛宁共同创立了 AMI Labs(Advanced Machine Intelligence Labs) —— 25 个人,零产品,但拿到了 10.3 亿美元种子轮。投资方包括 NVIDIA、三星、贝索斯家族基金、Eric Schmidt、Mark Cuban。

公司总部设在巴黎 —— 刻意不在硅谷。谢赛宁说:

“Silicon Valley is very LLM-pilled. 硅谷已经被 LLM 催眠了。物理距离创造思想距离 —— 当所有人都在同一个房间里盯着同一面墙,你需要走出去才能看到不同的风景。”

LeCun 曾三次邀请谢赛宁:在 FAIR 聘过他两次,创立 AMI 时第三次力邀。一个图灵奖得主对一个“普通人”三顾茅庐 —— 因为他们对“智能是什么”的答案一致。

另一条路:李飞飞和 World Labs

李飞飞 —— ImageNet 的缔造者,斯坦福教授 —— 2024 年创办了 World Labs,主打“空间智能”(Spatial Intelligence)。首轮融资 2.3 亿美元;2026 年又融了 10 亿美元

World Labs 的理念:AI 不应该只理解文字和图片,它应该理解三维物理世界是怎么运作的。这和 LeCun 的世界模型路线遥相呼应 —— 但技术路径不同:李飞飞从视觉和空间切入,LeCun 从表征预测切入。两条路,两个团队,两个押注。2026 年的 AI 圈,世界模型不再是 LeCun 一个人的异见 —— 它成了一场真正的运动

Research Taste

7 个小时访谈的尾声,谢赛宁聊到一个他反复提到的概念:Research Taste(研究品味)。他说好的研究品味不是方法论,是一种直觉 —— 知道什么问题值得问,什么方向值得走,什么答案是“对”的。他把这种直觉和《金刚经》里的智慧相连:

“不执着于任何一种范式,不被当下的‘正确答案’所束缚。好的研究者应该像水一样,能够在不同的思想容器之间自由流动。”

我觉得这段话不只适用于 AI 研究。在 LLM 路线和世界模型路线之间 —— 包括我们这些旁观者 —— 需要的也是这种品味:不急着站队,不急着下注,保持在“我不确定”的状态里继续观察。


第九章:两条路的前方

这不是一场你死我活的赌局。两条路都在以真金白银的速度前进:

LLM 路线(OpenAI, Anthropic, DeepMind, xAI, Mistral, DeepSeek, 通义千问):
• 继续 scale
• 加 Agent 能力(让 LLM 调用工具、浏览、写代码)
• 加 chain-of-thought 推理
• 加多模态(视觉、音频、视频)
• 押注“规模会带来涌现的理解”

世界模型路线(AMI Labs, World Labs, 部分学院派, DeepMind Robotics):
• 学习抽象表示而不是 token
• 用视频、机器人数据做自监督
• 显式训练因果和物理
• 押注“接地的感知才能通向真正的智能”

两条路线不一定是对立的。我的判断:最终的答案很可能是某种融合。纯 LLM 路线会遇到天花板(手指、玻璃穿桌不是技术细节,是信息来源的结构性缺失),但完全抛弃 LLM 的语言能力去重建纯感知系统,代价也太高。

未来几年大概会出现的东西是:LLM 作为“语言接口 + 符号推理”,世界模型作为“感知 + 物理引擎”,两者紧密耦合。你跟它说话用 LLM,它在脑子里模拟物理用世界模型。

类似人类 —— 我们的大脑皮层(语言符号处理)和小脑、基底节(运动感知控制)本来就是分工的。

如果这个方向对,LeCun 和 Hinton 不是在打一场必须有输赢的仗 —— 他们各自看到了拼图的不同碎片。


第十章:回到开篇

让我们回到那三个瞬间。

GPT-4 画 6 根手指 —— LeCun 看到了问题。它缺少 grounded 的手的概念,只有“一般图片里有手这种东西”的统计。

Sora 玻璃穿桌 —— 同样的缺失。它没有真正的物理引擎,只有“看起来像有物理的视频分布”。

AlphaGo 下第 37 手 —— Hinton 看到了另一面。它确实在某种意义上“懂”围棋。它不是查表,不是表层模式匹配。它学到了围棋的深层结构,以一种连李世石都无法完全理解的方式。

两个人都没看错,他们在看同一个智能的不同切面

“AI 懂不懂这个世界”这个问题本身需要拆开。对的问题是:它懂哪些部分、不懂哪些部分、为什么?

回答这个问题,你就同时明白了 AI 在 2026 年能做什么、不能做什么、以及下一步会做什么

而那些站在最前沿的人 —— 谢赛宁、LeCun、李飞飞 —— 他们给我留下最深印象的不是确信,而是谦逊。谢赛宁在 7 个小时访谈的最后说的不是“我们一定会赢”,而是引用了《银河系搭车客指南》里那个关于生命、宇宙和一切的终极答案:

42。

也许“42”的启示是:在追问答案之前,先确保你问对了问题。

真正的探索,从“我不确定”开始 —— 不从“我预测”开始。


附:一个小思考 —— 你懂这个世界吗?

测试一下你的“世界模型”:

1. 物理:如果一个篮球和一个羽毛同时从楼顶扔下(真空里),谁先落地?
(答案:同时)

2. 反事实:如果地球自转停止了,会发生什么?
(答案:大气、海洋以 1600 公里/小时向东甩出;赤道被甩平)

3. 类比:国家之于首都,如同 _____ 之于 CPU?
(答案:电脑)

4. 因果:为什么秋天叶子会变黄?
(答案:日照减少 → 叶绿素降解,原本被遮住的类胡萝卜素显色)

你能答出来几个?有意思的是:GPT-4 也能答出来。那你和 GPT-4 的差别在哪?

也许在于 —— 当你读到“一个篮球和一个羽毛”时,你脑子里真的看到了它们在空中。你能想象这个场景、能感受重力、能在心里跑一遍这个实验。你不是在查表。你在模拟

GPT-4 可能 —— 也许 —— 做到了一部分这件事。但到什么程度,没有人真正知道

这就是世界模型之争的终极意义。我们在追问一个古老的问题 —— 理解是什么? —— 只不过我们现在有了一个新的研究对象:一个会说话但从没见过世界的东西


📚 延伸阅读

  • Yann LeCun, 2022, A Path Towards Autonomous Machine Intelligence —— JEPA 的原始论文
  • Geoffrey Hinton, 2024 NeurIPS 演讲 —— “AI 已经在理解”的核心表达
  • 谢赛宁 × 张小珺, 2026, Training World Models Over Word Models — 7 小时马拉松式访谈
  • Li et al., 2022, Emergent World Representations: Othello-GPT
  • Gurnee & Tegmark, 2023, Language Models Represent Space and Time
  • Anthropic, 2024, Scaling Monosemanticity (Sparse Autoencoders on Claude 3)
  • Searle, J., 1980, Minds, Brains, and Programs —— 中文房间论证
  • Spelke, E., 1994, Initial Knowledge: Six Suggestions —— 婴儿核心物理认知研究
  • OpenAI, 2024, Video generation models as world simulators —— Sora 技术博客

图片图片

文章精选:

1.编程时代已终结!ClaudeCode创始人断言:编程就像发短信一样自然,首曝个人最新工作流:自创Sloop循环,单日PR达150!传统SaaS护城河崩掉

2.HTML死了!前OpenAI工程师掀起网页革命:用AI将整个屏幕变成无限直播像素流,无一行html代码,网友:传统Web开发结束,前端真要失业了!
3.诺奖得主DeepMind掌门人最新访谈晓读:AI创业者护城河?AGI只差1-2个关键想法,最缺的不是算力,是这个
4.GPT之父把AI扔回1930年:没见过一行代码,却「发明」了Python!
5.图灵奖得主查尔斯·巴赫曼:他在数据未成海时,便为人工智能修好了岸
6.图灵奖得主理查德·萨顿(Richard Sutton)最新演讲:大模型只是一时狂热,AI的真正时代还没开始
7.图灵奖得主Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
8.图灵奖得主、强化学习之父Rich Sutton:大语言模型是一个错误的起点
9.图灵奖得主杨立昆:大语言模型缺乏对物理世界的理解和推理能力,无法实现人类水平智能
10.压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信