图灵奖得主辛顿、杨立昆与李飞飞的世界模型之争

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自AI-lab学习笔记，仅用于学术分享，如有侵权留言删除

—— LLM 到底懂不懂这个世界？

AlphaFold 拿了诺贝尔奖，GPT 通过了律师考试 —— 但 Sora 的玻璃穿过了桌子。LLM 到底懂不懂这个世界？LeCun 离开 Meta 创办 AMI Labs，李飞飞押注 World Labs，谢赛宁两次拒绝 Ilya —— 站在前沿的人给出了截然不同的答案。

开篇：三个让 AI 圈尴尬的瞬间

瞬间一。 2024 年，你在 GPT-4o 里让它画一只手。图是好看的 —— 线条流畅、光影逼真 —— 只有一个问题：那只手有六根手指。你让它重画，它画了七根。再重画，五根 —— 但大拇指长得像小指。

瞬间二。 2024 年 2 月，OpenAI 发布 Sora，号称“世界模拟器”。演示视频里：一个女人在东京街头走路、樱花飘落、灯光闪烁、精美无比。但仔细看有一段 —— 一个玻璃杯被打翻，玻璃直接穿过桌子落到了地板。OpenAI 自己的技术博客里展示了这段视频，承认“模型对物理仍有理解限制”。

瞬间三。 2016 年 3 月，AlphaGo 在第 37 手下了那个震惊全世界的棋。赛后记者问李世石：“你觉得它知道自己在下围棋吗？”李世石沉默了很久，说：“我不知道。它走的每一步都像在思考，但也可能它什么都没想。”

这三个瞬间指向同一个问题：AI 到底理解什么？

它画不对手指，是因为不懂“手是什么、人有几根手指” —— 还是因为“它懂，只是没有把手这个概念表征得好”？它让玻璃穿过桌子，是因为根本没有物理概念 —— 还是因为“它有，只是调用不到”？

这个问题听起来像哲学系的午后闲谈。但 AGI 走哪条路，一半取决于这个问题的答案。

但先让我们承认一个事实

在追问 AI “不懂什么”之前，先看看它已经做到了什么。

2024 年，DeepMind 的 AlphaFold 把蛋白质结构预测从“博士论文级难题”变成了“几分钟出结果” —— Demis Hassabis 因此获得诺贝尔化学奖。这不是聊天机器人的花活，这是真实的科学突破，改变了生物学、医学、制药整个链条。

GPT-4 通过了美国律师资格考试（前 10%）、USMLE 医学执照考试，在 SAT 数学里接近满分。Claude 能一次性写出几千行代码并通过测试。LLM 正在帮全世界的学生理解微积分、帮不懂编程的人建网站、帮医生阅读文献。

这些贡献是实实在在的。否认它们，跟否认 LLM 的局限一样不诚实。

所以接下来的文章不是“LLM 不行”。而是：它行在哪里、不行在哪里、为什么？以及 —— 站在前沿的那些人，正在怎么想这个问题。

第一章：LeCun 的十年异议

如果你只能记住本文里一个人的名字，记住这个：Yann LeCun。

他不是普通人。他是卷积神经网络的发明人之一。1989 年他在贝尔实验室用 CNN 识别手写邮政编码 —— 那是深度学习工业应用的第一个重大胜利。2018 年他和 Hinton、Bengio 一起获得图灵奖 —— AI 界的诺贝尔。他曾是 Meta 首席 AI 科学家，2025 年 11 月离开效力 13 年的 Meta，创办了一家押注世界模型的公司 AMI Labs。

这样一个人，在 LLM 最热的时候提出了一条完全不同的路径。从 2016 年开始，LeCun 就在不同场合表达过这个核心论点。2022 年到 2024 年，他在 Twitter、访谈、演讲里说得越来越直白：

“LLM 是一条死胡同（off-ramp）。它们永远不会达到人类级别的智能。”

这不是谦虚或修辞。他讲了一个非常具体的技术论点：LLM 学的是文本表层的统计模式，不是世界的因果和物理结构。

他常用的类比是：“一只猫比目前任何 LLM 都更懂这个世界。”为什么？因为一只猫知道：从桌子上跳下去会落地（重力）；推一下玻璃杯它会滑动（摩擦和动量）；躲到沙发后面主人就看不见它（遮挡、空间）；听到罐头声音意味着吃的要来了（因果关联）。

这些常识一只猫用几个月就学会了。GPT-4 读遍整个互联网，还是会说“6 根手指”。

LeCun 有一个更激进的数字对比：一个 17 岁的青少年，20 小时就能学会开车。一个现代自动驾驶系统，用几百万小时的驾驶数据，还没法可靠处理边缘情况。他的结论是：人类是通过感知和互动学习世界的，不是通过文本。LLM 走反了路。

他提出了一个替代方案，叫 JEPA（Joint Embedding Predictive Architecture），我们第四章会详细讲。核心思想是：不要预测下一个 token，要预测抽象表示空间里的下一个状态。

这话在 2022 年听起来像在说“深度学习走错了路” —— 在一个 LLM 刚刚让所有人疯狂、OpenAI 估值破千亿美元的时刻，这是极不讨好的观点。但 LeCun 坚持了 10 年。

第二章：Hinton 的反驳

Geoffrey Hinton —— 深度学习之父，LeCun 的图灵奖合作者，2024 年诺贝尔物理学奖得主（和 Hopfield 一起拿的，因为反向传播）。如果有一个人和 LeCun 平起平坐，就是 Hinton。

2023 年，77 岁的 Hinton 辞去了 Google 的职位。所有人都以为他会站出来批评 LLM 的局限性 —— 毕竟他是“AI 将毁灭人类”的预警者。很多记者以为他会赞同 LeCun。他恰恰相反。

Hinton 说：“LLM 其实已经在理解了。你只是没看见它在理解。”

“当你把整个互联网的文本压缩进一个固定大小的模型 —— 几百 GB 变成几十 GB —— 你不可能只靠记忆做到。你必须提炼出世界的结构。这个结构就是一种理解。”

这个说法和贾因斯 1957 年谈熵时说的话几乎是一脉的 —— 压缩即理解。Hinton 的论据很直接：

你能问 GPT “如果我把一个苹果放到碗里，然后把碗倒过来，苹果在哪里？”它答对。它没有身体，没有眼睛，没有手 —— 但它答对了。你能问它 “假如动物不会疼，人类会更喜欢吃肉吗？”它能给出复杂的反事实推理。它在心里模拟一个不存在的世界。你能问它翻译一首从来没被翻译过的俄语诗。它用的不是查表，是语义上的把握。

Hinton 有一个很重要的思想轨迹转变：

“我以前以为，AI 要真正理解世界，必须像人一样有感知、有身体、有互动。我 2023 年改变了看法。我认为 LLM 证明了：理解可以从足够丰富的文本压缩中涌现出来。”

这段话分量极重。它等于说：LeCun 基于的那个‘人类怎么学习’的前提，可能根本不适用于硅基智能。

于是两位图灵奖得主，一位诺贝尔物理学奖得主，在 AI 理解世界这件事上，给出了截然不同的答案。这不一定是谁对谁错 —— 他们可能在描述同一座冰山的不同面。但分歧是真实的，而且这个分歧决定了 AGI 的下一步往哪走。

第三章：硬证据 —— LLM 内部到底有没有世界模型？

哲学辩论没有尽头，但近几年有一些实证工作让这场辩论有了锚点。

证据一：Othello-GPT（Li 等人, 2022）

研究者拿一个标准的 Transformer，只喂它一件东西：Othello 棋谱序列（比如 “e4 d6 c4 e5 ...”）。不告诉它棋盘长什么样、不告诉它规则、不告诉它这是游戏。就是一堆看起来像乱码的短字符串。

训练完后，研究者对模型内部激活做了一个叫 probing（探针）的实验：能不能从模型的中间层激活，还原出此时棋盘的完整状态？能。他们用一个简单的线性分类器，就能从模型内部读出每个格子上是黑子、白子还是空。准确率接近 100%。

这个模型从来没见过一张棋盘。它只见过字符串。但它自发在内部构建了一个 8×8 的棋盘表征，并且用这个表征来预测下一步合法走法。一年后，Neel Nanda 等人做了一个更狠的实验：他们编辑模型内部的棋盘表征，强行把某个格子的状态改成“白子在这里” —— 结果模型接下来的预测就按照这个被编辑过的棋盘状态来走。

这不是“看起来像”。这是一个真正的棋盘模型。

如果一个只读过棋谱的模型能涌现出棋盘表征，一个读过整个互联网的模型，在内部涌现了什么？

证据二：空间和时间（Gurnee & Tegmark, 2023）

Max Tegmark（MIT 物理学家、作家）和学生 Wes Gurnee 收集了一大堆真实世界地点（城市、国家、地标）的名字，喂给 LLaMA，然后对内部激活做降维可视化。

结果：这些地点在模型里的表征位置，和它们在地球上的真实经纬度，几乎是一张地图的线性变换。 纽约在东北、东京在东、巴黎在中部欧洲 —— 一张模型内部的真实世界地图。他们又做了时间版本：历史事件、人物生卒年。模型内部有一根时间轴。标题取得很直白：Language Models Represent Space and Time。

证据三：Anthropic 的稀疏自编码器（2024）

Anthropic 2024 年发表的可解释性论文里，用一种叫 Sparse Autoencoder（SAE）的技术，从 Claude 3 Sonnet 的中间层分离出了百万级数量的“单一概念”特征。

其中一个特征精确对应：“金门大桥”。不是“大桥”、不是“旧金山”、不是“建筑” —— 精确到金门大桥。当激活这个特征，模型的回答会变得执着地提到金门大桥。当抑制这个特征，模型会“忘记”这个概念。他们还发现了“Python 代码错误”、“不确定性”、“即将发生的恶意行为”等等上万个可识别的语义特征。

这不是一个只会接词的词表。这是一个有内部概念结构的系统。

这些证据加起来说明什么？

说明 LLM 内部确实学到了某种世界模型。不是完整的物理引擎，不是婴儿那种 grounded 的常识，但也不是纯粹的表层模式匹配。它学到了某种中间状态：比字符串统计更深，比人类认知更浅。

LeCun 派的反驳：“这不是真正的世界模型。这是文本诱导出的伪世界模型，碰巧在分布内能用，一出分布就崩溃。”这个反驳也有证据 —— 就是 Sora 里的玻璃穿桌、GPT 画的 6 根手指。于是辩论继续。

第四章：JEPA 和 Transformer —— 架构分歧到底在哪？

LeCun 不只是批评 LLM，他提出了替代方案。要理解他的方案，先要看清 Transformer 到底在做什么：

Transformer 训练目标：给定前 n 个 token，预测第 n+1 个 token。

这个目标逼迫模型学习所有像素级（token 级）细节。LeCun 的批评：这就是问题所在。

想象你让一个人看一小时视频，然后预测下一帧。这是不可能的任务 —— 因为下一帧有无数种可能（光的微小变化、灰尘飘动、背景噪声）。所以模型为了最小化损失，必须学会给很多可能结果分配概率。大量的模型容量被浪费在预测不重要的细节上。

LeCun 的方案 JEPA（Joint Embedding Predictive Architecture）：

JEPA 训练目标：给定输入，预测抽象表示空间里下一个状态 —— 不是像素、不是 token。

Transformer 要对齐每一个 token；JEPA 只对齐抽象状态。

这个区别听起来技术，但后果巨大：Transformer 必须学习细节，因为细节是它的损失函数；JEPA 不学习细节，它只学习“重要的是什么”。

LeCun 用一个比喻：“Transformer 预测下一个 token 就像你努力记住一本书里每一个逗号的位置。JEPA 预测下一个 embedding 就像你记住这本书在讲什么。”

2024 年，Meta 发布了 V-JEPA（视频版 JEPA）。它不预测下一帧的像素，而是预测下一段的抽象表示。初步结果显示：在物理合理性判断任务上，V-JEPA 比自回归视频模型强得多。

但 —— Sora 的路线不是 JEPA，是 DiT（Diffusion Transformer）。这就是本文的 cliffhanger。我们留到第六章说。

第五章：婴儿是怎么学世界的？

LeCun 派有一个最强的论据来自发展心理学。心理学家发现：婴儿在非常早的时候，就已经掌握了大量关于物理世界的常识 —— 远早于他们掌握语言。

婴儿核心物理认知时间表

3 个月：物体恒存 —— 物体被盖住它仍然存在
5 个月：重力 —— 松手的东西会往下掉
6 个月：固态性 —— 两个固体不能占据同一空间
9 个月：因果 —— A 推 B 导致 B 动
1 岁：工具使用 —— 用棍子把够不到的东西拉近

这一切都是在不会说话的年纪完成的。婴儿不是读了一本《物理学入门》才知道这些。他们是通过身体和感知慢慢建立了一个关于这个世界的因果引擎。这个引擎比任何 LLM 都强大 —— 因为它不只是描述世界，它还能预测未观察的情况、想象反事实。

LeCun 的论点：“真正的智能需要一个世界模型，一个能让你在脑子里模拟事情、预测后果、想象未发生的事情的东西。纯文本训练永远建不起这个引擎。因为文本里没有因果，只有共现。”

反对派的回应：“LLM 从文本里也在学习因果结构。因为人类写作时已经把因果编码进了句子结构。证据就是 LLM 能做反事实推理、类比推理、chain-of-thought 推理。这些不是表层匹配能做到的。”

谁对？我的看法：LeCun 在一件事上对 —— LLM 缺少 grounded 的物理常识。这是为什么会有 6 根手指和穿桌玻璃。Hinton 在另一件事上对 —— LLM 内部确实在学抽象结构。这是为什么它能做反事实和类比。两件事不矛盾。

“理解”不是一个二值属性，是一个多维的、不均匀的东西。

第六章：Sora —— 一个测试案例

2024 年 2 月，OpenAI 发布 Sora。视频质量震惊了全世界。OpenAI 的博客里有一个大胆的声明：

“Sora 是一个视频生成模型，但我们相信它也是一个世界模拟器的早期版本。”

这个声明立刻引爆了整个辩论。Sora 到底有没有世界模型？

OpenAI 派的论证：Sora 能生成符合遮挡关系的视频；能生成符合重力的视频；能生成看起来有一致物理的视频（摄像机移动后场景保持一致）。这不是学到了某种物理模型是什么？

LeCun 派的反驳：Sora 经常出错。玻璃穿桌、绳子穿手、一个人走着走着变成两个人。这些错误不是“不够好”，而是物理上不可能 —— 一个真正有物理模型的系统不会犯这些错。Sora 学到的是“看起来像真实视频的统计分布”，不是“真实物理”。伪造符合物理的片段 ≠ 知道物理。

关键技术细节：Sora 用的不是 JEPA，而是 DiT（Diffusion Transformer） —— 本质上还是“预测 pixel 级别的细节”的路线。LeCun 派认为这就是问题根源。

我的判断：Sora 是一个非常强的“物理外观伪造器”，配了某种弱的物理先验。它不是 LeCun 理想中的世界模型，但也不是纯表层的模式匹配。它是一个中间产物 —— 像 LLM 一样。而这个中间产物足够好用，就让 OpenAI 又融了 400 亿美元。

第七章：“理解”到底是什么？

所有这些辩论最终会撞到同一个问题：“理解”到底是什么？哲学上有两个经典答案，值得知道。

答案一：Searle 的中文房间（1980）

哲学家 John Searle 提出了一个思想实验。想象一个只会说英语的人被关在一个房间里。外面的人用中文写纸条递进来，屋里这个人查一本详细的规则书（用英语写的），按规则写出中文回应，递出去。外面看起来：这个人懂中文。实际上：他完全不懂，他只是在查表。

Searle 的论点：符号处理 ≠ 理解。再强大的 LLM 也只是中文房间，不真的懂。

答案二：能做到就是懂（Turing, 1950）

图灵的答案：如果一个系统的行为和“真正懂”的系统无法区分，那么问它“是否真懂”就没有意义。这是个伪问题。Hinton 基本上是图灵派。他的观点：理解是能做预测、能泛化、能类比、能反事实推理的能力。LLM 能做这些，所以它懂 —— 至少懂某种程度。

我的观点

我认为 Searle 的中文房间问对了问题但给错了答案。对的问题是：“符号操作和真的懂之间有区别吗？”错的答案是“肯定有”。真实情况可能是：理解是一条连续光谱，不是二元开关。

一个温度计“懂”温度吗？某种意义上懂 —— 它对温度有反应并表达出来。一只猫“懂”重力吗？是的 —— 它能预测跳下去会落地。一个 LLM “懂”拿破仑吗？某种意义上懂 —— 它能正确回答大量关于拿破仑的问题、做反事实推理。

每一个系统都“懂”一些东西，“不懂”另一些东西。问“它是否真懂”是在把一个光谱压成一个点。

这个视角下：
• LLM 部分懂世界 —— 懂文本能捕捉的那部分
• LLM 不懂世界 —— 不懂感知接地的物理直觉
• 婴儿懂世界的物理，但不懂很多概念、关系、历史
• LeCun 和 Hinton 都对 —— 他们在说这个光谱的不同切片

第八章：站在前沿的，也是普通人

2026 年 3 月 16 日深夜，纽约布鲁克林，雪刚停。谢赛宁坐在一个播客录音棚里，已经连续说了六个小时。采访者张小珺问他怎么定义自己。他想了想，说了两个英文单词：

“The normal one.”

这不是谦虚。谢赛宁在上海交通大学 ACM 班读书时，周围全是信息学竞赛金牌得主。他不是天才少年，不是竞赛选手。他只是一个“正常人” —— 一个恰好对视觉表征着了迷的普通研究者。但这个“普通人”做了两件不普通的事。

两次拒绝 Ilya

2018 年，Ilya Sutskever —— OpenAI 首席科学家，AI 圈最炙手可热的人之一 —— 邀请谢赛宁加入 OpenAI。谢赛宁拒绝了。2024 年，Ilya 离开 OpenAI 创立 SSI，再次邀约。谢赛宁再一次拒绝了。

两次拒绝当时 AI 世界最热门的“船票” —— 不是个人恩怨，而是一个根本性的技术判断：

“Ilya 和 OpenAI 整个体系建立在一个信念上：语言模型通过足够的规模可以涌现出越来越强的智能。我不信这条路。”

他信什么？他信世界模型。他信表征空间里的预测，而不是 token 空间里的接龙。

从 DiT 到 AMI Labs

有意思的是，谢赛宁共同提出的 DiT（Diffusion Transformer）恰恰是 Sora 的架构基础 —— 而他本人不认为 Sora 路线能通向世界模型。他亲手造了一块砖，但不认为这座楼的图纸是对的。

2025 年 11 月，LeCun 确认离开效力 13 年的 Meta。2026 年 3 月，他和谢赛宁共同创立了 AMI Labs（Advanced Machine Intelligence Labs） —— 25 个人，零产品，但拿到了 10.3 亿美元种子轮。投资方包括 NVIDIA、三星、贝索斯家族基金、Eric Schmidt、Mark Cuban。

公司总部设在巴黎 —— 刻意不在硅谷。谢赛宁说：

“Silicon Valley is very LLM-pilled. 硅谷已经被 LLM 催眠了。物理距离创造思想距离 —— 当所有人都在同一个房间里盯着同一面墙，你需要走出去才能看到不同的风景。”

LeCun 曾三次邀请谢赛宁：在 FAIR 聘过他两次，创立 AMI 时第三次力邀。一个图灵奖得主对一个“普通人”三顾茅庐 —— 因为他们对“智能是什么”的答案一致。

另一条路：李飞飞和 World Labs

李飞飞 —— ImageNet 的缔造者，斯坦福教授 —— 2024 年创办了 World Labs，主打“空间智能”（Spatial Intelligence）。首轮融资 2.3 亿美元；2026 年又融了 10 亿美元。

World Labs 的理念：AI 不应该只理解文字和图片，它应该理解三维物理世界是怎么运作的。这和 LeCun 的世界模型路线遥相呼应 —— 但技术路径不同：李飞飞从视觉和空间切入，LeCun 从表征预测切入。两条路，两个团队，两个押注。2026 年的 AI 圈，世界模型不再是 LeCun 一个人的异见 —— 它成了一场真正的运动。

Research Taste

7 个小时访谈的尾声，谢赛宁聊到一个他反复提到的概念：Research Taste（研究品味）。他说好的研究品味不是方法论，是一种直觉 —— 知道什么问题值得问，什么方向值得走，什么答案是“对”的。他把这种直觉和《金刚经》里的智慧相连：

“不执着于任何一种范式，不被当下的‘正确答案’所束缚。好的研究者应该像水一样，能够在不同的思想容器之间自由流动。”

我觉得这段话不只适用于 AI 研究。在 LLM 路线和世界模型路线之间 —— 包括我们这些旁观者 —— 需要的也是这种品味：不急着站队，不急着下注，保持在“我不确定”的状态里继续观察。

第九章：两条路的前方

这不是一场你死我活的赌局。两条路都在以真金白银的速度前进：

LLM 路线（OpenAI, Anthropic, DeepMind, xAI, Mistral, DeepSeek, 通义千问）：
• 继续 scale
• 加 Agent 能力（让 LLM 调用工具、浏览、写代码）
• 加 chain-of-thought 推理
• 加多模态（视觉、音频、视频）
• 押注“规模会带来涌现的理解”

世界模型路线（AMI Labs, World Labs, 部分学院派, DeepMind Robotics）：
• 学习抽象表示而不是 token
• 用视频、机器人数据做自监督
• 显式训练因果和物理
• 押注“接地的感知才能通向真正的智能”

两条路线不一定是对立的。我的判断：最终的答案很可能是某种融合。纯 LLM 路线会遇到天花板（手指、玻璃穿桌不是技术细节，是信息来源的结构性缺失），但完全抛弃 LLM 的语言能力去重建纯感知系统，代价也太高。

未来几年大概会出现的东西是：LLM 作为“语言接口 + 符号推理”，世界模型作为“感知 + 物理引擎”，两者紧密耦合。你跟它说话用 LLM，它在脑子里模拟物理用世界模型。

类似人类 —— 我们的大脑皮层（语言符号处理）和小脑、基底节（运动感知控制）本来就是分工的。

如果这个方向对，LeCun 和 Hinton 不是在打一场必须有输赢的仗 —— 他们各自看到了拼图的不同碎片。

第十章：回到开篇

让我们回到那三个瞬间。

GPT-4 画 6 根手指 —— LeCun 看到了问题。它缺少 grounded 的手的概念，只有“一般图片里有手这种东西”的统计。

Sora 玻璃穿桌 —— 同样的缺失。它没有真正的物理引擎，只有“看起来像有物理的视频分布”。

AlphaGo 下第 37 手 —— Hinton 看到了另一面。它确实在某种意义上“懂”围棋。它不是查表，不是表层模式匹配。它学到了围棋的深层结构，以一种连李世石都无法完全理解的方式。

两个人都没看错，他们在看同一个智能的不同切面。

“AI 懂不懂这个世界”这个问题本身需要拆开。对的问题是：它懂哪些部分、不懂哪些部分、为什么？

回答这个问题，你就同时明白了 AI 在 2026 年能做什么、不能做什么、以及下一步会做什么。

而那些站在最前沿的人 —— 谢赛宁、LeCun、李飞飞 —— 他们给我留下最深印象的不是确信，而是谦逊。谢赛宁在 7 个小时访谈的最后说的不是“我们一定会赢”，而是引用了《银河系搭车客指南》里那个关于生命、宇宙和一切的终极答案：

42。

也许“42”的启示是：在追问答案之前，先确保你问对了问题。

真正的探索，从“我不确定”开始 —— 不从“我预测”开始。

附：一个小思考 —— 你懂这个世界吗？

测试一下你的“世界模型”：

1. 物理：如果一个篮球和一个羽毛同时从楼顶扔下（真空里），谁先落地？
（答案：同时）

2. 反事实：如果地球自转停止了，会发生什么？
（答案：大气、海洋以 1600 公里/小时向东甩出；赤道被甩平）

3. 类比：国家之于首都，如同 _____ 之于 CPU？
（答案：电脑）

4. 因果：为什么秋天叶子会变黄？
（答案：日照减少 → 叶绿素降解，原本被遮住的类胡萝卜素显色）

你能答出来几个？有意思的是：GPT-4 也能答出来。那你和 GPT-4 的差别在哪？

也许在于 —— 当你读到“一个篮球和一个羽毛”时，你脑子里真的看到了它们在空中。你能想象这个场景、能感受重力、能在心里跑一遍这个实验。你不是在查表。你在模拟。

GPT-4 可能 —— 也许 —— 做到了一部分这件事。但到什么程度，没有人真正知道。

这就是世界模型之争的终极意义。我们在追问一个古老的问题 —— 理解是什么？ —— 只不过我们现在有了一个新的研究对象：一个会说话但从没见过世界的东西。

📚 延伸阅读

Yann LeCun, 2022, A Path Towards Autonomous Machine Intelligence —— JEPA 的原始论文
Geoffrey Hinton, 2024 NeurIPS 演讲 —— “AI 已经在理解”的核心表达
谢赛宁 × 张小珺, 2026, Training World Models Over Word Models — 7 小时马拉松式访谈
Li et al., 2022, Emergent World Representations: Othello-GPT
Gurnee & Tegmark, 2023, Language Models Represent Space and Time
Anthropic, 2024, Scaling Monosemanticity (Sparse Autoencoders on Claude 3)
Searle, J., 1980, Minds, Brains, and Programs —— 中文房间论证
Spelke, E., 1994, Initial Knowledge: Six Suggestions —— 婴儿核心物理认知研究
OpenAI, 2024, Video generation models as world simulators —— Sora 技术博客

文章精选：

1.编程时代已终结！ClaudeCode创始人断言：编程就像发短信一样自然，首曝个人最新工作流：自创Sloop循环，单日PR达150！传统SaaS护城河崩掉

2.HTML死了！前OpenAI工程师掀起网页革命：用AI将整个屏幕变成无限直播像素流，无一行html代码，网友：传统Web开发结束，前端真要失业了！

3.诺奖得主DeepMind掌门人最新访谈晓读：AI创业者护城河？AGI只差1-2个关键想法，最缺的不是算力，是这个

4.GPT之父把AI扔回1930年：没见过一行代码，却「发明」了Python！

5.图灵奖得主查尔斯·巴赫曼：他在数据未成海时，便为人工智能修好了岸

6.图灵奖得主理查德·萨顿（Richard Sutton）最新演讲：大模型只是一时狂热，AI的真正时代还没开始

7.图灵奖得主Bengio预言o1无法抵达AGI！Nature权威解读AI智能惊人进化，终极边界就在眼前

8.图灵奖得主、强化学习之父Rich Sutton：大语言模型是一个错误的起点

9.图灵奖得主杨立昆：大语言模型缺乏对物理世界的理解和推理能力，无法实现人类水平智能

10.压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

菜单

分享