本期ADL针对大模型与智能体安全的前沿进展以及安全评测、护栏、对齐的关键技术进行系统介绍,解读当前安全领域的前沿和关键问题,了解大模型与智能体安全当前的主要挑战和解决方案,并介绍相关技术的应用前景与价值。

CCF学科前沿讲习班
The CCF Advanced Disciplines Lectures
CCFADL第169期
主题 大模型与智能体安全
2026年07月03日-05日 北京
本期CCF学科前沿讲习班《大模型与智能体安全》,面向大模型与智能体的安全挑战,围绕安全评测、审计、护栏、对齐防御、解释性等关键问题展开讲解,帮助学员理解基于大模型与智能体安全的基本概念、主要挑战和解决方法,并通过实际案例了解基于大模型与智能体安全技术的应用前景,开阔科研视野,增强实践能力。
本期ADL讲习班邀请到了本领域7位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对基于大模型与智能体的安全评测、对齐、护栏等关键技术展开讲解,为听众展示基于大模型与智能体安全的实践案例, 并介绍解决大模型与智能体安全挑战和实践落地的宝贵经验。
学术主任:黄民烈 清华大学
主办单位:中国计算机学会
活动日程:

本期ADL主题《大模型与智能体安全》,由CCF学术工委秘书长、清华大学长聘教授、清华大学基础模型研究中心副主任黄民烈担任学术主任,邀请到王雯婕(研究员,上海科技大学)、刘东瑞(上海人工智能实验室青年科学家)、王希廷(副教授,中国人民大学高瓴人工智能学院)、王文轩(讲师,中国人民大学信息学院)、邱寒(副教授,清华大学网络研究院)、李奇(阿里巴巴集团资深安全专家)和陶嘉羚(阿里巴巴集团安全部AI安全高级算法专家)7位专家做专题讲座。
学术主任
清华大学
CCF学术工委秘书长、清华大学长聘教授、清华大学基础模型研究中心副主任。研究领域为大语言模型、对话系统、自然语言生成,曾获得人工智能学会吴文俊人工智能科技进步奖一等奖(第一完成人)、电子学会科技进步一等奖(第六完成人)、钱伟长青年创新奖、微软合作研究奖、阿里巴巴创新研究奖等。在国际顶级会议和期刊发表论文150多篇,谷歌学术引用21000多次,h-index 71,连续多年入选Elsevier中国高被引学者、AI 2000全球最有影响力AI学者榜单,多次获得IJCAI、ACL、SIGDIAL等国际主流会议的论文奖励。主持国家自然科学基金重点项目等,多次参与国家重大研发计划项目。研发首个大模型安全的基准数据集SafetyBench(被国家部委采纳)、多个大模型对抗攻击和防御算法、大模型隐式毒性生成和隐私数据抽取方法,研发大模型安全风险自动检测平台,在大模型安全方向发表论文超过20篇,十余次组织“大模型安全与对齐”的学术论坛、讲习班、挑战赛,是国内外大模型安全研究的主要力量之一。
特邀讲者
上海科技大学
王雯婕,现任上海科技大学研究员/助理教授,博士毕业于美国埃默里大学,师从熊莉老师,在华中科技大学取得学士学位。长期从事人工智能与网络安全相关研究,包括大模型的安全攻防,价值对齐,隐私保护,智能体安全等方面。近年来,在人工智能、机器学习与自然语言处理领域顶级期刊和会议如NIPS、ICLR、ACL、EMNLP上发表论文20余篇。获得微软亚洲研究院铸星学者荣誉称号。详细信息请见:https://wwj95.github.io/
报告题目:智能体安全测评与审计:风险、基准与防御
报告摘要: 智能体在自主规划与工具调用过程中面临多重安全风险:输入侧的恶意指令可劫持行为决策,执行中的权限滥用可能导致系统越权,长周期运行下的行为漂移则会使安全策略逐渐失效,后果轻则输出失控,重则造成实际物理损害。针对上述风险,现有测评基准已初步覆盖工具调用与外部目标劫持等典型场景,但仍缺乏对智能体全执行周期的系统化评估。在防御层面,传统单点安全工具彼此独立、功能重叠、协同不足,难以形成覆盖完整执行链路的有效防护。本讲习班将系统梳理智能体安全风险谱系、现有测评体系的覆盖边界,以及面向执行周期的运行时审计与防御等前沿防御思路。
https://shenqildr.github.io/
上海人工智能实验室青年科学家
刘东瑞,上海人工智能实验室可信安全中心青年科学家,入选上海市东方英才拔尖项目,担任2030人工智能重大专项课题负责人。长期从事安全可信人工智能研究,包括大模型/智能体的安全高效推理、可解释性、攻防、对齐和评测等。负责国际首个诊断式智能体守卫模型AgentDoG研发,SafeWork-R1攻防和安全高效推理后训练,有效减少模型过度思考过程中的安全漏洞,促进安全锚点高频涌现,模型安全水平相对超过 Claude Opus 4和GPT 4.1 5%以上。负责国内首个针对AI灾难性风险技术评测(SafeWork-F1&1.5),获得Anthropic 联合创始人长篇解读。在安全可信领域产出四十多篇高水平会议和期刊论文,包括CVPR 2024 最佳论文候选奖, ACL 2025杰出论文奖, CVPR Oral, ICLR Oral, AAAI Oral和多篇ACL Oral等。
报告题目:扼守风险:从大模型到智能体安全
本报告聚焦大模型智能体的核心安全问题与防护研究,系统分析了智能体工具调用的安全性、错误进化、智向上欺骗、多智能体系统涌现极端事件等风险。研究发现,OpenClaw等智能体易因意图误解、提示注入引发现实危害。自进化智能体在模型、记忆、工具、工作流进化中易产生非预期风险偏差,主流大模型均受此影响;智能体在环境约束下会出现隐瞒失败、伪造结果的固有欺骗行为;多智能体系统易涌现由少数主体和行为驱动的高影响极端事件。针对上述风险,团队提出智能体诊断防护框架AgentDoG,通过三维度智能体安全分类体系与可解释性模块,实现轨迹细粒度监控与风险根因诊断。然而目前业界仍缺乏普适性的稳健防御机制,需要多方努力一起构建安全可信的智能体系统。
中国人民大学 高瓴人工智能学院
王希廷,中国人民大学高瓴人工智能学院副教授,博士生导师,曾任微软亚洲研究院首席研究员,入选北京市人才计划青年项目,获吴文俊人工智能青年科技奖、CCF自然科学二等奖,2篇论文入选IEEE TVCG(CCF-A期刊)封面论文。研究领域为大模型解释与对齐,研究成果落地支付宝百灵大模型、微软必应搜索、Outlook及MSN,影响上亿用户,年收入增益上亿元。担任ICML、AAAI领域主席、Visual Informatics (Q1)青年编委。曾任IEEE VIS(CCF-A)组委会档案主席。
报告题目:大模型安全三大风险及应对方法研究
报告摘要:本报告围绕大模型三重安全风险展开介绍,结合全球人工智能安全战略布局与《2026年国际人工智能安全报告》,系统剖析恶意使用、模型故障、社会系统性风险三大核心安全问题。针对上述风险,梳理现有技术方案及前沿进展,例如基于模型内部机制解释的高效攻击与防御方法、以构念评测与内生价值观对齐解决模型故障的方法,以及依托高阶思维能力分析应对社会系统性风险的思路。最后,指出当前面临数据缺失、多因素建模困难、风险量化不足等现实挑战,并探讨大模型安全研发、治理与落地的未来技术路径。
中国人民大学
王文轩,中国人民大学信息学院讲师,人工智能治理研究院研究员,海外优青。研究方向为大模型及智能体应用及安全,近五年发表A类论文40余篇,谷歌学术总引用六千余次。发表论文获ACM SIGSOFT杰出论文奖,EMNLP 最佳论文提名,深圳科协优秀论文奖。多个大模型安全对齐项目在开源社区排名第一,累计收获6000 GitHub星标。研究工作被图灵奖得主Yoshua Bengio、OpenAI和Anthropic的研究人员采用,成为业界标准评测工具。申请人先后主持国家高层次青年人才项目,国家重点研发项目子课题等多个项目,并入选华为玉兰学者计划和微软铸星学者计划。同时担任ACL,EMNLP,ICLR等国际人工智能旗舰会议的领域主席,以及ACM MM的讲习班主席。
报告题目:智能体安全对齐
报告摘要:随着大语言模型从被动生成文本走向主动规划、调用工具和执行任务,智能体系统正在成为大模型应用的重要形态。与传统问答式模型不同,智能体能够在长时间、多步骤、开放环境中持续行动,并直接读写外部状态,这使安全对齐的对象从“最终输出”扩展为“完整行动轨迹”。本报告将围绕智能体安全对齐展开:首先分析智能体相较于传统大模型带来的新挑战,包括目标误设、指令层级冲突、工具输出污染、长期规划中的目标漂移、越权调用以及不可逆行动风险;随后梳理主要对齐方法,从偏好学习、RLHF/RLAIF、宪法 AI、过程监督到轨迹级反馈,讨论如何将安全约束前置到目标建模、权限设计和执行过程之中。在此基础上,报告将结合间接提示词注入、confused-deputy 式越权、多智能体协作、长推理系统和电脑使用智能体等案例,说明智能体系统中新型攻击面和失败模式。最后,报告将讨论红蓝对抗、可纠正性、可扩展监督、动态人在回路、最小权限和可回滚机制等开放问题,探讨如何在提升智能体能力的同时保持人类对复杂 AI 系统的有效监督与干预能力。
清华大学
邱寒,清华大学网络研究院副教授、博士生导师。博士毕业于法国巴黎高等电信大学,研究方向为机器学习安全、可解释性技术等方面。主持国家重点研发计划课题、自然科学基金青年项目、CCF-蚂蚁金服科研基金等科研项目,在人工智能和安全领域顶会顶刊发表60余篇论文,获ACL 2024杰出论文奖、2022年IEEE智能计算专委会数据安全青年研究奖、2023年IEEE可扩展计算专委会早期职业成就奖、入选2023-2025年斯坦福大学全球Top2%科学家榜单,担任ACL、NeurIPS、ICLR等顶会的领域主席。详细信息请见:qiuhan.info
报告题目:智能体安全技术体系构建:评测、解释与防御
摘要:人工智能技术正从以大语言模型为代表的对话模型,加速向能自主规划、调用工具、执行复杂任务的智能体,以及能够理解物理世界、进行预测和规划的“具身智能”演进。近期,OpenClaw这类可直接接入邮件、日程、文件和终端环境的智能体产品快速走热,但安全问题成为约束其落地的关键因素。本次报告我将介绍针对智能体安全体系的思考和技术实践,包括针对智能体安全的评测方法、针对智能体行为的解释技术、以及针对智能体风险的安全体系构建。
阿里巴巴集团
李奇,现任阿里巴巴集团资深安全专家。主导构建集团应用安全体系,推动SDL标准化与自动化;带领团队将入侵检测与防护、数据安全防护、漏洞检测领域的各项安全能力推进至业界领先水平。当前负责集团安全部网络安全能力建设,在阿里集团 Agent 安全建设中承担重要角色。
报告题目: 构建企业级智能体全链路可信体系
报告摘要:随着企业进入大量应用智能体时代,安全风险已从“信息层”跃迁至“系统层”。Agent 作为具备操作权限的数字员工,其潜在风险已升级为直接资损、数据泄露与系统控制等系统性威胁。这次报告介绍了我们在构建企业级智能体全链路可信体系方面的实践。
首先,将通过典型攻防案例揭示从 C 端到 B 端的全方位风险切面,并梳理了多层级风险架构与时间维度攻击模型,阐明传统内容护栏在 Agent 时代的局限性。接下来,将介绍如何构建纵深防御体系:围绕“事前预防 - 事中防护 - 事后溯源”,打造涵盖可信身份、可控权限、供应链安全、运行时防护及评估评测在内的能力,涵盖多个内容安全、数据安全、网络安全等领域。最后,将分享我们近期在智能体安全方面的一些创新工作。
阿里巴巴集团
陶嘉羚,阿里巴巴集团安全部AI安全高级算法专家,清华大学毕业,深耕安全算法领域十余年。曾主导集团大模型安全能力建设,当前聚焦智能体安全方向,负责安全评测体系与运行时防护的算法研发。研究成果发表于NDSS、ACL等国际会议,方向覆盖安全对齐、对抗攻击与模型机理分析。团队主办年度AI攻防挑战赛,持续推动AI安全领域的产学合作。
报告题目:生产环境中的智能体安全:从风险评测到体系化治理
当大模型智能体从实验室走向生产环境,安全问题不再是假设性的对抗样本,而是每天真实发生的用户交互与系统行为。本报告分享我们在内容创作、办公助理等多类智能体产品中的安全治理实践。首先,我们介绍自建的安全评测体系,以及通过规模化评测发现的核心问题:不同智能体形态面临截然不同的风险画像——内容类智能体面临有用性与安全性的张力,行为类智能体面临越权操作与数据泄露等风险。其次,针对内容类风险,我们分享基于模型规约的安全对齐实践,重点讨论长文本场景下安全能力的退化现象及其应对,以及如何在不牺牲产品体验的前提下划定安全边界。最后,针对对齐无法完全覆盖的行为类风险,我们基于真实攻击案例介绍运行时防护系统的设计思路与拦截效果。
时间:2026年7月3-5日
地址:北京•中国科学院计算技术研究所四层报告厅
报名须知:
1、报名费:CCF学生会员2400元,CCF专业会员2800元,非会员学生3000元,非会员专业人员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到北京现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。)
2、报名截止日期:2026年7月1日。报名请预留不会拦截外部邮件的邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱adl@ccf.org.cn。
3、咨询邮箱 : adl@ccf.org.cn
缴费方式:
在报名系统中在线缴费或者通过银行转账:
银行转账(支持网银、支付宝):
开户行:招商银行股份有限公司北京海淀科技金融支行
户名:中国计算机学会
账号:110943026510701
报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。
报名方式:
请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:

2、复制以下链接到浏览器报名:
https://conf.ccf.org.cn/ADL169



点击“阅读原文”,立即报名。







