微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828

添加图片注释,不超过 140 字(可选)
翁荔 @OpenAI,图片来源:翁荔的个人头像
翁荔(Lilian Weng),前 OpenAI 安全副总裁,是全球人工智能安全领域最具影响力的技术领袖之一。她以“安全不是中立技术,而是价值判断的工程”著称,长期致力于 AI 对齐与系统性风险研究。
在加入 OpenAI 之前,她凭借技术博客 Lil'Log 系统解析大语言模型原理与架构,在 AI 社区赢得广泛认可。她在 2023 年提出著名的 Agent 公式:Agent = LLM + memory + planning skills + tool use(Agent = 大语言模型 + 记忆 + 主动规划 + 工具使用),被视为理解 AI 能动性的重要理论基础。
2024 年 11 月,她在 bilibili 科学超级晚发表题为《AI 安全与“培养”之道》的演讲,将专业议题以通俗方式传达给更广泛公众,成为她理念“出圈”的代表性时刻。
离开 OpenAI 后,她选择创办旧金山的 Thinking Machines Lab,继续推动 AI 安全与对齐研究。无论是在硅谷核心,还是公共舞台,她始终坚持一个信念:AI 的未来,不能脱离人类的价值锚点。
01 学生时代:无问西东
翁荔拥有扎实的教育背景:2004 年获得全国高中数学联赛陕西省一等奖,后于 2005 年从西北工业大学附属中学毕业进入北京大学,在北京大学获得信息管理与信息系统(Information System and Computer Science)学士学位。本科期间,她曾作为交换生就读于香港大学商学院信息系统(Information System)专业,也曾获得过国家奖学金、做过两个月北京奥运会志愿者。
本科毕业后,她前往美国印第安纳大学布卢明顿分校(Indiana University Bloomington)攻读复杂网络与系统(Complex Networks and Systems)方向的博士,师从 Filippo Menczer 教授。在此期间,翁荔以第一作者的身份发表了十余篇学术论文,其中包括 SIGKDD 和 ICWSM 等顶会文章,产生了可观的学术影响力,主要涉及社交网络传播、信息扩散建模、社区结构影响、社交游戏设计等领域,在学术界初步崭露头角。

添加图片注释,不超过 140 字(可选)
学生时代的翁荔,图片来源:翁荔的学术主页头像
02 早期职业经历(2012 – 2018):厚积薄发的硅谷新星
完成学业后,翁荔在硅谷科技公司担任工程和数据科学岗位。她曾在 Facebook(现 Meta)担任实习软件工程师和实习数据科学家(2012 – 2013 年),积累了社交网络和数据分析经验。随后她加入 Dropbox,先后担任数据科学家(2014年初 – 2015年)和软件工程师(2015年中 – 2016年初)。在 Dropbox 期间,她负责优化产品功能、开展 A/B 测试和搜索排名等项目。2016 年 2 月,她转到金融科技公司 Affirm 担任机器学习高级工程师(Staff ML Engineer),主要负责贷款决策模型的研发与生产部署(2016 – 2018年)。这些经历使她熟悉了大数据处理和模型上线流程,为后续的研究工作打下了基础。
2017 年,她开始在业余时间写技术博客 Lil'Log,内容涵盖了从模型架构优化、强化学习方法,到模型安全评估和对齐策略,尤其以对模型抗越狱机制和多模态安全基准的独到见解著称,在 AI 研究者中颇受欢迎。这些高质量的技术文章不仅为专业研究者提供了宝贵的参考,也为推动行业前沿发展贡献了力量,奠定了她作为顶级 AI 研究者的学术地位。

添加图片注释,不超过 140 字(可选)
翁荔的博客 Lil'Log,图片来源:博客截图
03 OpenAI 时期(2018 – 2024):伴随 GPT 问世,名声鹊起
2018 年,翁荔加入 OpenAI,开启了为期近七年的研究生涯。初期她担任研究科学家,主攻机器人学习。她领导或参与了多项机器人操控项目,例如训练类人机械手解决魔方难题,以及让机器人手通过强化学习在模拟环境中旋转和重定向物体。这些工作展示了她在将模拟学习成果迁移到现实机器人上的创新能力。
2021 年起,OpenAI 将重心转向大型语言模型(LLM)和通用 API。翁荔创立并领导了 OpenAI 的应用 AI 研究(Applied AI Research)团队,负责将研究成果转化为产品功能。在此期间,她推动上线了多项核心功能,包括模型微调 API、文本与代码嵌入 API、内容审核端点(content moderation endpoint)等。这些工具极大地增强了 OpenAI 平台的实用性和安全性,为 API 用户提供了更灵活、高效的定制化能力。
到了 2023 年,伴随 GPT-4 的发布,OpenAI 对模型的安全性投入了前所未有的重视,进一步扩张其安全研究团队。翁荔被任命为“安全系统团队”(Safety Systems)的负责人,统筹整合包括模型行为控制、抵御“越狱”攻击、以及上线前的自动审查机制等多个关键环节的研发工作。简单来说,这个团队的任务是确保 AI 不会说出危险内容、不会被恶意利用、并且在各种环境中都能保持稳定表现。
在她的领导下,这支团队迅速成长为超过 80 人的跨学科大组,汇聚了工程师、研究科学家、政策顾问与产品经理。翁荔本人也进入了 OpenAI 董事会下属的“安全与安保委员会”,参与制定被广泛视为行业标准的 AI 对齐与安全策略——这些策略规定了模型应该遵守哪些价值观、在面对风险请求时如何拒绝、以及如何防止 AI 被“绕过”或“欺骗”。

添加图片注释,不超过 140 字(可选)
OpenAI 安全系统示意图,图片来源:OpenAI 官网截图
04 OpenAI 的裂隙:速度与安全之间的殊死博弈
在 2023 年底,OpenAI 高层的一场剧烈动荡让“安全与加速”的路线之争彻底公开化。CEO Sam Altman 的短暂被罢免、CTO Mira Murati 的临时接任,以及首席科学家 Ilya Sutskever 的反对立场,共同揭示出公司内部围绕 AGI 开发速度与安全审慎之间的深刻裂痕。最终,在员工与微软的联手施压下,Altman 强势回归,OpenAI 的商业化路线全面主导,公司也不再将“安全”置于首位。
对于试图坚守红线的安全派来说,这场政变是一次清醒时刻。Ilya 于半年后离职,创办了 Safe Superintelligence Inc.(SSI);而在 OpenAI 内部,翁荔作为安全系统负责人,成为少数仍坚守岗位的关键人物。她带领 80 余人的团队构建了 GPT 系列的行为控制系统、安全评估机制与多模态安全基准,并主导推动 GPT-o1 的安全防护体系,被视为“最安全大模型”的核心技术支撑。
2024 年 11 月 1 日,翁荔突然回国,现身于哔哩哔哩线下举办的“2024 bilibili科学超级晚”活动中,以《AI安全与“培养”之道》为主题发表了一场深入浅出的演讲。演讲内容以科普为主,旨在向广大非专业观众系统阐释人工智能安全的核心挑战及其重要性。她指出,AI 安全不仅是科学家和工程师的职责,更需要每个人的积极参与与共同监督。

添加图片注释,不超过 140 字(可选)
图片来源:【翁荔×尚雯婕 | 人工智能】AI的安全与“培养”之道 - 哔哩哔哩
翁荔形象地将培养安全、可信赖的人工智能比作培养下一代子女,强调通过强化学习等技术手段引导 AI “学习”符合人类价值观的行为,减少偏见和潜在风险。她引用 1907 年科学文献中关于“群体智慧”的经典实验,强调多元、多样化人类反馈对于训练高质量AI模型的不可替代作用。她呼吁公众成为 AI 发展的“大家长”,积极参与 AI 创作、监督与改进,共同推动智能技术朝向更安全、负责任的方向发展。
这场演讲以其严谨的逻辑、丰富的科学内涵和易于理解的表达赢得了广泛关注和高度评价,使翁荔从专业领域内的技术专家成功“出圈”,成为 AI 安全领域内连接学术与公众的桥梁。这不仅标志着她职业生涯的重要转折,也为其后续推动更安全、更可控的人工智能研究奠定了坚实的社会基础。
这次公开亮相极具象征意义。它不仅是翁荔在公众面前罕见地扮演 AI 安全布道者的角色,也是她职业身份正在过渡的象征。当时,她尚未正式宣布离开 OpenAI,晚会播出后,网络迅速涌现出大量“她是否打算回国发展”的猜测。有人期待她加入中国科技体系,有人推测她将在国内创建安全机构。
出乎意料的是,在这场备受关注的演讲仅仅过去了 8 天,翁荔便宣布将于 2024 年 11 月 15 日正式离开她工作七年的 OpenAI。

添加图片注释,不超过 140 字(可选)
翁荔的 OpenAI 离职信,图片来源:翁荔的 X(原 Twitter)
她称这是一个“极其艰难的决定”——OpenAI不仅是她成长为科学家和领导者的地方,更是她将同事视作挚友与导师的精神家园。她在信中动情地写道:“OpenAI 是我身份的一部分。”
信中回顾了她从 2017 年加入 OpenAI 初期参与机器人项目的经历,到后来逐步走向 GPT 模型的安全部署,再到 GPT-4 发布后,她正式接手并组建 OpenAI 的“安全系统团队”(Safety Systems)。这是她所经历的最困难、最有压力,也最令人兴奋的工作之一。她领导的团队最终发展至超过 80 人,囊括科学家、工程师、政策专家与产品经理,全面负责模型安全、部署机制与鲁棒性测试的基础架构。她特别强调了团队在 GPT Store、语音能力及 o1-preview 模型中的贡献,后者被称为 OpenAI “最安全的模型”,能够在维持有用性的同时有效抵御越狱攻击。
她细致地列举了团队在安全方面的成果——包括训练模型拒绝危险请求的能力、提升对抗性攻击防御、开发全行业领先的审查系统,以及构建涵盖数据日志、主动学习与实时响应的完整安全监控系统。每一项成就的背后,都是她对“AI 安全不该是事后补丁,而应是系统骨架”的理念的实践。
在长达七年的职业告别信中,她没有直接评论公司路线的变化,却反复强调了“政策约束模型行为”、“系统级安全堆栈”与“对越狱攻击的系统抵抗”。这种表述被广泛解读为对 OpenAI 当前战略的一种温和而坚定的不认同。
Mira Murati 也于不久前的 2024 年 9 月选择离职,成为这条出走路线上的另一位关键人物。她与 Ilya 和翁荔虽未公开结盟,但三人几乎在一年内先后离去——以各自不同的方式表达对 OpenAI 安全方向失控的隐忧。
在通用人工智能从研究走向产品的临界点,翁荔的离职也被视为技术与治理之间摩擦的缩影——即使是最深谙系统之人的声音,也未必永远能左右决策。
05 为 AI 安全,重新出发:Thinking Machines Lab(2025 – )
在离开 OpenAI 后,外界根据翁荔回国演讲这一举动普遍猜测她将回国任职,但翁荔并未立刻投身新的技术项目。2024 年 12 月,她以杰出研究员(Distinguished Fellow)的身份加入了风投机构 Fellows Fund。翁荔作为 Distinguished Fellow,以其安全研究背景为基金提供技术判断与思想导航。她的这一身份并非全职工作,更像是一种过渡性的观察与思考阶段。不久之后,翁荔大抵是意识到,仅仅是辅佐他人还不足以回应自己对 AI 安全的责任感。
2025 年 1 月,翁荔作为联合创始人与 Mira Murati 创办了一家名为 Thinking Machines Lab 的实验性研究机构。它的定位并不属于传统意义上的商业初创公司,而是一个以研究为核心、以安全为使命的智力平台——致力于“设计具备长期对齐能力的下一代 LLM”。
Thinking Machines Lab 设立在旧金山,是一家隐秘而雄心勃勃的人工智能研究机构。尽管目前仍未推出任何公开产品,它却凭借对人机协作、安全对齐和可解释性 AI 的独特定位引发了业界高度关注。今年 7 月,Thinking Machines Lab 完成一轮由 A16Z 领投,芯片巨头英伟达、AMD,以及风投公司Accel和量化交易公司Jane Street等参投,总额高达 20 亿美元,估值约 120 亿美元——这极有可能成为硅谷史上最大规模的种子融资之一。
目前,Thinking Machines Lab 团队约 30 人,其中直系成员中超过三分之二出自 OpenAI,包括联合创始人 John Schulman 和前研究负责人 Barret Zoph 等重量级科研人员 。
Murati表示,公司将在未来“几个月内”发布产品,该产品将包含“开源组件”,旨在帮助研究人员和初创公司开发定制化AI模型。她强调,公司正在构建“多模态AI,它能以人与世界自然互动的方式运作——通过对话、视觉以及我们协作的复杂方式”。
从融资规模、团队构成到研究定位,Thinking Machines Lab 展现出强烈信念——在追求 AGI 能力的同时,更应优先解决模型的可控性与安全对齐问题。它正走出一条与传统大模型竞赛不同的发展路径,试图成为“安全可解释 AI”的灯塔。而丈量其商业化成效与产品落地,将是未来几年AI界的重要看点。
比起 OpenAI 快速商业化、产品优先的模式,Thinking Machines Lab 更像是重回最初愿景的一次回归:缓慢、谨慎、强调透明机制和可验证的安全行为。
在外界看来,这场重聚颇具象征意味。两人在 OpenAI 内部并非始终在同一条战线上,但都曾亲历 Sam Altman 被罢免、再复位的震荡。翁荔是技术派、安全派的系统架构师,Mira 则在公司最高层承受政治压力的同时,也目睹了内部安全共识的快速崩塌。两人的再度合作,被许多业内人士解读为一种默契的共识:如果要把 AI 对齐真正落地,就不能只依赖大公司,而要从制度、方法论、工程架构三方面重新出发。
据接近该实验室的消息人士透露,Thinking Machines Lab 的研究框架强调三个核心原则:
•可验证性优先:模型训练和部署必须内建审计与行为透明接口,避免“黑箱”输出;
•对齐驱动:每一个能力增强必须伴随对齐机制的同步推进,尤其在多模态模型中防止“能力 – 责任”不对称;
•社会共识:模型行为需以社会可接受的公共准则为边界,开发过程中引入跨学科审议机制。
翁荔被认为是这些制度机制背后的主要设计者。在 OpenAI 时期,她就已主导了“行为边界决策系统”、“主动学习安全反馈管线”和“越狱抵抗评估”,并在 GPT-o1 中首次实现了标准化的安全堆栈。而在 Thinking Machines Lab,她正尝试将这些系统转化为开源框架,向整个行业开放。
这不仅仅是一次职业选择,更是一种延续。AI 安全不是一道补丁,而是 AI 系统的骨架。如今,在 Thinking Machines Lab,她终于拥有了塑造这种“骨架”的自由。

添加图片注释,不超过 140 字(可选)
图片来源:翁荔的最新个人头像
翁荔的职业轨迹,映射了人工智能从探索萌芽到安全博弈、再到制度重构的全过程。她不仅见证并参与了 GPT 等前沿模型的诞生,更在行业风口中始终坚持技术与伦理并重的原则。从 OpenAI 的体系工程师,到公众演讲者,再到独立研究机构的创办人,她不断拓展 AI 安全的边界,也在一次次选择中,体现出一种稀缺的清醒与责任感。
真正负责任的技术实践,往往不只是追逐能力极限,更是耐心构建可验证、可托付的未来。AI 的演化,不仅关乎算力和算法,更关乎人类愿意以怎样的方式,与智能共生。
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
参考文献链接
References:
[1] 翁荔 - LinkedIn
https://www.linkedin.com/in/lilianweng/
[2] 翁荔 - 博客 Lil’Log
https://lilianweng.github.io/
[3] 翁荔 - X(原 Twitter)
https://x.com/lilianweng
[4] 翁荔 - 在 X(原 Twitter)上发表的 OpenAI 离职信
https://x.com/lilianweng/status/1855031273690984623
[5] 翁荔 - 谷歌学术
https://scholar.google.com/citations?user=dCa-pW8AAAAJ&hl=zh-CN&oi=ao
[6]【翁荔×尚雯婕 | 人工智能】AI的安全与“培养”之道 - 哔哩哔哩
https://www.bilibili.com/video/BV19dSHYUEAo/
[7] OpenAI 博客
https://openai.com/news/
[8] Thinking Machines Lab 官网
https://thinkingmachines.ai/
[9] Lilian Weng - Fellows Fund 官网
https://www.fellowsfundvc.com/fellow/lilian-weng
[10] 北京大学-字节跳动数字人文开放实验室官网介绍
https://pkudh.org/intro.html
[11] NaN@CNetS 实验室官网
https://cnets.indiana.edu/groups/nan/people
[12] 如何看待Lilian Weng离职OpenAI? - 知乎
https://www.zhihu.com/question/3624492245
[13] Mira Murati’s Thinking Machines Lab valued at $10bn after $2bn fundraising - Financial Times(金融时报)
https://www.ft.com/content/9edc67e6-96a9-4d2b-820d-57bc1279e358
Z Waves|北大毕业的前OpenAI高管,如今创办估值120亿美金的AI新势力,翁荔想要重写AI安全的规则