
2026北京智源大会开幕 | 从“悟道”到“悟界”,智源研究院推动人工智能、物理世界和生命科学“三体互动”
Quick Answer
This paper shows that The 2026 Beijing Zhiyuan Conference showcased advancements in AI, featuring models like WuJie·Emu3.5 and WuJie·Brainμ1.0, which achieved significant breakthroughs in multimodal learning and neuroscience applications.
Quick Take
The 2026 Beijing Zhiyuan Conference showcased advancements in AI, featuring models like WuJie·Emu3.5 and WuJie·Brainμ1.0, which achieved significant breakthroughs in multimodal learning and neuroscience applications. Notably, the WuJie·Physis model aims to unify physical state learning, enhancing AI's interaction with the real world, while the BAAI Cardiac Agent demonstrated diagnostic accuracy exceeding 0.93 AUC.
Key Points
- WuJie·Emu3.5 achieved unified learning across text, images, and video.
- WuJie·Brainμ1.0 is the first multimodal neuroscience model for cross-species brain signal analysis.
- BAAI Cardiac Agent replicates expert diagnostic processes with AUC accuracy over 0.93.
- FlagOS supports 32 chips, simplifying AI model and hardware integration.
- WuJie·Physis-v0.1 is the first universal world model for real-world AI applications.
Article Content
From source RSS / original summary2026年6月12日,第八届“北京智源大会”在中关村国际创新中心开幕。 北京智源大会是智源研究院主办的“AI内行学术盛会”,以“技术前沿、国际视野、青年人才”为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。 本届大会,现代数字安全体系奠基者Whitfield Diffie线下参会,聚焦Agent时代的安全与可信挑战;强化学习奠基人Andrew Barto追问“交互驱动智能”对于下一代AI系统的意义。 30余位30岁以下青年科学家,40余位AI企业CEO、创始人与首席科学家,200余位顶尖专家学者将齐聚北京,中国AI产业世界模型与Agent领域最具代表性的创新力量首次集中同台。 20余家全球顶尖科技企业及高校科研机构,包括Meta、英伟达、哈佛、MIT等,将与阿里、腾讯、小米、生数科技、面壁智能、清华、北大、人大等中国AI行业最核心的创新力量同场交流。 同时,大会还汇聚数百位全球AI领域学术中坚力量,一同围绕世界模型、通用智能体、具身智能、AI安全、AI Native教育、Token经济与OPC、智能计算底层架构等前沿方向展开精彩演讲和前瞻性对话。 开幕式由智源研究院理事长黄铁军主持。
智源研究院院长王仲远做2026年研究进展报告,发布智源研究院在基座大模型、智能体、基础软硬件生态等前沿技术领域的探索成果和开源生态建设的最新动态。 自2018年成立以来,智源研究院先后发布了“悟道”系列大模型和“悟界”系列大模型,构建了自底向上的全栈大模型开源技术体系。 无论是在大模型发展的早期,还是在物理AI的全新时期,智源研究院始终在引领人工智能大模型的前沿研究探索。 截至目前,智源开源模型超200个,全球总下载量累计超过10亿次。 同时也孵化了一系列在大模型领域和具身智能领域非常具有代表性的创新创业企业。 2024年智源大会上,智源发布了对于人工智能尤其是大模型技术的演化路径的预判。 当下,人工智能正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。 过去一年里,智源在基座大模型、智能体以及基础软硬件生态三个领域取得令人瞩目的科研进展。 基于智源在多模态大模型以及世界大模型上的探索,智源研究院系统性地梳理了世界模型发展历程,以及对现有世界模型技术的四大分类,并介绍了正在研发中的悟界·Physis。
基座大模型2024年智源大会发布的“悟界”系列大模型,旨在解决人工智能从数字世界迈向物理世界的关键能力,并且构建面向物理世界的人工智能基座模型。 2025年10月正式发布的悟界·Emu3. 5仅基于“预测下一个词元(Next-Token Prediction)”,实现了大规模文本、图像和视频的统一学习,实现了多模态理解和生成任务的统一学习,这一原创性的成果在今年1月份刊发于Nature正刊,创造了国产多模态大模型的众多纪录。 今年,智源大会也带来了一系列创新成果发布:悟界·Brainμ1. 0是全球首个理解与生成统一的多模态神经科学大模型,将Next-Token Prediction范式扩展到神经科学领域所构建的多模态脑科学通用基座,由智源联合清华团队基于悟界·Brainμ开展的研究成果也已刊发于Science;与悟界·Brainμ1. 0一同发布的还有全球最大最全的AI-Ready神经科学数据集和全球最大的AI-Ready数据平台BrainToken;悟界·OpenComplex2. 5是可泛化、物理真实的下一代AI驱动药物发现模型,能精确解析IDP灵活构象,系统性赋能创新药物研发全链路,以单一模型覆盖制药四大关键步骤。
悟界·Physis-v0. 1是全球首个通用世界基座模型,以统一物理状态学习,实现物理正确、动作因果可溯、长程一致、通用泛化,最终达到全垂类场景应用。 智能体针对具身智能面临的硬件不成熟、数据短缺、模型能力弱、落地应用难的四大挑战,智源构建了自底向上的全栈具身智能技术体系,并先后发布了悟界·RoboBrain和悟界·RoboOS。 智源正在研发中的悟界·RoboBrain Orca,以预测下一个物理状态为核心来构建具身大脑,融合了大量Ego-centric交互数据,强化世界模型的具身表征,提升下游少样本和跨场景泛化的能力。 同时,结合智源研究院作为科研机构的属性以及在科研项目上的布局,智源推出了四款自主研发的智能体,它们分别面向心脏辅助诊断、科学发现、个人专属助理以及生物安全防护等领域。 基础软硬件生态智源与开源社区共建了众智FlagOS,将企业面临的“M款模型与N款芯片”适配难题简化为“多模型+多芯片”的统一接入解决方案。 FlagOS2. 1能够支持18家芯片厂商的32款芯片,是全球覆盖芯片数量最多的计算系统软件栈。 FlagOS的算子总数已超过600个,并且仍然在快速增长。
同时FlagOS还能够支持18家芯片厂商的统一编译器和12家芯片厂商的统一通信库。 目前,FlagOS的生态成员已经超过80余家,全球下载量超过37. 5万次,触及开发者5. 6万人。 悟界系列大模型:面向物理世界构建的人工智能基座模型如今,随着多模态模型的研究深入,人工智能正经历一场重大的范式变革,正在从“预测下一个词元”演进到“预测下一个物理状态”,这是世界模型的核心本质。 智源研究院是国内最早提出并开展世界模型研究的科研机构。 2023年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;2024年发布的悟界·Emu3和2025年发布的悟界·Emu3. 5,更是全球首个原生多模态世界模型。 基于在大模型领域持续的技术积累与前瞻布局,2026年智源推出了悟界·Physis-v0. 1。 悟界·Physis的诞生正是基于智源对人工智能发展路径的判断以及从“悟道”到“悟界”的技术传承与延续。 随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。
智源认为,现有世界模型相关的技术路线可分为四类:第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。 在智源看来,世界模型作为面向真实物理世界的下一代基座模型,以“预测下一物理状态”为核心,代表着人工智能的下一个重要范式跃迁。 世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。
1 智源“悟界”系列基座大模型 推动数字世界和物理世界加速融合 悟界·Emu悟界·Emu是智源从“悟道”迈向“悟界”的标志性里程碑。 Emu3于2026年1月登上Nature正刊,是我国科研机构主导的大模型成果首次在Nature正刊发表。 在此基础上,Emu3. 5完成关键升级,从“预测下一个词元”进一步扩展到跨视觉与语言序列的“下一状态预测”,以纯自回归框架原生实现文本、图像、视频的统一理解与生成,打破传统多模态技术路线的模态孤岛与架构割裂。 它内置时空关系、因果逻辑与物理世界演化规律建模能力,不仅攻克了生成内容违背真实世界物理规则的行业痛点,更补齐了AI从数字世界走向物理世界的技术缺失,兼具顶级学术价值与底层产业支撑价值。 悟界·Brainμ悟界·Brainμ1. 0是全球首个理解与生成统一的多模态神经科学大模型,旨在从世界模型出发,构建多模态脑科学通用基座。
模型可将人类、猕猴、小鼠跨物种,EEG、fMRI、MEG、fNIRS、神经像素、钙成像等全模态脑信号,统一编码为标准Token,实现数据格式归一,并通过多模态对齐,将脑信号Token与语言、图像、视频等通用模态对齐,嵌入预训练大模型,充分释放大模型知识表达与泛化能力。 此外,全球最大的AI-Ready神经科学数据平台悟界·BrainToken,汇聚全球开源神经科学数据并完成全量Token化总量突破万亿级别。 Brainμ1. 0可利用数据Token化,解决神经科学领域数据孤岛(复杂、稀疏、不对齐等)问题,降低神经疾病诊断成本,辅助筛查诊断阿尔兹海默症、抑郁症、帕金森等疾病。 目前,悟界·Brainμ已用于AI辅助科学家分析数据,支撑“记忆-睡眠”调控机制研究成果登刊Science。 悟界·OpenComplex悟界·OpenComplex2. 5是下一代AI驱动药物发现模型,重点解决固有无序蛋白(IDP)动态构象难以解析的问题。 它通过可泛化、物理真实的端到端全原子分布建模,精准捕捉IDP灵活、多变的构象状态,突破传统静态结构分析在高动态靶点研究中的局限,为神经退行性疾病等难成药靶点研究提供新的技术路径。
模型统一覆盖药物研发中的四个关键步骤:口袋识别、反向筛选、结构预测和亲和力预测。 在口袋识别环节,在靶点蛋白中定位可成药口袋,实现高质量的口袋检测、对多样化靶点具有鲁棒性、提升命中发现效率;在反向筛选环节,为给定化合物寻找潜在靶点,实现基于大规模靶点库搜索、对精准的靶点排序、加速化合物再利用和脱靶评估;在结构预测环节,预测蛋白-配体复合物的三维结构,实现高精度三维结构预测、捕捉关键相互作用、可靠用于下游分析;在亲和力预测环节,可准确估算结合亲和力相关指标的相对变化趋势,并可泛化至不同化学空间和靶点类型,支持先导化合物筛选与优化。 悟界·Physis悟界·Physis-v0. 1是全球首款通用世界基座模型,构筑真实物理世界人工智能底层核心引擎,重塑AI物理感知与推演的底层技术体系。 悟界·Physis-v0. 1彻底打破传统AI垂类场景专用的技术瓶颈,针对性解决行业共性难题,能有效弥补主流人工智能模型不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的核心短板,以通用基座能力实现全场景物理交互、感知与决策的统一,从根源提升AI物理推理的真实性与可靠性。 依托独创技术架构构建行业领先壁垒,悟界·Physis-v0.
1以物理隐空间表征替代传统像素、帧级预测方案,实现跨场景通用物理规律强化学习。 搭载专属物理状态编码器,可完成视频、深度RGB、3D点云、力触反馈等全模态信息压缩,统一转化为标准化隐空间物理状态 Latent State。 模型支持50+复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力,凭借高效的推理效率与极强的泛化能力,达到行业领先水平,可广泛应用于严肃工业、具身智能、物理仿真、科学研究等真实物理场景。 悟界·RoboBrain Orca悟界·RoboBrain Orca 是以下一个物理状态预测为核心的具身大脑,构建 “统一表征 — 建模 — 预测 — 交互” 完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统AI仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界,并融合大量Ego-centric交互数据,强化了世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力。
悟界·RoboBrain Orca具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,实现“想、看、动”三位一体,赋予具身智能机器人打通“认知—预测—行动”完整链路的能力,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。 2智能体蓬勃发展智源形成多层次布局与成果自2024年起,智源大会便率先关注智能体方向,剖析 LLM 与 Agent 结合所带来的新系统范式。 2025年,大会进一步探讨“自主智能体”这一议题,推动 Agent 从“模型应用”走向“智能系统”。 2026智源大会讨论重点再次升级,关注AI如何稳定、持续、安全地与现实环境交互,并真正参与工作流与社会系统运行。 目前,智源基于深厚技术底蕴形成多层次智能体布局与成果,推出覆盖心脏辅助诊断、科学发现、个人专属助理以及生物安全防护的智能体矩阵。 BAAI Cardiac AgentBAAI Cardiac Agent是全球首个面向心脏磁共振的辅助诊断智能体,依托安贞医院两千余例心血管患者超3万条影像-文本配对多模态数据,构建一站式“结构分割-功能评估-疾病诊断-智能化报告”智能体,推动优质心血管医疗能力普惠可及。
BAAI Cardiac Agent不仅能显著提升CMR影像的解读效率,同时融合安贞医院心脏专科医师的临床诊疗经验,其Agent-Expert系统复刻专家团队协作式诊疗流程,最终实现心脏疾病诊断精确度达到安贞医院顶尖心血管医生的诊断水平,AUC超0. 93。 AREXAREX是面向科学发现的自主研究智能体,致力于推动人工智能从模仿学习向自主学习跨越,让AI学会自我提升。 它面向科研过程中创新思路稀缺、设计实现缓慢、实验论证繁琐等痛点,全面降低科研全流程对人类参与的依赖,辅助人类研究,实现自主科学发现。 未来,AREX可服务于文献调研、思路拓展、实验设计、结果论证与论文撰写等科研全流程,也可用于人工智能服务的全流程快速构建、自主优化与迭代,并进一步推动人工智能技术赋能基础学科前沿问题的自主探索与科学发现。 SoulAgentSoulAgent是面向个人用户的专属智能体,采用全新自研架构,实现 Token 成本节省30%,资源占用降低80%。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI 学术
See more →
港中文团队提出 Skill 生命周期管理 SLIM,让大模型智能体不再盲目堆积 Skill !
The CUHK team introduced SLIM for dynamic skill lifecycle management in LLM agents, enhancing task performance by 7.1% over traditional methods like SkillRL. SLIM intelligently retains, retires, or expands skills based on their contributions, optimizing agent capabilities for complex tasks.
