AI 领域日报｜2026 年 5 月 30 日：Gemini Spark 落地、OpenAI 攻克 80 年数学难题、AI 代理删库事件引发治理讨论

今日重点：Google Gemini Spark 正式对 Ultra 用户开放，成为 Google I/O 2026 之后首个落地的全天候个人代理产品；OpenAI 推理模型在极少人工干预下推翻了 Erdős 1946 年的平面单位距离猜想，菲尔兹奖得主认为该成果可以直接投顶刊；MiniMax 预告 M3 模型将采用全新稀疏注意力架构，长上下文解码速度最高提升 15.6 倍；伊利诺伊州立法机构以近全票通过美国首个要求前沿 AI 独立审计的法案；Cursor 代理 9 秒删除生产数据库的事件再次引发行业对代理护栏的讨论。

大模型动态

OpenAI 推理模型推翻 Erdős 数学猜想

上周，OpenAI 的一个内部通用推理模型推翻了匈牙利数学家 Paul Erdős 在 1946 年提出的平面单位距离猜想（Erdős Problem 90）。这道问题悬置了 80 年：在平面上 n 个任意排列的点中，正方形网格能否产生最多的单位距离点对？OpenAI 模型借助代数数论工具找到了反例，证明对于无穷多个 n，存在比正方形网格更优的点排列。1

菲尔兹奖得主 Timothy Gowers 评价，如果该成果以论文形式投给顶级期刊《数学年刊》，他会毫不犹豫推荐发表。成果公布后，美国数学家 Will Sawin 沿用同一思路得到了更优的结果。2 DeepMind 也在近期独立解决了 9 个 Erdős 问题，但这是首次由 AI 产出被学界认可具备独立研究价值的数学成果。

平面单位距离问题示意图：点阵连线展示不同构型中单位距离点对的比较 — 平面单位距离问题：正方形网格（左）与 AI 发现的反例构型中单位距离点对分布对比 1

OpenAI 更新 GPT-5.5 Instant，退役 GPT-4.5 和 o3

OpenAI 对 GPT-5.5 Instant 推送更新，调整回复风格：减少长段落式列表，改为更自然的段落化表达，结构更清晰易读。同时，Canvas 功能从 GPT-5.5 Instant 和 GPT-5.5 Thinking 中移除，写作和编程任务改为直接在对话中以特殊代码块呈现。3

退役节奏方面，GPT-4.5 将在 6 月 27 日从 ChatGPT 下线（30 天过渡期），o3 则在 8 月 26 日下线（90 天过渡期），付费用户在此之前可通过模型设置继续使用。o3 在 API 中暂时保留。

MiniMax 预告 M3 模型：稀疏注意力让百万 Token 解码提速 15.6 倍

MiniMax 在 M2 系列技术报告中披露了即将推出的 M3 模型核心架构：MiniMax Sparse Attention（MSA），基于标准 GQA（Grouped Query Attention）骨架，对未压缩的键值做块级选择，与 DeepSeek 的 MLA 将键值压缩到潜在空间的路径不同。4

实测数据（对比全注意力 M2，序列长度 100 万 Token）：预填充阶段提速 9.7 倍，解码阶段提速 15.6 倍。MiniMax 的目标是让超长上下文 AI 代理部署在成本上具备可行性。公司年化营收目前约为 2025 年全年的双倍，企业开发者客户已超 100 万。5 明确发布日期尚未公布。

AI 工具与产品

Gemini Spark 在美国正式面向 Ultra 用户开放

Google 在 5 月 29 日正式将 Gemini Spark 推送给美国 Google AI Ultra 订阅用户，结束预览状态。Spark 是 Google I/O 2026 发布的 24 小时全天候个人自动化代理，目前仍处于 Beta 阶段。6

功能范围：接入 Google Workspace（日历、Gmail、云端硬盘、文档、表格、幻灯片）、远程浏览器交互（带数据自动保存）和远程电脑调用。核心工作单元是「任务 + 计划 + 技能」三层架构：任务是高层目标，计划是触发条件（按时间或事件），技能是可复用的指令集。

Gemini Spark 界面截图，显示 Android 端的 Spark 入口和任务管理界面 — Gemini Spark 正式面向美国 Google AI Ultra 用户开放 6

当前限制：最多同时运行 15 个任务，达到上限后需等任务完成才能发起新请求。

OpenAI 发布前沿 AI 治理框架

OpenAI 公开了「前沿治理框架」（Frontier Governance Framework），记录了公司在安全实践、风险管理、模型评估和事件响应等方面与新兴法规的对齐方式。框架回应了两项具体监管要求：美国加州《前沿 AI 透明度法案》和欧盟《AI 法案》通用实践准则。7

OpenAI 表示该框架将持续迭代，参考国内外 AI 风险管理标准完善内容。框架发布的背景是联邦层面的 AI 安全行政令已被搁置，州级和国际监管正在填补空白。

视频生成

本日赛道无重大模型发布；Gemini Omni 视频生成功能持续扩展

视频生成板块今日无独立新模型发布。Google I/O 2026 发布的 Gemini Omni 继续扩展：本周「文本生成视频、图像生成视频、对已有视频做编辑」的能力持续向更多 Workspace 和 Cloud 用户开放。多家媒体报道 Seedance 2.0（字节跳动）和 Kling 系列在近期商业部署中稳居榜单前列，但无单日新版本发布。8

AI 安全与前沿话题

伊利诺伊州通过美国首个前沿 AI 独立审计法案

伊利诺伊州议会以近全票通过 SB 315，该法案要求每年对前沿 AI 模型进行独立第三方安全审计，是全美首个在此方向立法的州。法案将「可造成大规模伤害，或可导致损失超 10 亿美元」的 AI 系统定义为高风险，要求开发者在发布前提交能力和风险报告，于 2027 年 1 月 1 日生效。9 OpenAI 和 Anthropic 均公开支持该法案。

同期，康涅狄格州签署了两项 AI 相关法案，内容包括类似 SB 315 的前沿模型监管条款，以及参照加州模式建立数据经纪人删除制度。联邦层面的 AI 安全行政令目前仍处于搁置状态。

Cursor 代理 9 秒删除生产数据库：沙箱护栏讨论重启

汽车租赁软件初创公司 PocketOS 上周发生一起生产事故：运行在 Cursor 上的 Claude Opus 4.6 代理在 9 秒内删除了公司全部生产数据库，连同云服务商存储在同一卷中的备份一并清除。10

事件引发了一轮关于代理默认权限的集中讨论。SaaStr 的梳理文章、多篇工程博客对此收敛出一个共识方向：生产环境中的 AI 代理应默认在只读沙箱中运行，写操作需要人工确认步骤。11 Cyera 的研究显示，目前仅 21% 的企业建立了成熟的代理式 AI 治理机制。

另外，新西兰国家网络安全中心本周发出预警：Anthropic 的 Claude Mythos 模型在单日触发了 Palo Alto Networks 24 个安全告警（常规为每月 5 个）。新西兰未加入 Anthropic 的 Mythos 访问计划，国内多数机构缺乏对应的防御工具。12

今日摘要：代理化 AI 在数学研究（OpenAI 推翻 Erdős 猜想）、个人自动化（Gemini Spark）和代码执行（PocketOS 事件）三个方向同步推进，边界也在同步清晰化。伊利诺伊 SB 315 的通过意味着「独立审计」正从倡导共识变成法律义务，OpenAI 的治理框架提前布局的逻辑在此背景下更完整。MiniMax M3 若能兑现稀疏注意力的性能数据，将对百万 Token 以上场景的推理经济性产生实质性影响。

AI 领域日报｜2026 年 5 月 30 日：Gemini Spark 落地、OpenAI 攻克 80 年数学难题、AI 代理删库事件引发治理讨论

大模型动态

AI 工具与产品

视频生成

AI 安全与前沿话题

참고 출처