AI创投周报｜OpenAI正式发布GPT-5，医疗AI平台Ambience Healthcare完成2.43亿美元C轮融资

融资主体：Ambience Healthcare

融资轮次：C轮

投资机构：Oak HC/FT,Andreessen Horowitz (a16z),OpenAI Startup Fund,Kleiner Perkins

推理时间：2025-08-11

人工智能产品和技术的新突破

1. GPT-5全面开放：多模态集成与性能突破

OpenAI正式发布GPT-5，面向所有用户开放免费使用，标志着“博士生水平AI”的普及。此次发布由CEO萨姆·奥特曼及十余名研究员共同展示，包括多位华人技术专家。GPT-5首次将多模态与推理能力集成于一体，无需手动切换模型，系统可自动判断是否启用深度思考功能。

GPT-5在多项基准测试中刷新纪录：编程领域以0.4%优势超越Claude-opus-4.1，网页开发、长上下文任务及Agent任务表现均居首位。其深度推理模式在AIME 2025数学测试中实现满分，并能在两分钟内生成400行交互代码。多模态能力显著升级，语音交互支持个性化教学，安全机制引入“Safe Completions”技术，能动态分析用户意图。尽管演示中因基准测试图表细节引发争议，且马斯克质疑其未在部分测试中超越Grok4，但GPT-5仍以一体化智能系统和广泛的应用场景（如医疗健康、教育）成为AI领域新标杆。API提供三档模型选择，最低输入成本仅0.05美元/百万token。

2. 谷歌推出Deep Think功能，Gemini 2.5模型助力数学与科研突破

谷歌近日宣布向Google AI Ultra订阅用户推出Deep Think功能，并开放Gemini 2.5 Deep Think模型供部分数学家使用。该模型是此前在国际数学奥林匹克（IMO）竞赛中获得金牌的改进版本，融合了早期测试反馈和研究突破，推理速度更快，日常体验更优。谷歌DeepMind表示，该模型特别适合解决复杂问题的研究人员和学者，能够通过并行思维和强化学习技术进行头脑风暴，甚至辅助数学猜想的证明。

Deep Think的核心优势在于延长推理时间和并行思维技术，使其能同时探索多个假设并逐步优化答案。在数学与科研领域，它可帮助提出猜想、分析文献；在编程中，能高效处理算法设计；在创意任务中，还能迭代改进设计细节。例如，用户仅需一个提示词，模型就能生成高度精细的体素艺术图像。此外，Gemini 2.5 Deep Think在多项基准测试中表现优异，如IMO2025（60.7%得分）和AIME 2025（99.2%得分）。谷歌强调，模型在安全性上有所提升，但拒绝良性请求的倾向略有增加，未来将持续优化风险控制。目前，用户可通过Gemini应用体验该功能，每日限用5次。

3. Anthropic 在OpenAI宣布开源模型前抢先发布Claude Opus 4.1

Anthropic在OpenAI宣布开源模型前半小时意外发布新一代Claude Opus 4.1，上演了一场戏剧性的“截胡”戏码。这一基于Opus 4升级的模型面向商业和个人用户开放，支持200K上下文窗口，并通过Anthropic API、亚马逊云科技及Google Cloud等平台提供服务。其定价为每百万输入/输出token分别15美元和75美元，但通过提示缓存和批处理技术可大幅降低成本。

Claude Opus 4.1的核心升级体现在智能体任务、代码重构与推理能力上。在SWE-bench基准测试中达到74.5%的准确率，尤其擅长多文件代码修改，企业用户反馈其能精准定位代码问题且避免引入新错误。此外，模型支持混合推理模式，可自主完成复杂研究任务，如分析专利数据库与学术论文。此次发布不仅加剧了AI巨头间的竞争，也为开发者提供了更强大的工具选择。

4. 谷歌DeepMind发布Genie 3世界模型，开启交互式生成环境新纪元

谷歌DeepMind近日正式推出第三代世界模型Genie 3，这一突破性技术仅需单个文本提示词即可生成交互式、可玩的动态环境。从逼真风景到奇幻场景，Genie 3展现了无限可能性，其生成的世界能以720p分辨率和每秒24帧的速率实时渲染，并保持数分钟的一致性。DeepMind团队通过技术突破解决了自回归生成中的轨迹回溯难题，实现了真正的实时交互与长时间物理一致性，远超前代Genie 2及同类模型GameNGen、Veo。

Genie 3的核心能力包括模拟物理属性、自然生态系统、动画场景及历史背景，并支持“可提示的世界事件”——用户可通过文本指令动态改变天气或添加物体。尽管存在动作空间有限、多智能体交互模拟不足等局限性，Genie 3已为教育、机器人训练等领域开辟新路径。DeepMind表示，未来将扩大测试范围，推动其在具身智能与生成式媒体中的应用。

5. Qwen团队发布两款4B端侧模型，小体积大能力

Qwen团队近日深夜发布了两款面向端侧设备的4B参数模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507，再次展现了中国AI开源力量的高效迭代能力。这两款模型由阿里通义千问团队开发，专为资源受限的终端设备优化，甚至能在树莓派上运行。其中，Qwen3-4B-Thinking-2507在AIME25数学测评中以81.3分超越Gemini 2.5 Pro和Claude 4 Opus等大模型，引发海外开发者惊叹。

两款模型各具特色：Qwen3-4B-Instruct-2507专注通用能力提升，支持256K长上下文理解，其性能已接近30B参数的MoE模型；Qwen3-4B-Thinking-2507则强化了逻辑推理和专家级任务处理能力，在数学、编程等复杂场景表现突出。团队建议开发者通过Ollama、llama.cpp等工具部署，并针对不同任务提供了详细的Prompt优化方案。此次Qwen以更小的参数量实现更强性能，为端侧AI开发提供了新选择。

6. 腾讯混元开源四款轻量级 AI 模型，覆盖多终端应用场景

腾讯混元团队近日宣布开源四款轻量级语言模型，分别为0.5B、1.8B、4B和7B参数规模。这些模型由腾讯自主研发，已获得ARM、高通等多家终端芯片平台的支持，适用于手机、智能座舱等低功耗场景。团队特别强调，这些模型可通过消费级显卡运行，支持垂直领域的低成本微调，技术方案已在GitHub和HuggingFace全面开放。

此次开源的亮点在于模型兼具高效推理与长文本处理能力。四款模型均采用"快思考"与"慢思考"双模式设计，在语言理解、数学推理等任务中达到业界同尺寸模型的领先水平。其256k的原生长上下文窗口可处理相当于40万汉字的内容，能完整记忆《哈利波特》三部曲的细节并展开讨论。目前该系列已应用于腾讯会议AI助手、微信读书等产品，在金融意图识别、游戏NPC对话等场景中验证了95%以上的准确率。

7. 小红书开源多模态 大模型 dots.vlm1，视觉推理能力接近 SOTA 水平

小红书人文智能实验室（hi lab）近期开源了其首个多模态大模型dots.vlm1，该模型基于自研的12亿参数NaViT视觉编码器和DeepSeek V3语言模型构建，在视觉理解和推理任务上表现优异，接近Gemini 2.5 Pro等闭源模型的水平。hi lab是小红书内部大模型技术与应用产品团队升级而来，专注于多元智能形态的研发，此前开源的dots.ocr文档解析模型曾登上HuggingFace热榜第七，展现了团队的技术实力。

dots.vlm1在实测中展现了强大的多模态能力，不仅能精准识别色盲图、解数独、分析复杂图表，还能完成高考数学题和行测逻辑推理。其视觉编码器采用动态分辨率设计，通过两阶段训练策略提升泛化能力，支持高分辨率输入。模型在MMMU、MathVision等评测集上表现接近SOTA，同时在文本任务中保持竞争力。此外，dots.vlm1还能结合图文生成创意内容，如模仿李白风格写诗。小红书选择优先研发VLM而非文生图模型，可能与其“让AI更懂人”的战略相关，未来或进一步探索多模态与社区交互的结合。

8. 字节发布数学推理模型Seed-Prover，达IMO银牌水平

字节跳动研发的数学推理模型Seed-Prover在多项国际顶级数学竞赛中展现惊人实力，不仅以100%正确率横扫MiniF2F数据集，更成功解决78.1%的IMO历史难题，其普特南数学竞赛成绩达到主流模型的4倍。该成果获得前谷歌研究员Deedy Das高度评价，称字节是"唯一为IMO发表完整论文的AI实验室"，标志着AI在形式化数学证明领域取得重大突破。

Seed-Prover的创新核心在于其"引理优先"的证明范式：通过Lean 4构建模块化引理池，将复杂数学问题分解为可独立验证的引理单元，再组合成完整证明。其专用几何引擎Seed-Geometry采用神经-符号混合架构，基于2.3亿几何问题库实现前向推理与依赖追踪，在IMO-AG-50测试中比AlphaGeometry2多解3道难题。实际测试中，该系统不仅2秒破解IMO2025第2题，更在模拟IMO竞赛中完成6题中的4.5题，达到银牌选手水平。

9. 浙大发布类脑计算机“悟空”，20亿 神经元 逼近猕猴大脑水平

浙江大学脑机智能全国重点实验室成功研制全球最大规模类脑计算机“Darwin Monkey（悟空）”，其核心由960颗自研Darwin3类脑芯片构成，具备20亿脉冲神经元和1000亿突触连接，首次在工程系统上逼近猕猴大脑的神经元规模。该成果由潘纲教授团队主导，系统功耗仅2000瓦，不仅可运行DeepSeek等类脑大模型，还能模拟从线虫到猕猴的多种动物大脑，为脑科学研究和人工智能发展提供了全新工具平台。

“悟空”计算机的核心突破在于Darwin3芯片的创新设计：采用事件驱动架构实现超低功耗（单次突触操作能耗5.47皮焦耳），支持片上学习与动态连接压缩技术，最大突触扇入/扇出能力提升超千倍。通过2.5D先进封装技术将64颗芯片集成于12英寸晶圆，构建的“晶上系统”显著提升了通信效率。相比Intel此前发布的11.5亿神经元系统Hala Point，“悟空”规模扩大近一倍，其分层操作系统还能实现神经拟态任务的智能调度。这一突破既为理解大脑机制提供了非生物实验路径，也为未来类脑AI的快速决策与学习能力奠定了硬件基础。

10. 北大联合字节Seed团队推出SWE-Swiss配方，32B模型实现 软件工程 SOTA 性能

北京大学、字节跳动Seed团队与香港大学联合研发的SWE-Swiss训练配方，成功让32B参数模型在软件工程领域达到顶尖水平。研究团队基于Qwen2.5-32B模型开发的SWE-Swiss-32B，在SWE-bench Verified基准测试中以60.2%准确率比肩更大规模模型，其完整方法论与数据集已全部开源，为AI解决复杂软件问题提供了新范式。

该研究的核心创新在于将软件工程问题解构为代码定位、修复和测试生成三大核心能力，并通过两阶段训练实现性能突破。第一阶段采用多任务监督微调建立基础能力，第二阶段通过独创的两阶段强化学习课程，使模型在剪枝后的挑战性样本上专注提升，性能从36%跃升至45%。测试阶段引入的"增强自我一致性"算法，通过相似度度量优化补丁筛选，最终推动准确率提升至60.2%。

人工智能初创公司的新融资

1. 医疗AI平台 Ambience Healthcare完成2.43亿美元C轮融资

公司网址： https://ambiencehealthcare.com

Ambience Healthcare在近日完成2.43亿美元C轮融资，由Oak HC/FT和Andreessen Horowitz（a16z）共同领投，OpenAI Startup Fund、Kleiner Perkins等现有投资者跟投。资金将用于扩展医疗AI平台在更多专科和医疗系统中的应用，开发新产品以提升临床文档完整性和护理团队效率。

Title

bottom