每日AI资讯-2025年07月07日

文章来源：智汇AI 发布时间：2025-07-08

2025年7月7日AI行业最新新闻资讯包括：中科院推出Stream-Omni多模态大模型，开启文本、视觉、语音融合新篇；开源AI桌面助手Glass走红；Claude Neptune v3模型即将发布…

暂无访问

Stream-Omni：多模态交互新宠，文本视觉语音同时搞定

中国科学院计算技术研究所自然语言处理团队搞出了个大动静，推出了个叫Stream-Omni的多模态大模型。这模型厉害在哪呢？它能同时搞定文本、视觉和语音三种模态的交互，让用户用起来更灵活、更丰富。

Stream-Omni是基于GPT-4o架构打造的，在文本、视觉和语音上都有出色表现。你跟它语音交互时，它还能实时给你显示中间的文本结果，就像“边看边听”一样自然。

以前的多模态大模型，都是把不同模态的表示拼在一起，再输入到大语言模型里生成响应。但这种方法太依赖数据，还不够灵活。Stream-Omni就不一样了，它通过更有针对性的模态关系建模，减少了对大规模三模态数据的依赖，让语音和文本语义一致，视觉和文本语义互补，模态对齐更高效。

而且，Stream-Omni的语音建模方式很独特，语音交互时能同时输出中间的文本转录结果，这在需要语音到文本实时转换的场景里，效率高又方便。

它还能灵活组合视觉编码器、语音层和大语言模型，支持多种模态组合的交互。不管你是用文本、语音还是视觉输入，都能得到一致的响应。

在实验里，Stream-Omni的视觉理解能力跟同规模的视觉大模型差不多，语音交互能力更是比现有技术强不少。虽然它在拟人化表现和音色多样性上还有提升空间，但已经为未来的多模态智能交互打下了坚实基础。

guthub地址：https://github.com/ictnlp/Stream-Omni

开源AI桌面助手Glass火了，会议记录灵感捕捉不在话下

2025年7月初，一款叫Glass的开源AI桌面助手火了起来，成了开发者和职场人士的心头好。这工具是Pickle团队开发的，隐形设计、实时信息处理、上下文理解能力强，办公体验超棒。

Glass的隐形设计很特别，它躲在后台运行，屏幕录制、截图和macOS的Dock栏里都看不到它，既保护了隐私又低调。它不像传统AI助手得等用户主动交互，而是实时观察屏幕和音频，主动分析任务，给出建议和知识支持，不打断工作流，效率还高。

会议场景里，Glass更是实用。它能实时监听会议音频，自动生成会议记录和摘要，还能根据上下文解答问题。比如会议提到技术术语，它能马上给出背景知识和解决方案，会议效率大大提高。它还能把会议内容整理成结构化笔记，方便查阅分享。

Glass不仅适用于会议，学习和编程也都能用。学习时，它能分析文档网页，整理关键信息生成笔记；编程时，它能观察代码界面，给出调试建议和优化方案。而且它是开源的，开发者能在GitHub上定制功能。

现在Glass只支持macOS，不过Windows和Linux版本也在期待中。它免费透明，模块化设计，未来功能扩展空间大，值得一试。

github地址：https://github.com/pickle-com/glass

Claude要发新模型Neptunev3，数学能力或超群

听说Anthropic正在紧锣密鼓地测试一个叫“ClaudeNeptunev3”的新AI模型，这可引起了AI社区的广泛关注。很多人推测，这可能是Claude4.5的雏形，说不定数周内就发布了。

Neptunev3现在处于内部红队测试阶段，重点测试宪法AI系统的稳健性，确保模型安全又合规。社交媒体上有人说，这模型数学推理能力超强，能和OpenAI的o3Pro、Google的Kingfall模型媲美，不过还得等官方基准测试验证。

关于Neptunev3的定位，大家看法不一。有人觉得它是Claude4.5的预备版，延续增量更新策略；也有人认为它是Claude系列的重大突破，在代码生成、复杂推理和多模态处理上会更厉害。Anthropic之前推出的Claude4在编码能力上就很强，Neptunev3有望巩固这一优势，给开发者和企业用户提供更高效的AI解决方案。

现在AI领域竞争激烈，OpenAI的GPT-5和Google的GeminiUltra升级版都要来了。Anthropic这时候测试Neptunev3，就是想抢占市场先机。社交媒体分析说，它可能会优化上下文窗口和工具使用能力，应对复杂任务。虽然具体细节还没公开，但已经让很多人期待了。

体验地址：Claude网页版官网入口

腾讯开源混元-A13B，动态推理“会思考”超厉害

腾讯最近宣布开源了一个新语言模型“混元-A13B”，这模型可不简单，引入了动态推理方法，能根据任务复杂程度在快速和深度“思考”间切换。

“混元-A13B”的核心优势就是能实时调整推理深度。简单查询时，它用快速模式，几步就给出响应；复杂问题就激活深度推理，多步骤思考。用户还能用“/think”和“/no_think”手动控制。

它采用了混合专家（MoE）架构，总参数量800亿，但实际推理时只有130亿参数活跃，提高了运行效率。还支持最高256,000个标记的上下文窗口，处理长文本能力很强。

腾讯的技术报告说，“混元-A13B”在20万亿个token上训练过，还针对推理任务和更广泛的用例优化过。为了提升科学任务可靠性，它从STEM领域收集了2500亿个token训练，涵盖数学教科书、考试、GitHub开源代码等。

腾讯称“混元-A13B-Instruct”版本能和OpenAI、Deepseek等领先模型媲美。在2024年美国数学竞赛AIME中，它准确率达87.3%，比OpenAIo1高。不过2025年OpenAIo1领先近3%，而且腾讯比较的数据是Deepseek-R1的过时版本，Deepseek5月版本表现更优异。

模型地址：https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct/summary

github地址：https://github.com/Tencent-Hunyuan/Hunyuan-A13B

体验地址：腾讯混元大模型官网入口