文章来源:智汇AI 发布时间:2025-07-08
2025年7月7日AI行业最新新闻资讯包括:中科院推出Stream-Omni多模态大模型,开启文本、视觉、语音融合新篇;开源AI桌面助手Glass走红;Claude Neptune v3模型即将发布…
暂无访问中国科学院计算技术研究所自然语言处理团队搞出了个大动静,推出了个叫Stream-Omni的多模态大模型。这模型厉害在哪呢?它能同时搞定文本、视觉和语音三种模态的交互,让用户用起来更灵活、更丰富。
Stream-Omni是基于GPT-4o架构打造的,在文本、视觉和语音上都有出色表现。你跟它语音交互时,它还能实时给你显示中间的文本结果,就像“边看边听”一样自然。
以前的多模态大模型,都是把不同模态的表示拼在一起,再输入到大语言模型里生成响应。但这种方法太依赖数据,还不够灵活。Stream-Omni就不一样了,它通过更有针对性的模态关系建模,减少了对大规模三模态数据的依赖,让语音和文本语义一致,视觉和文本语义互补,模态对齐更高效。
而且,Stream-Omni的语音建模方式很独特,语音交互时能同时输出中间的文本转录结果,这在需要语音到文本实时转换的场景里,效率高又方便。
它还能灵活组合视觉编码器、语音层和大语言模型,支持多种模态组合的交互。不管你是用文本、语音还是视觉输入,都能得到一致的响应。
在实验里,Stream-Omni的视觉理解能力跟同规模的视觉大模型差不多,语音交互能力更是比现有技术强不少。虽然它在拟人化表现和音色多样性上还有提升空间,但已经为未来的多模态智能交互打下了坚实基础。
guthub地址:https://github.com/ictnlp/Stream-Omni
2025年7月初,一款叫Glass的开源AI桌面助手火了起来,成了开发者和职场人士的心头好。这工具是Pickle团队开发的,隐形设计、实时信息处理、上下文理解能力强,办公体验超棒。
Glass的隐形设计很特别,它躲在后台运行,屏幕录制、截图和macOS的Dock栏里都看不到它,既保护了隐私又低调。它不像传统AI助手得等用户主动交互,而是实时观察屏幕和音频,主动分析任务,给出建议和知识支持,不打断工作流,效率还高。
会议场景里,Glass更是实用。它能实时监听会议音频,自动生成会议记录和摘要,还能根据上下文解答问题。比如会议提到技术术语,它能马上给出背景知识和解决方案,会议效率大大提高。它还能把会议内容整理成结构化笔记,方便查阅分享。
Glass不仅适用于会议,学习和编程也都能用。学习时,它能分析文档网页,整理关键信息生成笔记;编程时,它能观察代码界面,给出调试建议和优化方案。而且它是开源的,开发者能在GitHub上定制功能。
现在Glass只支持macOS,不过Windows和Linux版本也在期待中。它免费透明,模块化设计,未来功能扩展空间大,值得一试。
github地址:https://github.com/pickle-com/glass
听说Anthropic正在紧锣密鼓地测试一个叫“ClaudeNeptunev3”的新AI模型,这可引起了AI社区的广泛关注。很多人推测,这可能是Claude4.5的雏形,说不定数周内就发布了。
Neptunev3现在处于内部红队测试阶段,重点测试宪法AI系统的稳健性,确保模型安全又合规。社交媒体上有人说,这模型数学推理能力超强,能和OpenAI的o3Pro、Google的Kingfall模型媲美,不过还得等官方基准测试验证。
关于Neptunev3的定位,大家看法不一。有人觉得它是Claude4.5的预备版,延续增量更新策略;也有人认为它是Claude系列的重大突破,在代码生成、复杂推理和多模态处理上会更厉害。Anthropic之前推出的Claude4在编码能力上就很强,Neptunev3有望巩固这一优势,给开发者和企业用户提供更高效的AI解决方案。
现在AI领域竞争激烈,OpenAI的GPT-5和Google的GeminiUltra升级版都要来了。Anthropic这时候测试Neptunev3,就是想抢占市场先机。社交媒体分析说,它可能会优化上下文窗口和工具使用能力,应对复杂任务。虽然具体细节还没公开,但已经让很多人期待了。
体验地址:Claude网页版官网入口
腾讯最近宣布开源了一个新语言模型“混元-A13B”,这模型可不简单,引入了动态推理方法,能根据任务复杂程度在快速和深度“思考”间切换。
“混元-A13B”的核心优势就是能实时调整推理深度。简单查询时,它用快速模式,几步就给出响应;复杂问题就激活深度推理,多步骤思考。用户还能用“/think”和“/no_think”手动控制。
它采用了混合专家(MoE)架构,总参数量800亿,但实际推理时只有130亿参数活跃,提高了运行效率。还支持最高256,000个标记的上下文窗口,处理长文本能力很强。
腾讯的技术报告说,“混元-A13B”在20万亿个token上训练过,还针对推理任务和更广泛的用例优化过。为了提升科学任务可靠性,它从STEM领域收集了2500亿个token训练,涵盖数学教科书、考试、GitHub开源代码等。
腾讯称“混元-A13B-Instruct”版本能和OpenAI、Deepseek等领先模型媲美。在2024年美国数学竞赛AIME中,它准确率达87.3%,比OpenAIo1高。不过2025年OpenAIo1领先近3%,而且腾讯比较的数据是Deepseek-R1的过时版本,Deepseek5月版本表现更优异。
模型地址:https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct/summary
github地址:https://github.com/Tencent-Hunyuan/Hunyuan-A13B
体验地址:腾讯混元大模型官网入口
据Tech星球消息,B站要在视频播客业务上大干一场了,还推出了一系列扶持政策,其中最引人注目的就是内部项目“代号H”的AI创作工具,这能让创作者更高效地生产内容。
B站对视频播客的扶持政策有三方面。一是给创作者提供流量冷启动扶持,让内容快速曝光;二是在一线城市提供免费录制场地,降低制作成本;三就是上线视频播客专属AI创作工具“代号H”。
“代号H”能帮播客创作者节省找和剪辑视频素材的时间精力。创作者输入文案或音频内容,它就能自动生成匹配的视频画面。
它支持文案和音频两种格式输入,适配播客和泛知识杂谈图文两种模板。现在千字内容6分钟能生成完,未来有望缩短到3分钟。B站定向邀请创作者体验后,反馈“超出预期”,说明这工具提升创作效率潜力巨大。
B站全面布局视频播客业务,还推出这么实用的AI创作工具,看来是要在视频播客领域大展身手了,创作者们有福啦。
体验地址:目前该工具还未推出,无法体验
据B站透露,目前定向邀请创作者体验的反馈“超出预期”,这充分显示出该工具在提升创作效率方面的巨大潜力。
2025年7月初,谷歌推出的开源命令行工具GeminiCLI发布了新版本,带来了好多让人兴奋的功能改进和优化。这次更新合并了85个PR,由51位社区贡献者完成,开源生态超活跃。
GeminiCLI把Gemini2.5Pro人工智能模型引入终端,这次更新在功能、兼容性和稳定性上都有大突破,给开发者提供了更高效灵活的工作体验。
音视频处理和Markdown功能升级是亮点。新增音视频内容支持,开发者能在终端处理音频视频文件了。Markdown文件处理能力也变强,能嵌套导入其他Markdown文件,还能正确显示表格,内容管理更灵活直观。
隐私保护也升级了,新增了/privacy命令,用户能查看修改隐私设置,数据控制更透明,企业级用户用着更放心。
兼容性和用户体验也优化了,框架升级,新增对VSCodium和Neovim的支持,还有新主题,跨平台使用更高效,满足不同开发者需求。
稳定性和安全性也提升了,支持带Header的HttpMCP服务器,历史压缩功能优化,还防止无限循环。GeminiCLI免费又开源,未来还可能支持本地/离线模型,值得开发者期待。
github地址:https://github.com/google-gemini/gemini-cli
体验地址:谷歌Gemini多模态人工智能语言模型
2025年618促销期间,中国智能音箱市场强势复苏。线上销量达80.2万台,同比增长7.5%,销售额同比增长15.2%。这多亏了AI大模型技术的广泛应用,让智能音箱功能更强、体验更好。
数据显示,搭载AI大模型的智能音箱市场占比近四成,2025年第二季度销量份额达36.8%。这说明消费者对智能音箱需求增强,技术革新后产品交互能力和体验大幅提升。
小米推出的“超级小爱”大模型智能音箱Pro在618期间表现惊艳,单品销量第一。它在语音交互、智能问答等方面很出色,给用户带来了更人性化的体验。
百度也不甘示弱,5月份发布了搭载“文心大模型”的新品,大金刚Pro和智能健康屏成了主力机型。
和传统智能音箱比,搭载AI大模型的产品在智能语音问答、交互能力上有质的飞跃。这种更人性化和智慧化的体验,让消费者愿意为高性能产品买单。智能音箱市场经历了四年低迷后,终于有望稳定回升。
随着AI大模型技术不断进步,智能音箱市场会持续增长,消费者也能享受更智能便捷的生活。
购买地址:淘宝/天猫/抖音商城等