每日AI资讯-2025年07月09日

文章来源：智汇AI 发布时间：2025-07-11

2025年7月9日，AI行业最新新闻资讯信息，包括：昆仑万维发布新模型，跨模态推理能力出众；Mistral寻求10亿美元融资，剑指欧洲AI王座；飞书推多款AI新品助力企业办公；Hugging Fac…

暂无访问

昆仑万维放大招！Skywork-R1V3.0跨模态推理超厉害

近日，昆仑万维搞了个大动作，正式发布了全新的开源模型Skywork-R1V3.0。这模型可不简单，在多模态推理方面达到了新高度，都快赶上人类初级专家的水平啦！

它是基于上一代Skywork-R1V2.0“冷启动”的，用了高质量的蒸馏数据和拒绝采样技术，搞出了一个超强的多模态推理训练集。这模型不只处理文本厉害，图像处理也不在话下，图像和文本之间的推理能力大大提升。

训练它的时候，只用了约1.2万条监督微调样本和1.3万条强化学习样本，却展现出了“小数据激发大能力”的独特优势。在权威的综合性多模态评测MMMU中，它拿了76.0分，把Claude-3.7-Sonnet（75.0分）和GPT-4.5（74.4分）等闭源模型都甩在了后面，跨模态理解能力超强。

在实际应用场景里，它在物理、逻辑和数学推理等多个领域都表现出色。物理推理评测中，拿了两个最佳开源成绩；逻辑推理测试也取得了59.7分的好成绩。数学推理方面，在多个评测中也拿到了优异成绩，明显比其他开源模型强。

Skywork-R1V3.0的发布，标志着多模态推理技术又上了一个新台阶。它的强大性能和开源特性，肯定会极大地推动AI技术进一步发展，未来可期啊！

体验地址：天工AI大模型-昆仑万维AI大型语言模型

MistralAI野心大！寻10亿融资预要称霸欧洲AI界

法国人工智能公司Mistral最近动作不断，正在积极寻求高达10亿美元的股权融资，想进一步巩固自己在欧洲AI领域的领导地位。这次融资，阿布扎比的MGX基金可能会参与，而且Mistral还打算和法国贷款机构合作，再筹集数亿欧元的债务融资。

Mistral靠开发聊天机器人LeChat出名，一直专注于开源大语言模型。自成立以来，已经累计融资11.9亿美元，估值高达65.1亿美元，市场潜力那是相当大。

除了自己发展，Mistral还和MGX、英伟达合作，打算建设欧洲最大的AI数据中心园区。这项目不仅能支持法国的AI主权计划，还能给整个欧洲的人工智能产业提供超强基础设施，提升欧洲在全球AI竞争中的地位。

Mistral的创始团队说，这笔融资会用来加速公司的研发和市场拓展，让自己在竞争激烈的AI领域脱颖而出。现在全球对人工智能的需求持续增长，Mistral在开源大语言模型和聊天机器人领域的创新，肯定会吸引更多关注。

在即将到来的融资浪潮中，Mistral不仅想强化自身技术优势，还想助力法国和欧洲在全球AI竞争中占据一席之地，确保战略主权，就看它能不能成功啦！

官网地址：MistralAI网页版官网入口

飞书放大招！多款AI新品助力企业智能办公

7月9日，飞书开了个发布会，推出了好多让人眼前一亮的AI产品，像知识问答、AI会议、Aily还有飞书妙搭等等。这些新产品就是为了帮企业更好地满足日常运营需求，推动企业智能化转型。

飞书CEO谢欣说：“我们要给企业提供真正能用的AI产品，当好值得信赖的AI伙伴。”飞书的王牌产品多维表格，最近也进行了重大更新，现在都能替代小型业务系统了。企业用这一个多维表格就能处理销售、客服和人力资源等功能，不用再额外买其他系统，能省不少钱。

现在AI发展得快，很多企业都有“AI焦虑”。飞书就发布了业界首个AI应用成熟度模型，把AI应用分成四个等级，帮企业科学选产品。知识问答工具都达到M3成熟级别了，能根据企业内部的聊天记录、会议纪要等信息，快速回答员工问题，能大大提高企业内部信息获取效率。

飞书智能会议纪要也达到了M4级别，能在会议过程中实时总结，还能生成待办事项，准确度和逻辑性都很棒。多维表格新加了应用模式，用户拖拖拽拽就能快速搭建出实用的业务应用，性能也提升了不少，单表容量能达到1000万行，加载速度也变快了。

飞书还推出了企业开发套件，让构建AI工具变得更简单高效。Aily企业级Agent开发平台已经在好多企业落地了，提升了客服效率。飞书妙搭是个全新的AI系统搭建工具，能让企业更快实现产品原型开发。飞书这些新产品，肯定会给企业带来前所未有的智能化体验，推动行业发展。

小身材大智慧！HuggingFaceSmolLM3开源，3B参数+128K上下文重新定义高效

最近，HuggingFace推出了全新的开源语言模型SmolLM3，这是一款只有3B参数的轻量级大语言模型，一出来就引起了行业广泛关注。它性能卓越，设计高效，在很多方面都表现出色。

SmolLM3是3B参数的解码器专用Transformer模型，用了分组查询注意力和NoPE技术优化，推理高效，还能处理长上下文。它在11.2万亿token的多样化数据集上预训练，涵盖了网页、代码、数学和推理数据，在知识、推理、数学和编码等领域都很厉害。在好多基准测试中，它都超过了同级别的Llama-3.2-3B和Qwen2.5-3B，甚至和4B参数的Gemma3性能差不多。

它还有个独特的双模式推理功能，有“思考”和“非思考”两种模式。开启思考模式后，在复杂任务测试中表现提升特别明显，能根据任务需求动态调整，满足各种场景需求。

SmolLM3处理长上下文也很厉害，训练时支持64K上下文，还能扩展到128Ktoken。它原生支持六种语言，在阿拉伯语、汉语和俄语上也进行了少量训练，多语言任务表现优异。

而且，HuggingFace完全开源了SmolLM3，公开了模型权重、训练数据混合、训练配置和代码，降低了学术研究和商业应用的门槛。它还专为高效推理设计，适合在浏览器或边缘设备上运行，为教育、编码、客户支持等场景提供了高性价比的解决方案。相信它会在很多领域掀起应用热潮。

体验地址：SmolLM3大模型官网地址

ViduQ1模型迎来大升级！七张图就能生成超棒视频

中国AI视频生成领域的领军者ViduAI最近宣布，它的Q1模型迎来了重大升级，推出了全新的“参考转视频”功能，能让用户上传最多七张参考图像，生成视觉一致性极高的1080p视频。这一功能解决了传统AI视频生成在多场景和多主体一致性上的难题，给创作者带来了前所未有的灵活性和创作自由。

工具地址：ViduAI海外版官网入口

参考转视频功能是这次升级的核心亮点。用户可以上传最多七张参考图像，像人物、场景、道具等元素都能上传，再结合文本提示词，就能生成高质量视频。ViduQ1通过先进的语义融合技术，让多张图像中的元素在视频里保持高度一致，避免了场景断裂或角色失真问题。

比如说，用户上传一张人物照片、一张森林背景和一张动物图像，输入提示词“一名女性在森林中弹吉他，猫头鹰停在树枝上”，ViduQ1就能智能生成包含吉他演奏动作、森林环境和猫头鹰的视频，画面细节都很逼真。

ViduQ1的多主体一致性技术也很厉害。用户上传不同类型的参考图像，就能生成包含多主体互动的视频，每个主体的特征在整个视频中都保持稳定。和上一代模型相比，Q1在画面细节和动作流畅度上提升明显，支持多角度镜头切换和动态场景过渡，能给专业创作者带来接近传统影视制作的创作体验。这一功能肯定会受到动画、短视频和广告创作者的欢迎。

谷歌Veo3大升级！一张静态图片就能生成生动视频

谷歌宣布对它的AI视频生成工具Veo3进行了重磅升级。现在用户只要上传一张静态照片，就能生成高质量的音频和视频内容，这展示了AI在创作领域的巨大潜力。

这次升级后，Veo3的核心功能就是能让图片“秒变活人”。用户通过谷歌Flow创作平台，选择“FramestoVideo”选项，从上传的单张图片开始创作，就能生成动态视频。而且，它还能保持同一角色在多个镜头下的一致性，这为视频制作提供了全新的可能性。不过，这个功能目前在Gemini应用里还不能用，只能在Flow平台上操作。用户还能灵活选择首帧和尾帧，但要是同时选了首尾帧，就没法用Veo3了。

这次升级还引入了丰富的运镜功能，像推镜头（Dollyin）等，提升了视频生成的专业性。有网友测试发现，Veo3就算没有文本提示，也能利用给定的图片创作出自然的动画效果。

用户还能选择不同质量的生成模型，不过要消耗相应的credits。Quality模式消耗的资源是Fast模式的五倍，Fast模式消耗20个credits，Quality模式就得100个credits。很多网友体验后都觉得很惊讶，角色表情自然，视频生动有趣。基于图像的生成技术，让人们看到AI创作的巨大潜力和多样化应用前景。

工具地址：谷歌Veo网页版官网入口