文章来源:智汇AI 发布时间:2025-07-11
2025年7月9日,AI行业最新新闻资讯信息,包括:昆仑万维发布新模型,跨模态推理能力出众;Mistral寻求10亿美元融资,剑指欧洲AI王座;飞书推多款AI新品助力企业办公;Hugging Fac…
暂无访问近日,昆仑万维搞了个大动作,正式发布了全新的开源模型Skywork-R1V3.0。这模型可不简单,在多模态推理方面达到了新高度,都快赶上人类初级专家的水平啦!
它是基于上一代Skywork-R1V2.0“冷启动”的,用了高质量的蒸馏数据和拒绝采样技术,搞出了一个超强的多模态推理训练集。这模型不只处理文本厉害,图像处理也不在话下,图像和文本之间的推理能力大大提升。
训练它的时候,只用了约1.2万条监督微调样本和1.3万条强化学习样本,却展现出了“小数据激发大能力”的独特优势。在权威的综合性多模态评测MMMU中,它拿了76.0分,把Claude-3.7-Sonnet(75.0分)和GPT-4.5(74.4分)等闭源模型都甩在了后面,跨模态理解能力超强。
在实际应用场景里,它在物理、逻辑和数学推理等多个领域都表现出色。物理推理评测中,拿了两个最佳开源成绩;逻辑推理测试也取得了59.7分的好成绩。数学推理方面,在多个评测中也拿到了优异成绩,明显比其他开源模型强。
Skywork-R1V3.0的发布,标志着多模态推理技术又上了一个新台阶。它的强大性能和开源特性,肯定会极大地推动AI技术进一步发展,未来可期啊!
体验地址:天工AI大模型-昆仑万维AI大型语言模型
法国人工智能公司Mistral最近动作不断,正在积极寻求高达10亿美元的股权融资,想进一步巩固自己在欧洲AI领域的领导地位。这次融资,阿布扎比的MGX基金可能会参与,而且Mistral还打算和法国贷款机构合作,再筹集数亿欧元的债务融资。
Mistral靠开发聊天机器人LeChat出名,一直专注于开源大语言模型。自成立以来,已经累计融资11.9亿美元,估值高达65.1亿美元,市场潜力那是相当大。
除了自己发展,Mistral还和MGX、英伟达合作,打算建设欧洲最大的AI数据中心园区。这项目不仅能支持法国的AI主权计划,还能给整个欧洲的人工智能产业提供超强基础设施,提升欧洲在全球AI竞争中的地位。
Mistral的创始团队说,这笔融资会用来加速公司的研发和市场拓展,让自己在竞争激烈的AI领域脱颖而出。现在全球对人工智能的需求持续增长,Mistral在开源大语言模型和聊天机器人领域的创新,肯定会吸引更多关注。
在即将到来的融资浪潮中,Mistral不仅想强化自身技术优势,还想助力法国和欧洲在全球AI竞争中占据一席之地,确保战略主权,就看它能不能成功啦!
官网地址:MistralAI网页版官网入口
7月9日,飞书开了个发布会,推出了好多让人眼前一亮的AI产品,像知识问答、AI会议、Aily还有飞书妙搭等等。这些新产品就是为了帮企业更好地满足日常运营需求,推动企业智能化转型。
飞书CEO谢欣说:“我们要给企业提供真正能用的AI产品,当好值得信赖的AI伙伴。”飞书的王牌产品多维表格,最近也进行了重大更新,现在都能替代小型业务系统了。企业用这一个多维表格就能处理销售、客服和人力资源等功能,不用再额外买其他系统,能省不少钱。
现在AI发展得快,很多企业都有“AI焦虑”。飞书就发布了业界首个AI应用成熟度模型,把AI应用分成四个等级,帮企业科学选产品。知识问答工具都达到M3成熟级别了,能根据企业内部的聊天记录、会议纪要等信息,快速回答员工问题,能大大提高企业内部信息获取效率。
飞书智能会议纪要也达到了M4级别,能在会议过程中实时总结,还能生成待办事项,准确度和逻辑性都很棒。多维表格新加了应用模式,用户拖拖拽拽就能快速搭建出实用的业务应用,性能也提升了不少,单表容量能达到1000万行,加载速度也变快了。
飞书还推出了企业开发套件,让构建AI工具变得更简单高效。Aily企业级Agent开发平台已经在好多企业落地了,提升了客服效率。飞书妙搭是个全新的AI系统搭建工具,能让企业更快实现产品原型开发。飞书这些新产品,肯定会给企业带来前所未有的智能化体验,推动行业发展。
最近,HuggingFace推出了全新的开源语言模型SmolLM3,这是一款只有3B参数的轻量级大语言模型,一出来就引起了行业广泛关注。它性能卓越,设计高效,在很多方面都表现出色。
SmolLM3是3B参数的解码器专用Transformer模型,用了分组查询注意力和NoPE技术优化,推理高效,还能处理长上下文。它在11.2万亿token的多样化数据集上预训练,涵盖了网页、代码、数学和推理数据,在知识、推理、数学和编码等领域都很厉害。在好多基准测试中,它都超过了同级别的Llama-3.2-3B和Qwen2.5-3B,甚至和4B参数的Gemma3性能差不多。
它还有个独特的双模式推理功能,有“思考”和“非思考”两种模式。开启思考模式后,在复杂任务测试中表现提升特别明显,能根据任务需求动态调整,满足各种场景需求。
SmolLM3处理长上下文也很厉害,训练时支持64K上下文,还能扩展到128Ktoken。它原生支持六种语言,在阿拉伯语、汉语和俄语上也进行了少量训练,多语言任务表现优异。
而且,HuggingFace完全开源了SmolLM3,公开了模型权重、训练数据混合、训练配置和代码,降低了学术研究和商业应用的门槛。它还专为高效推理设计,适合在浏览器或边缘设备上运行,为教育、编码、客户支持等场景提供了高性价比的解决方案。相信它会在很多领域掀起应用热潮。
体验地址:SmolLM3大模型官网地址
中国AI视频生成领域的领军者ViduAI最近宣布,它的Q1模型迎来了重大升级,推出了全新的“参考转视频”功能,能让用户上传最多七张参考图像,生成视觉一致性极高的1080p视频。这一功能解决了传统AI视频生成在多场景和多主体一致性上的难题,给创作者带来了前所未有的灵活性和创作自由。
工具地址:ViduAI海外版官网入口
参考转视频功能是这次升级的核心亮点。用户可以上传最多七张参考图像,像人物、场景、道具等元素都能上传,再结合文本提示词,就能生成高质量视频。ViduQ1通过先进的语义融合技术,让多张图像中的元素在视频里保持高度一致,避免了场景断裂或角色失真问题。
比如说,用户上传一张人物照片、一张森林背景和一张动物图像,输入提示词“一名女性在森林中弹吉他,猫头鹰停在树枝上”,ViduQ1就能智能生成包含吉他演奏动作、森林环境和猫头鹰的视频,画面细节都很逼真。
ViduQ1的多主体一致性技术也很厉害。用户上传不同类型的参考图像,就能生成包含多主体互动的视频,每个主体的特征在整个视频中都保持稳定。和上一代模型相比,Q1在画面细节和动作流畅度上提升明显,支持多角度镜头切换和动态场景过渡,能给专业创作者带来接近传统影视制作的创作体验。这一功能肯定会受到动画、短视频和广告创作者的欢迎。
谷歌宣布对它的AI视频生成工具Veo3进行了重磅升级。现在用户只要上传一张静态照片,就能生成高质量的音频和视频内容,这展示了AI在创作领域的巨大潜力。
这次升级后,Veo3的核心功能就是能让图片“秒变活人”。用户通过谷歌Flow创作平台,选择“FramestoVideo”选项,从上传的单张图片开始创作,就能生成动态视频。而且,它还能保持同一角色在多个镜头下的一致性,这为视频制作提供了全新的可能性。不过,这个功能目前在Gemini应用里还不能用,只能在Flow平台上操作。用户还能灵活选择首帧和尾帧,但要是同时选了首尾帧,就没法用Veo3了。
这次升级还引入了丰富的运镜功能,像推镜头(Dollyin)等,提升了视频生成的专业性。有网友测试发现,Veo3就算没有文本提示,也能利用给定的图片创作出自然的动画效果。
用户还能选择不同质量的生成模型,不过要消耗相应的credits。Quality模式消耗的资源是Fast模式的五倍,Fast模式消耗20个credits,Quality模式就得100个credits。很多网友体验后都觉得很惊讶,角色表情自然,视频生动有趣。基于图像的生成技术,让人们看到AI创作的巨大潜力和多样化应用前景。
工具地址:谷歌Veo网页版官网入口
随着人工智能技术飞速发展,AI视频生成领域又有新突破。近日,Moonvalley正式发布了全新的AI视频生成模型MareyRealismv1.5,还通过ComfyUI平台实现了全面集成。这款模型一出来就引发了行业热议,因为它有好多厉害的特性。
MareyRealismv1.5最大的亮点就是原生1080P视频生成能力。它直接基于高分辨率电影素材训练,每一帧画面都细腻清晰,没有伪影或模糊问题,在专业影视制作、广告创意等领域优势明显,能带来接近真实拍摄的视觉体验。
在版权方面,Moonvalley做得也很好。MareyRealismv1.5完全基于授权内容进行训练,所有训练数据都来自合法授权的视频素材,彻底杜绝了“网络爬取”带来的法律风险,为影视制作人和品牌商提供了安全可靠的创作工具。
它处理提示词的能力也很强,能精准解读复杂的文本指令,生成符合创作者意图的视频内容。还支持文本到视频和图像到视频的生成模式,用户甚至能上传多张图像作为中间帧,提升视频生成的灵活性和个性化程度。
而且,它在运动和光影处理上也有突破,能生成流畅且空间连贯的运动,自然光交互效果也很棒。未来,它还将推出姿势传递和动作传递节点功能,进一步提升角色动画和动作捕捉的效率。相信它会给独立电影人、广告创意团队等带来更高效、低成本的创作选择。
体验地址:MareyRealism官网入口