
AI教程
VisoMaster AI换脸和编辑软件,支持图片和视频高质量换脸
VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、影视制作等领域。支持多种输入输出格式,可通过 GPU 加速处理,大幅提升效率。
LLMDet 阿里通义联合中山大学等机构推出的开放词汇目标检测模型
LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。
LangBot 多模态即时聊天机器人构建与管理的开源平台
LangBot 是开源的即时聊天机器人平台,支持多平台(如 QQ、微信、飞书、Discord 等)和多种大语言模型(如 ChatGPT、DeepSeek、Gemini 等)。LangBot具备多模态交互能力,支持文本、语音、图片等多种输入输出形式,能进行多轮对话和工具调用。
MedRAX AI医学推理Agent,用于胸部X光检查和解决复杂医学问题
MedRAX(Medical Reasoning Agent for Chest X-ray)是专门用于胸部X光检查的医学推理AI代理。通过整合最先进的胸部X光分析工具和多模态大型语言模型,形成一个统一的框架,能动态用这些模型来解决复杂的医学查询问题,无需额外的训练。
MotionCanvas 港中文和 Adobe 等机构推出的可控图像到视频生成方法
MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频(I2V)生成方法,能将静态图像转化为具有丰富动态效果的视频。MotionCanvas基于引入运动设计模块,让用户能直观地在图像上规划相机运动和物体运动,实现复杂的镜头设计。
Airweave 将任何应用程序转为 Agent 知识库的开源工具
Airweave 是开源工具,能将任何应用程序的数据(包括API、数据库、网站等)同步到图数据库和向量数据库中,让数据能基于智能代理或搜索机制进行检索。Airweave用数据分块、哈希检测和自动同步等功能,简化数据检索和管理的流程。
WorldSense 小红书联合上海交大推出的多模态全面评测新基准
WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSense包含1662个音频-视频同步的多样化视频,覆盖8个主要领域和67个细分子类别,及3172个多项选择问答对,涉及26个不同的认知任务。
DynVFX AI视频增强技术,将新动态内容与原始视频无缝融合
DynVFX是创新的视频增强技术,能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉语言模型(VLM),实现了在不依赖复杂用户输入的情况下,自然地将新动态元素与原始视频场景融合。
MVoT 微软联合剑桥和中科院推出的多模态推理可视化框架
MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式,基于生成图像可视化推理痕迹增强多模态大语言模型(MLLMs)在复杂空间推理任务中的表现。
FireRedASR 小红书开源的自动语音识别模型
FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),在歌词识别方面表现出色。