AI开发平台 - 智汇AI

Tarsier

Tarsier,字节跳动推出的一系列大规模视觉语言模型（LVLM），专注于视频理解任务，包括视频描述、问答、视频定位、幻觉测试等功能。

AI开发平台

2025-04-04

Go-with-the-Flow,通过结构化潜噪声采样来控制运动，Go-with-the-Flow能实现多种视频生成和编辑效果，包括：局部物体运动控制、全局相机运动控制和运动迁移。

AI开发平台

2025-04-03

MediaGo,一款开源免费的跨平台视频提取工具。支持流媒体下载、视频下载、m3u8 文件下载以及 B 站视频下载。

AI开发平台

2025-04-03

Midscene.js,一款基于AI的自动化浏览器助手，能够通过自然语言操作网页。你只需描述要执行的任务，Midscene.js会自动处理网页，如发推文、验证内容、搜索信息等功能。

AI开发平台

2025-04-03

JoyGen,京东科技与香港大学合作开发的音频驱动3D说话人脸视频生成框架，提供精确的唇部与音频同步，以精确模拟说话者的唇部动作和面部表情，让生成的视频更逼真。

AI开发平台

2025-04-03

Hibiki,Kyutai Labs开发的高保真实时语音翻译模型，可以保留原声特点并进行实时翻译，边听边翻译，像同声传译一样实时输出，同时生成语音和文字翻译。

AI开发平台

2025-04-03

AstrBot,一个开源的多平台 LLM 聊天机器人及开发框架，支持多个消息平台的集成，如QQ、微信，AstrBot支持多种大型语言模型（LLM）的接入。

AI开发平台

2025-04-03

InspireMusic,阿里通义实验室开源的音乐生成技术，一款集音乐生成、歌曲生成、音频生成能力为一体的开源AIGC工具包。

AI开发平台

2025-04-03

FireRedASR,小红书FireRed 团队发布并开源的基于大模型的语音识别模型，它在中文普通话语音识别领域取得了新的SOTA，FireRedASR支持方言、英语及歌词识别。

AI开发平台

2025-04-03

FlashVideo,字节跳动和香港大学联合推出的一种高效的高分辨率视频生成框架，适用于文本到视频的生成。

AI开发平台

2025-04-03