AI开发平台

Tarsier

Tarsier,字节跳动推出的一系列大规模视觉语言模型(LVLM),专注于视频理解任务,包括视频描述、问答、视频定位、幻觉测试等功能。

Go-with-the-Flow

Go-with-the-Flow,通过结构化潜噪声采样来控制运动,Go-with-the-Flow能实现多种视频生成和编辑效果,包括:局部物体运动控制、全局相机运动控制和运动迁移。

MediaGo

MediaGo,一款开源免费的跨平台视频提取工具。支持流媒体下载、视频下载、m3u8 文件下载以及 B 站视频下载。

Midscene.js

Midscene.js,一款基于AI的自动化浏览器助手,能够通过自然语言操作网页。你只需描述要执行的任务,Midscene.js会自动处理网页,如发推文、验证内容、搜索信息等功能。

JoyGen

JoyGen,京东科技与香港大学合作开发的音频驱动3D说话人脸视频生成框架,提供精确的唇部与音频同步,以精确模拟说话者的唇部动作和面部表情,让生成的视频更逼真。

Hibiki

Hibiki,Kyutai Labs开发的高保真实时语音翻译模型,可以保留原声特点并进行实时翻译,边听边翻译,像同声传译一样实时输出,同时生成语音和文字翻译。

AstrBot

AstrBot,一个开源的多平台 LLM 聊天机器人及开发框架,支持多个消息平台的集成,如QQ、微信,AstrBot支持多种大型语言模型(LLM)的接入。

InspireMusic

InspireMusic,阿里通义实验室开源的音乐生成技术,一款集音乐生成、歌曲生成、音频生成能力为一体的开源AIGC工具包。

FireRedASR

FireRedASR,小红书FireRed 团队发布并开源的基于大模型的语音识别模型,它在中文普通话语音识别领域取得了新的SOTA,FireRedASR支持方言、英语及歌词识别。

FlashVideo

FlashVideo,字节跳动和香港大学联合推出的一种高效的高分辨率视频生成框架,适用于文本到视频的生成。