AI教程

PartEdit KAUST推出的细粒度图像编辑方法

PartEdit是KAUST推出基于预训练扩散模型的细粒度图像编辑方法。PartEdit基于优化特定的文本标记(称为“部分标记”),让扩散模型精准定位和编辑图像中对象的各个部分。这些部分标记学习与对象部分对应的非二进制掩码,在每个扩散步骤中实现对编辑区域的定位,结合特征混合与自适应阈值策略,无缝集成编辑内容,且保留未编辑区域。

BEN2 自动从图像和视频中移除背景深度学习模型

BEN2(Background Erase Network 2)是Prama LLC开发的深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。基于创新的置信度引导抠图(CGM)管道,通过精细化网络处理复杂区域,如头发和边缘,实现高精度的前景分割。

Lumina-Image 2.0 上海 AI Lab 开源的统一图像生成模型

Lumina-Image 2.0 是开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。在图像生成质量、复杂提示理解和资源效率方面表现出色,在文本对齐能力上达到行业领先水平,能根据文本描述生成高质量、多风格的图像。

AstrBot 开源多平台聊天机器人及开发框架

AstrBot 是多平台聊天机器人及开发框架,支持多种大语言模型(如 OpenAI GPT、Google Gemini、Llama 等)和多种消息平台(如 QQ、Telegram、微信等)。AstrBot具备多轮对话、语音转文字、网页搜索等功能,提供代码执行器和可视化管理面板,方便用户配置和扩展。

NutWorld 新加坡国立、南洋理工和Skywork AI推出的视频处理框架

NutWorld是新加坡国立大学、南洋理工大学和Skywork AI推出的视频处理框架,能将日常单目视频高效地转换为动态3D高斯表示(Gaussian Splatting)。NutWorld基于时空对齐高斯(STAG)表示法,在单次前馈传递中实现视频的时空连贯建模,解决传统方法在复杂运动和遮挡下的局限性。

Eino 字节跳动开源的大模型应用开发框架

Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完善的工具生态。Eino 的核心是组件化设计,基于定义不同的组件(如 ChatModel、Lambda 等)和编排方式(如 Chain 和 Graph),开发者能灵活地构建复杂的业务逻辑。

YT Navigator AI YouTube 内容搜索工具,自然语言查询定位关键信息

YT Navigator 是 AI 驱动的 YouTube 内容搜索工具,帮助用户高效地搜索和浏览 YouTube 频道内容。YT Navigator自然语言查询功能,让用户快速定位到特定频道视频中的相关信息,且提供精准的时间戳,无需手动观看大量视频。

Step-Video-TI2V 阶跃星辰开源的图生视频模型

Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。

Dify-Plus 基于 Dify 二次开发的企业级增强版项目

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,集成基于 gin-vue-admin 的管理中心。Dify-Plus在 Dify 基础上新增用户额度、密钥额度、Web 公开页登录鉴权、应用中心等功能,优化了权限管理,适合企业场景使用。

gpt-4o-transcribe OpenAI 推出的语音转文本模型

gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单词错误率(WER),优于前代 Whisper 模型。模型支持多种语言和方言,适合处理口音多样、环境嘈杂、语速变化等复杂场景,如呼叫中心、会议记录等。