每日AI快讯 - 智汇AI

Kokoro-TTS – 轻量级文本转语音模型，支持多语言多语音风格生成

Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音（TTS）模型，具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构，采用纯解码器设计，不使用扩散模型，降低了计算复杂度，具备出色的语音合成效果和实时处理能力。

每日AI快讯

2025-02-11

Luma Ray2 – Luma AI 推出的最新视频生成模型

Luma Ray2 是 Luma AI 推出的最新视频生成模型，Ray2 基于 Luma 新的多模态架构训练后展现出先进功能，该架构的计算能力是 Ray1 的 10 倍。能生成快速连贯的运动、超逼真的细节和逻辑事件序列。能在短短 10 秒内根据文本和图像提示生成高质量的视频内容。

每日AI快讯

2025-02-11

RAIN – 视频流制作实时动画生成和真人表情移植解决方案

RAIN（Real-time Animation Of Infinite Video Stream）是创新的实时动画解决方案，旨在基于消费级硬件，如单个RTX 4090 GPU，实现无限视频流的实时动画化。核心在于高效地计算不同噪声水平和长时间间隔的帧标记注意力，同时去噪大量帧标记，以极低的延迟生成视频帧，保持视频流的长期连续性和一致性。

每日AI快讯

2025-02-11

Pipecat – 构建语音和多模态对话代理的开源框架

Pipecat是开源的Python框架，专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音（TTS）和对话处理功能，简化AI服务的复杂协调、网络传输、音频处理和多模态交互，让开发者能专注于创造引人入胜的用户体验。

每日AI快讯

2025-02-11

RealtimeSTT – AI实时语音转文本库，自动检测说话的开始与结束

RealtimeSTT是开源的实时语音转文本库，专为低延迟应用设计。有强大的语音活动检测功能，可自动识别说话的开始与结束，通过WebRTCVAD和SileroVAD进行精准检测。同时支持唤醒词激活，借助Porcupine或OpenWakeWord检测特定唤醒词来启动。

每日AI快讯

2025-02-11

Step R-mini – 阶跃星辰推出的 Step 系列首个推理模型

Step R-mini（全称Step Reasoner mini）是阶跃星辰推出的推理模型，是 Step 系列模型家族的首个推理模型，擅长主动规划、尝试和反思，基于慢思考和反复验证的逻辑机制，为用户提供准确可靠的回复。模型既擅长解决逻辑推理、代码和数学等复杂问题，也能兼顾文学创作等通用领域。

每日AI快讯

2025-02-11

GLM-Realtime – 智谱推出的端到端多模态模型

GLM-Realtime是智谱推出的全新端到端多模态模型，具备低延迟的视频理解与语音交互能力，特别融入清唱功能，让大模型在对话中能展现歌唱才能。模型支持长达2分钟的内容记忆以及Function Call功能，支持灵活调用外部知识和工具，拓展应用范围。

每日AI快讯

2025-02-11

CogView-3-Flash – 智谱推出的首个免费AI图像生成模型

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型，能根据文本描述生成高审美分数的图像，支持多种分辨率，满足专业领域需求。模型具备创意多样性，基于用户输入生成富有想象力的图像，为创意工作提供灵感。

每日AI快讯

2025-02-10

MangaNinja – 基于参考图像的线稿着色技术

MangaNinja是基于参考图像的线稿上色方法，具备精准匹配和细致控制的能力。通过创新的补丁重排模块和点驱动控制方案，提升了上色的准确性与图像质量。能应对多样化的上色挑战，包括极端姿势和多参考图像的协调，实现高质量的互动上色体验。

每日AI快讯

2025-02-10

AutoMouser – AI Chrome扩展程序，实时交互跟踪自动生成测试代码

AutoMouser是Chrome扩展程序，能智能地跟踪用户交互，基于OpenAI的GPT模型自动生成Selenium测试代码。通过记录用户的浏览器操作，如点击、拖动、悬停等，将其转化为结构清晰、易于维护的Python Selenium脚本，简化自动化测试的创建过程。

每日AI快讯

2025-02-10