每日AI快讯 - 智汇AI

百聆 – AI语音对话助手，端到端时延低至800ms

百聆(Bailing)是开源的语音对话助手，基于语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术实现与用户的自然语音对话，实现类GPT-4o的对话效果。百聆无需GPU即可运行，端到端时延低至800ms，适用于各种边缘设备和低资源环境。

每日AI快讯

2025-02-08

LineArt – 吉林大学等机构推出的设计绘图外观迁移框架

LineArt是吉林大学、瑞典皇家理工学院、东京工业大学等机构推出的，无需训练的高质量设计绘图外观迁移框架，能将复杂外观特征转移到详细的设计图纸上，辅助设计和艺术创作。LineArt基于模拟人类层次化的视觉认知过程，整合艺术经验指导扩散模型，生成高保真度的图像，同时精准保留设计图纸的结构细节。

每日AI快讯

2025-02-08

SynthLight – 耶鲁大学联合 Adobe 推出的人像重照明技术

SynthLight 是耶鲁大学和 Adobe Research 联合推出的基于扩散模型的人像重照明技术，通过模拟不同光照条件下的合成数据进行训练，能将人像照片重新渲染为具有全新光照效果的图像，比如添加高光、阴影或调整整体光照氛围。

每日AI快讯

2025-02-08

X-Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-Dyna 是基于扩散模型的动画生成框架，基于驱动视频中的面部表情和身体动作，将单张人类图像动画化，生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapter 模块，能将参考图像的外观信息有效地整合到扩散模型的空间注意力中，同时保留运动模块生成流畅和复杂动态细节的能力。

每日AI快讯

2025-02-08

DeepSeek-R1 – DeepSeek推出的高性能AI推理模型，性能对标OpenAI o1正式版

DeepSeek-R1是杭州深度求索人工智能基础技术研究有限公司发布的高性能AI推理模型，旨在对标OpenAI的o1正式版。模型通过大规模强化学习技术进行后训练，仅需极少量标注数据，便能在数学、代码和自然语言推理等任务上取得卓越表现。

每日AI快讯

2025-02-08

k1.5 – Kimi推出的多模态思考模型

k1.5 是月之暗面科技推出的最新多模态思考模型，具备强大的推理和多模态处理能力。模型在 short-CoT（短链思维）模式下，数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet，领先幅度高达 550%。

每日AI快讯

2025-02-08

OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架

OmniThink是浙江大学和阿里巴巴通义实验室联合开发的创新的机器写作框架，旨在通过模拟人类的迭代扩展和反思过程，突破大型语言模型在机器写作中的知识边界。框架通过信息树和概念池的结构化组织，逐步深化对主题的理解，生成高质量的长篇文章。

每日AI快讯

2025-02-08

H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型

H-Optimus-0是法国初创公司Bioptimus发布的世界上最大的开源病理学AI基础模型。模型拥有11亿参数，是在专有数据集上训练的，数据集包含从4000个临床实践的500000多张组织病理学切片中提取的数亿张图像。

每日AI快讯

2025-02-08

Roop-Unleashed – AI换脸工具，支持批量换脸、VR换脸、直播换脸

Roop-Unleashed 是基于 Roop 的开源项目，专注于深度伪造（Deepfake）技术的实现与优化。用户无需进行复杂的训练过程，可快速实现图像和视频中的面部替换。通过浏览器图形界面（GUI）提供简单易用的操作体验，支持跨平台运行，适用于 Windows、Linux 和 macOS 系统。

每日AI快讯

2025-02-08

书生·浦像 – 上海AI Lab 联合港中文和浙大推出的超高动态成像算法

书生·浦像是上海人工智能实验室联合香港中文大学、浙江大学等机构研发的超高动态成像算法，核心为浦像HDR（UltraFusion HDR）。算法结合了AIGC技术和HDR技术，通过曝光融合与生成式大模型，能在曝光差异高达9档的极端条件下，修复图像细节，生成高质量图像。

每日AI快讯

2025-02-08