每日AI快讯

百聆 – AI语音对话助手,端到端时延低至800ms

百聆(Bailing)是开源的语音对话助手,基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术实现与用户的自然语音对话,实现类GPT-4o的对话效果。百聆无需GPU即可运行,端到端时延低至800ms,适用于各种边缘设备和低资源环境。

LineArt – 吉林大学等机构推出的设计绘图外观迁移框架

LineArt是吉林大学、瑞典皇家理工学院、东京工业大学等机构推出的,无需训练的高质量设计绘图外观迁移框架,能将复杂外观特征转移到详细的设计图纸上,辅助设计和艺术创作。LineArt基于模拟人类层次化的视觉认知过程,整合艺术经验指导扩散模型,生成高保真度的图像,同时精准保留设计图纸的结构细节。

SynthLight – 耶鲁大学联合 Adobe 推出的人像重照明技术

SynthLight 是耶鲁大学和 Adobe Research 联合推出的基于扩散模型的人像重照明技术,通过模拟不同光照条件下的合成数据进行训练,能将人像照片重新渲染为具有全新光照效果的图像,比如添加高光、阴影或调整整体光照氛围。

X-Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapter 模块,能将参考图像的外观信息有效地整合到扩散模型的空间注意力中,同时保留运动模块生成流畅和复杂动态细节的能力。

DeepSeek-R1 – DeepSeek推出的高性能AI推理模型,性能对标OpenAI o1正式版

DeepSeek-R1是杭州深度求索人工智能基础技术研究有限公司发布的高性能AI推理模型,旨在对标OpenAI的o1正式版。模型通过大规模强化学习技术进行后训练,仅需极少量标注数据,便能在数学、代码和自然语言推理等任务上取得卓越表现。

k1.5 – Kimi推出的多模态思考模型

k1.5 是月之暗面科技推出的最新多模态思考模型,具备强大的推理和多模态处理能力。模型在 short-CoT(短链思维)模式下,数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。

OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架

OmniThink是浙江大学和阿里巴巴通义实验室联合开发的创新的机器写作框架,旨在通过模拟人类的迭代扩展和反思过程,突破大型语言模型在机器写作中的知识边界。框架通过信息树和概念池的结构化组织,逐步深化对主题的理解,生成高质量的长篇文章。

H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型

H-Optimus-0是法国初创公司Bioptimus发布的世界上最大的开源病理学AI基础模型。模型拥有11亿参数,是在专有数据集上训练的,数据集包含从4000个临床实践的500000多张组织病理学切片中提取的数亿张图像。

Roop-Unleashed – AI换脸工具,支持批量换脸、VR换脸、直播换脸

Roop-Unleashed 是基于 Roop 的开源项目,专注于深度伪造(Deepfake)技术的实现与优化。用户无需进行复杂的训练过程,可快速实现图像和视频中的面部替换。通过浏览器图形界面(GUI)提供简单易用的操作体验,支持跨平台运行,适用于 Windows、Linux 和 macOS 系统。

书生·浦像 – 上海AI Lab 联合港中文和浙大推出的超高动态成像算法

书生·浦像是上海人工智能实验室联合香港中文大学、浙江大学等机构研发的超高动态成像算法,核心为浦像HDR(UltraFusion HDR)。算法结合了AIGC技术和HDR技术,通过曝光融合与生成式大模型,能在曝光差异高达9档的极端条件下,修复图像细节,生成高质量图像。