每日AI快讯

TimesFM 2.0 – 谷歌研究团队开源的时间序列预测模型

TimesFM 2.0是谷歌研究团队推出的开源时间序列预测模型。具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。模型采用仅解码器架构,结合输入修补和修补掩码技术,实现高效训练与推理,支持零样本预测。预训练数据集丰富,涵盖多个领域,使模型具有良好的泛化能力。

NeuralSVG – 文本驱动矢量图形生成技术,转化为有层次结构的矢量图形

NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络,将文本提示转化为具有层次结构的矢量图形。该网络以形状索引为输入,输出形状参数,再经可微渲染器生成像素输出。

ViTPose – 基于 Transformer 架构的人体姿态估计模型

ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络,通过将输入图像切块并送入 Transformer block 来提取特征,再经解码器将特征解码为热图,实现对人体关键点的精准定位。

Nemotron-CC – 英伟达推出的大型预训练数据集

Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法,实现数据量和质量的更好平衡。

NVIDIA-Ingest – 英伟达开源的智能文档提取及结构化工具

NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本,便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word、PowerPoint和图像等多种文档格式,提供多种提取方法,便于在吞吐量和准确性之间进行权衡。

Eko – Fellou AI 推出的开源 AI 代理开发框架

Eko是Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持所有平台,包括计算机桌面环境和浏览器环境,提供统一且便捷的操作界面。

Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入

Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力。研究者构建了MERR数据集助力训练与评估,使模型能从多场景学习并应用于现实。

GR00T-Teleop – 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术

GR00T-Teleop是NVIDIA Isaac GR00T的一部分,用在捕获远程操作数据的关键技术。基于NVIDIA CloudXR连接Apple Vision Pro头显,用专门设计的人形远程操作自定义CloudXR运行时,将手部跟踪数据流式传输到模拟平台,如Isaac Lab,将机器人环境的沉浸式视图流式传输回设备。

MiniRAG – 港大推出高效部署小语言模型的新型 RAG 系统

MiniRAG是香港大学推出的新型检索增强型生成(RAG)系统,专为在资源受限的场景下高效部署小型语言模型(SLMs)设计。MiniRAG基于两个关键技术实现这一目标:一是语义感知的异构图索引机制,将文本片段和命名实体结合,减少对复杂语义理解的依赖;二是轻量级拓扑增强检索方法,用图结构进行高效知识发现,无需高级语言能力。

Riona-AI-Agent – AI社交工具,可在社交媒体平台自动化交互点赞评论

Riona-AI-Agent是Node.js 和 TypeScript 构建的 AI 驱动的自动化工具,能与 Instagram、Twitter 和 GitHub 等社交媒体平台进行交互。Riona-AI-Agent能生成引人入胜的内容,自动化交互,高效管理社交媒体账户。Riona-AI-Agent主要功能包括每天在 Twitter 上发布 17 次推文、在 Instagram 上自动登录和点赞评论,及即将推出的 Twitter 和 GitHub 自动化功能。