AI教程

Amazon Nova Act – 亚马逊推出的通用 AI 智能体,自主执行网页任务

Amazon Nova Act是亚马逊 AGI Labs推出的通用AI代理,用于在网页浏览器中执行任务。Amazon Nova Act支持开发者基于配套的 SDK 构建智能体应用原型,完成如提交请假申请、预订日历或发送自动回复邮件等操作。

Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型

Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,利用遮挡先验知识指导重建过程。

AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手

AutoAgent 是香港大学推出的零代码、自动化 LLM 智能体框架。基于自然语言交互,让用户无需编程即可创建智能助手,适用于智能搜索、数据分析、报告生成等场景。AutoAgent核心功能包括三种使用模式,用户模式、智能体编辑器、工作流编辑器,适应不同用户需求。

Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型

Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真实吠声。模型基于开源犬类语言学研究开发,支持个性化选择品种和调整语气,能部署到智能家居设备等“云吠基础设施”。

Cua – 专为 MacOS 推出的开源 AI Agent项目

Cua 是 trycua 团队推出的开源AI Agent项目,为 macOS 用户提供高性能的虚拟化和 AI 代理功能。Cua基于苹果的 Virtualization.Framework,支持在 Apple Silicon 上创建运行 macOS 和 Linux 虚拟机,性能接近原生水平(约90%)。

SWEET-RL – Meta 推出的多轮强化学习框架

SWEET-RL是Meta推出的多轮强化学习框架,专门用在训练大型语言模型(LLM)代理进行协作推理任务。SWEET-R基于训练时的额外信息(如参考解决方案)优化“批评者”模型,模型为每个步骤提供奖励,帮助“行动者”模型更好地分配信用、优化策略。

OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。

DeepSite – 基于 DeepSeek 开源的 AI 前端开发工具

DeepSite 是基于 DeepSeek-V3 模型的在线开发工具,用户无需配置环境或安装软件,在网页上直接输入需求,快速生成游戏、应用或网页的代码,支持实时预览效果。

EasyControl Ghibli – 免费生成吉卜力风格图像的 AI 模型

EasyControl Ghibli 是基于 EasyControl 框架开发的 AI 模型,已上线 Hugging Face 平台,专注于将普通图像转换为吉卜力风格的图像。仅用100张亚洲人脸照片及对应的吉卜力风格图像训练而成,能精准捕捉吉卜力作品中柔和的光影、细腻的情感与温暖的色调,同时保留人物面部特征。

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含普通话),能精准识别不同地区的语言特点。