
AI教程
CLaMP 3- 清华团队推出的音乐信息检索框架
CLaMP 3是清华大学人工智能学院的朱文武教授团队推出的多模态、多语言的音乐信息检索框架。基于对比学习,将乐谱(如ABC符号)、音频(如MERT特征)和表演信号(如MIDI文本格式)与多种语言的文本描述对齐到一个共享的表示空间中。
SWE-Lancer – OpenAI 推出的大模型基准测试
SWE-Lancer 是 OpenAI 推出的大模型基准测试,评估前沿语言模型(LLMs)在自由职业软件工程任务中的表现。包含来自 Upwork 的 1400 多个任务,总价值达 100 万美元,分为个人贡献者(IC)任务和管理任务。
DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架
DynamicCity 是上海AI Lab推出的大规模动态场景生成的4D生成框架。DynamicCity 专注于生成具有语义信息的动态 LiDAR 场景,能处理大规模空间(80×80×6.4 m³)和长序列(最多 128 帧)的数据。DynamicCity基于 VAE 模型将 4D 场景编码为紧凑的 HexPlane 表示,用基于扩散模型(DiT)的生成器重建动态场景。
MoBA – Moonshot AI 提出的新型注意力机制
MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文任务的效率。通过将上下文划分为多个块(block),引入无参数的 top-k 门控机制,让每个查询 token 动态选择最相关的键值(KV)块进行注意力计算。
ToddlerBot – 斯坦福大学开源的机器学习与人形机器人平台
ToddlerBot是斯坦福大学开源的用在运动操作的开源机器学习与人形机器人平台,为高效收集大规模、高质量的训练数据设计。ToddlerBot具备30个主动自由度,用Dynamixel电机,总成本控制在6000美元以内。基于数字孪生技术和零点校准,ToddlerBot能实现模拟到现实的零样本转移,且远程操作设备支持高效现实世界数据收集。
Phantom – 字节跳动推出的主体一致视频生成框架
Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。
Aider – 开源AI编程助手,基于命令行指定自动完成代码修改
Aider 是开源的AI辅助编程工具,基于终端与大型语言模型(LLM)配合,实现高效代码编辑和开发。Aider支持多种编程语言,如 Python、JavaScript、TypeScript 等,能与 Claude 3.5 Sonnet、DeepSeek R1、OpenAI 的o3-mini、 GPT-4o 等多种 LLM 无缝对接。
TongGeometry – 北京通院联合北大AI研究院推出的几何模型
TongGeometry 是北京通用AI研究院和北京大学AI研究所联合推出的基于树搜索的几何模型,专门用在提出和解决奥林匹克级别的几何问题。TongGeometry基于高效的搜索算法和大规模并行计算,建立迄今为止最广泛的几何定理库,发现了67亿个需要辅助构造的几何定理,其中41亿个具有几何对称性。
Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
Magma 是微软研究院推出的新型多模态AI基础模型,能为多模态人工智能代理(AI agents)提供通用能力。Magma能理解和执行多模态输入的任务,覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行预训练,Magma 结合了语言智能、空间智能和时间智能,能完成从 UI 导航到机器人操作的复杂任务。
流畅阅读 – 开源AI浏览器翻译插件,支持双语对照显示
流畅阅读(FluentRead)是开源的浏览器翻译插件,致力于为用户提供类似母语的阅读体验。流畅阅读基于先进的AI技术,支持多种翻译引擎,包括传统机器翻译和AI大模型翻译,支持用户自定义翻译服务。流畅阅读核心功能包括智能翻译、双语对照显示及隐私保护,所有数据均本地存储,确保用户信息安全。