AI教程 - 智汇AI

AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架

AndroidGen 是智谱技术团队推出增强基于大语言模型（LLM）的 Agent 能力的框架，特别是在数据稀缺的情况下。框架通过收集人类任务轨迹基于这些轨迹训练语言模型，开发出无需人工标注轨迹的 Agent，显著提升 LLM 执行复杂任务的能力。

AI教程

2025-04-06

ReasonGraph – 开源可视化与分析LLMs推理过程的AI工具

ReasonGraph 是用在可视化和分析大语言模型（LLMs）推理过程的开源网络平台。ReasonGraph支持超过 50 种主流模型（如 Anthropic、OpenAI、Google 等），涵盖多种推理方法（包括顺序推理和树形推理）。基于直观的用户界面，ReasonGraph 将复杂的推理路径转化为清晰的图表，实时更新推理过程，帮助用户快速理解 AI 的思考逻辑，检测错误优化模型表现。

AI教程

2025-04-06

Gemini 2.5 Pro – 谷歌推出的最新 AI 思考模型

Gemini 2.5 Pro 是谷歌推出的最新 AI 模型，是一个“思考模型”，能在回应前进行推理，提升性能和准确性。模型在多个基准测试中表现卓越，在推理和代码生成方面，例如在 LMArena 排行榜上位居第一。

AI教程

2025-04-06

pdf-craft – 开源 PDF 转 Markdown 工具

pdf-craft 是用在将 PDF 文件转换为其他格式（如 Markdown、EPUB）的工具，专注于处理扫描书籍的 PDF 文件。pdf-craft 支持提取正文内容，过滤掉页眉、页脚、脚注等非正文元素。基于结合 DocLayout-YOLO 算法和 PaddleOCR 文本识别技术，pdf-craft 能有效处理跨页问题，生成语义通顺的文本。

AI教程

2025-04-06

TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术

TaoAvatar是阿里巴巴集团研究团队推出的高保真、轻量级的3D全身对话虚拟人技术。基于3D高斯溅射技术，能生成照片级逼真的3D全身虚拟形象，支持高分辨率渲染且存储需求低。

AI教程

2025-04-06

Mureka O1 – 昆仑万维推出的音乐推理大模型

Mureka O1是昆仑万维发布的全球首款音乐推理大模型，全球首个引入“思维链”（Chain of Thought，CoT）技术的音乐模型，Mureka O1在推理过程中加入思考与自我批判机制，大幅提升了音乐品质、创作效率和灵活性。

AI教程

2025-04-06

Mureka V6 – 昆仑万维推出的AI音乐创作基座模型

Mureka V6是昆仑万维推出的AI音乐创作平台的基座模型，支持纯音乐生成以及10种语言的AI音乐创作。引入自研的ICL（in-context learning）技术，使声场更加开阔，人声质感和混音设计进一步强化。

AI教程

2025-04-06

Video-T1 – 清华联合腾讯推出的视频生成技术

Video-T1 是清华大学和腾讯的研究人员共同推出的视频生成技术，基于测试时扩展（Test-Time Scaling，TTS）提升视频生成的质量和一致性。传统视频生成模型在训练后直接生成视频，Video-T1 在测试阶段引入额外计算资源，基于动态调整生成路径优化视频质量。

AI教程

2025-04-06

Fin-R1 – 上海财经联合财跃星辰推出的金融推理大模型

Fin-R1是上海财经大学联合财跃星辰推出的首个金融领域R1类推理大模型。基于7B参数的Qwen2.5-7B-Instruct架构，通过在金融推理场景的高质量思维链数据上进行SFT和RL两阶段训练，有效提升金融复杂推理能力。

AI教程

2025-04-06

Oliva – 开源语音RAG助手，实时语音搜索向量数据库

Oliva 是开源的语音RAG助手，结合 Langchain 和 Superlinked 技术，基于语音驱动的 RAG（检索增强生成）架构，帮助用户在 Qdrant 向量数据库中实时搜索信息。用户基于自然语音提问，Oliva 用语音转文本和实时语音通信技术，将语音指令转化为对数据库的查询，返回结构化结果。

AI教程

2025-04-06