AI教程

AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架

AndroidGen 是智谱技术团队推出增强基于大语言模型(LLM)的 Agent 能力的框架,特别是在数据稀缺的情况下。框架通过收集人类任务轨迹基于这些轨迹训练语言模型,开发出无需人工标注轨迹的 Agent,显著提升 LLM 执行复杂任务的能力。

ReasonGraph – 开源可视化与分析LLMs推理过程的AI工具

ReasonGraph 是用在可视化和分析大语言模型(LLMs)推理过程的开源网络平台。ReasonGraph支持超过 50 种主流模型(如 Anthropic、OpenAI、Google 等),涵盖多种推理方法(包括顺序推理和树形推理)。基于直观的用户界面,ReasonGraph 将复杂的推理路径转化为清晰的图表,实时更新推理过程,帮助用户快速理解 AI 的思考逻辑,检测错误优化模型表现。

Gemini 2.5 Pro – 谷歌推出的最新 AI 思考模型

Gemini 2.5 Pro 是谷歌推出的最新 AI 模型,是一个“思考模型”,能在回应前进行推理,提升性能和准确性。模型在多个基准测试中表现卓越,在推理和代码生成方面,例如在 LMArena 排行榜上位居第一。

pdf-craft – 开源 PDF 转 Markdown 工具

pdf-craft 是用在将 PDF 文件转换为其他格式(如 Markdown、EPUB)的工具,专注于处理扫描书籍的 PDF 文件。pdf-craft 支持提取正文内容,过滤掉页眉、页脚、脚注等非正文元素。基于结合 DocLayout-YOLO 算法和 PaddleOCR 文本识别技术,pdf-craft 能有效处理跨页问题,生成语义通顺的文本。

TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术

TaoAvatar是阿里巴巴集团研究团队推出的高保真、轻量级的3D全身对话虚拟人技术。基于3D高斯溅射技术,能生成照片级逼真的3D全身虚拟形象,支持高分辨率渲染且存储需求低。

Mureka O1 – 昆仑万维推出的音乐推理大模型

Mureka O1是昆仑万维发布的全球首款音乐推理大模型,全球首个引入“思维链”(Chain of Thought,CoT)技术的音乐模型,Mureka O1在推理过程中加入思考与自我批判机制,大幅提升了音乐品质、创作效率和灵活性。

Mureka V6 – 昆仑万维推出的AI音乐创作基座模型

Mureka V6是昆仑万维推出的AI音乐创作平台的基座模型,支持纯音乐生成以及10种语言的AI音乐创作。引入自研的ICL(in-context learning)技术,使声场更加开阔,人声质感和混音设计进一步强化。

Video-T1 – 清华联合腾讯推出的视频生成技术

Video-T1 是清华大学和腾讯的研究人员共同推出的视频生成技术,基于测试时扩展(Test-Time Scaling,TTS)提升视频生成的质量和一致性。传统视频生成模型在训练后直接生成视频,Video-T1 在测试阶段引入额外计算资源,基于动态调整生成路径优化视频质量。

Fin-R1 – 上海财经联合财跃星辰推出的金融推理大模型

Fin-R1是上海财经大学联合财跃星辰推出的首个金融领域R1类推理大模型。基于7B参数的Qwen2.5-7B-Instruct架构,通过在金融推理场景的高质量思维链数据上进行SFT和RL两阶段训练,有效提升金融复杂推理能力。

Oliva – 开源语音RAG助手,实时语音搜索向量数据库

Oliva 是开源的语音RAG助手,结合 Langchain 和 Superlinked 技术,基于语音驱动的 RAG(检索增强生成)架构,帮助用户在 Qdrant 向量数据库中实时搜索信息。用户基于自然语音提问,Oliva 用语音转文本和实时语音通信技术,将语音指令转化为对数据库的查询,返回结构化结果。