AI教程

Maestro – 开源的端到端自动化测试框架

Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法,支持在yaml文件中定义测试,无需编译快速迭代。

OLMo 2 32B – Ai2 推出的最新开源语言模型

OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技能学术基准测试中超越 GPT-3.5-Turbo 和 GPT-4o-mini 的完全开放模型,性能接近 Qwen-2.5-72B 等更大规模模型。

什么是慢感知(slow perception)

慢感知(Slow Perception)是阶跃多模态团队提出的一种新型视觉感知概念,通过逐步分解和流动的方式,让模型像人类一样更精细地感知复杂的几何图形。实验中,研究人员构建了20万个合成几何图形数据样本用于训练,从中学考试中收集了480个真实几何图形用于验证和测试。

什么是评估模型(Judge models)

评估模型(Judge models)是用于评估其他模型输出质量的辅助模型,充当“裁判员”的角色,对大语言模型(LLM)的输出结果进行评估和打分。模型通过输入问题和待评测模型的回答,自主完成对大语言模型的分析与评价。

InternVL – OpenGVLab 推出的多模态大模型

InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViT-MLP-LLM 架构,通过视觉模块(如 InternViT)和语言模块(如 InternLM)的融合,实现视觉与语言的深度结合。

什么是智能体RAG(Agentic RAG)

智能体RAG(Agentic RAG)是一种结合了AI智能体(Agent)和检索增强生成(RAG)系统的方法。它通过引入智能体框架来改变处理问答方式的技术。与仅依赖大模型的传统方法不同,Agentic RAG利用智能体来应对需要复杂规划、多步骤推理和外部工具使用的复杂问题。

Umi-OCR – 免费 OCR 文字识别工具,支持截图、批量图片排版解析

Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网,解压即用,支持截图、批量图片、PDF 扫描件的文字识别,能识别数学公式、二维码,可生成双层可搜索 PDF。内置多语言识别库,界面支持多语言切换,提供命令行和 HTTP 接口调用功能。

什么是前向链结(Forward Chaining)

前向链结(Forward Chaining)是在人工智能领域中使用推理引擎进行自动推理的方法。是数据驱动的推理策略,从已知事实出发,通过应用一系列规则来推导出新的事实,直到达到某个目标或无法继续推导为止。

Orpheus TTS – 开源AI语音合成系统,支持多种语音风格

Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音(TTS)系统。Orpheus TTS 支持生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练,模仿特定语音。Orpheus TTS 延迟低至约 200 毫秒,适合实时应用。

什么是判别式模型(Discriminative Model)

判别式模型是机器学习中一类重要的模型,主要用于分类和回归任务。它们的核心目标是学习输入变量x和输出变量y之间的映射关系,即条件概率分布P(y|x)。与生成式模型不同,判别式模型不考虑输入变量x和输出变量y之间的联合分布P(x,y),而是直接建模条件概率P(y|x)。