AI教程 - 智汇AI

OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架

OctoTools 是斯坦福大学推出的开源智能体框架，基于可扩展的工具解决复杂的推理任务。OctoTools用标准化的工具卡片（tool cards）封装工具功能，无需额外训练即可集成新工具。框架包含规划器（planner）用在高阶和低阶规划，执行器（executor）用在执行工具调用。

AI教程

2025-04-16

什么是激活函数（Activation Functions）

激活函数（Activation Functions）是深度学习中人工神经网络神经元的非线性变换工具，引入非线性因素，使神经网络能够学习和执行复杂的任务。没有激活函数，神经网络将仅能执行线性变换，无法处理非线性问题。激活函数包括Sigmoid、Tanh、ReLU等，每种函数都有其特点和适用场景，选择合适的激活函数对模型性能至关重要。

AI教程

2025-04-16

PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架，基于少量样本学习艺术家的独特风格，实现照片涂鸦（photo doodling）。PhotoDoodle用两阶段训练策略：基于大规模数据预训练通用图像编辑模型OmniEditor，用少量艺术家策划的前后图像对进行微调，捕捉特定的编辑风格。

AI教程

2025-04-16

video-subtitle-master – 开源AI字幕生成工具，支持批量为视频或音频生成字幕

video-subtitle-master 是能批量为视频或音频生成字幕的工具，基于开源项目 VideoSubtitleGenerator 开发，支持批量为视频或音频生成字幕，将字幕翻译成其他语言。video-subtitle-master具备图形用户界面，操作便捷，支持多种翻译服务（如百度翻译、火山引擎翻译、DeepLX等）

AI教程

2025-04-16

什么是深度伪造（Deepfakes）

深度伪造（Deepfakes）是一种基于深度学习算法，尤其是生成对抗网络（GANs），来创建或操纵音视频内容的技术，使生成的假象（如换脸或合成语音）看起来极其真实。它可以用于娱乐、艺术创作，但也引发了隐私侵犯、虚假信息传播等社会和伦理问题。

AI教程

2025-04-16

DualPipe – DeepSeek 开源的双向流水线并行技术

DualPipe 是DeepSeek开源的创新的双向流水线并行技术，主要用于提升大规模深度学习模型的训练效率。核心思想是将模型的训练过程分为两个独立的管道——前向计算管道和反向计算管道，并行执行。

AI教程

2025-04-16

什么是生成模型（Generative Model）

生成模型（Generative Model）是一类能学习数据分布并生成新样本的机器学习模型。通过捕捉训练数据集中的模式，创建出与真实数据相似但从未出现过的新实例。这些模型广泛应用于图像、音频和文本的合成，包括图像生成、风格迁移和文本到图像的转换等任务。常见的生成模型有自回归模型、变分自编码器（VAE）、生成对抗网络等。

AI教程

2025-04-16

EPLB（Expert Parallelism Load Balancer）是 DeepSeek 推出的专家并行负载均衡器，能解决大规模模型训练中不同专家模型（Expert）负载不均的问题。EPLB 基于冗余专家策略，复制高负载专家，合理分配到不同 GPU 上，实现负载均衡。EPLB结合 group-limited expert routing 技术，将同一组专家放置在同一节点内，减少跨节点通信开销。

AI教程

2025-04-16

Profiling Data – DeepSeek开源训练和推理框架的性能分析数据

PProfiling Data是DeepSeek开源的训练和推理框架的性能分析数据，基于PyTorch Profiler捕获的程序运行过程中的详细信息，用在分析和优化软件性能。

AI教程

2025-04-16

Phi-4-Multimodal – 微软最新推出的多模态语言模型

Phi-4-Multimodal 是微软最新推出的多模态语言模型，拥有 56 亿参数，能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异，在自动语音识别（ASR）和语音翻译（ST）任务中，以 6.14% 的单词错误率位居 Hugging Face OpenASR 排行榜首位，超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业模型。

AI教程

2025-04-16