AI教程

OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架

OctoTools 是斯坦福大学推出的开源智能体框架,基于可扩展的工具解决复杂的推理任务。OctoTools用标准化的工具卡片(tool cards)封装工具功能,无需额外训练即可集成新工具。框架包含规划器(planner)用在高阶和低阶规划,执行器(executor)用在执行工具调用。

什么是激活函数(Activation Functions)

激活函数(Activation Functions)是深度学习中人工神经网络神经元的非线性变换工具,引入非线性因素,使神经网络能够学习和执行复杂的任务。没有激活函数,神经网络将仅能执行线性变换,无法处理非线性问题。激活函数包括Sigmoid、Tanh、ReLU等,每种函数都有其特点和适用场景,选择合适的激活函数对模型性能至关重要。

PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodle用两阶段训练策略:基于大规模数据预训练通用图像编辑模型OmniEditor,用少量艺术家策划的前后图像对进行微调,捕捉特定的编辑风格。

video-subtitle-master – 开源AI字幕生成工具,支持批量为视频或音频生成字幕

video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持批量为视频或音频生成字幕,将字幕翻译成其他语言。video-subtitle-master具备图形用户界面,操作便捷,支持多种翻译服务(如百度翻译、火山引擎翻译、DeepLX等)

什么是深度伪造(Deepfakes)

深度伪造(Deepfakes)是一种基于深度学习算法,尤其是生成对抗网络(GANs),来创建或操纵音视频内容的技术,使生成的假象(如换脸或合成语音)看起来极其真实。它可以用于娱乐、艺术创作,但也引发了隐私侵犯、虚假信息传播等社会和伦理问题。

DualPipe – DeepSeek 开源的双向流水线并行技术

DualPipe 是DeepSeek开源的创新的双向流水线并行技术,主要用于提升大规模深度学习模型的训练效率。核心思想是将模型的训练过程分为两个独立的管道——前向计算管道和反向计算管道,并行执行。

什么是生成模型(Generative Model)

生成模型(Generative Model)是一类能学习数据分布并生成新样本的机器学习模型。通过捕捉训练数据集中的模式,创建出与真实数据相似但从未出现过的新实例。这些模型广泛应用于图像、音频和文本的合成,包括图像生成、风格迁移和文本到图像的转换等任务。常见的生成模型有自回归模型、变分自编码器(VAE)、生成对抗网络等。

EPLB – DeepSeek 开源的专家并行负载均衡器

EPLB(Expert Parallelism Load Balancer)是 DeepSeek 推出的专家并行负载均衡器,能解决大规模模型训练中不同专家模型(Expert)负载不均的问题。EPLB 基于冗余专家策略,复制高负载专家,合理分配到不同 GPU 上,实现负载均衡。EPLB结合 group-limited expert routing 技术,将同一组专家放置在同一节点内,减少跨节点通信开销。

Profiling Data – DeepSeek开源训练和推理框架的性能分析数据

PProfiling Data是DeepSeek开源的训练和推理框架的性能分析数据,基于PyTorch Profiler捕获的程序运行过程中的详细信息,用在分析和优化软件性能。

Phi-4-Multimodal – 微软最新推出的多模态语言模型

Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异,在自动语音识别(ASR)和语音翻译(ST)任务中,以 6.14% 的单词错误率位居 Hugging Face OpenASR 排行榜首位,超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业模型。