AI文章

什么是群体智能(Swarm Intelligence)

群体智能(Swarm Intelligence)是一种模拟自然界生物群体行为的分布式智能算法。通过模拟蚂蚁、蜜蜂等社会性生物的集体行为,利用简单个体间的局部交互产生复杂的全局智能行为。这种算法无需中心控制,具有自组织、可扩展和鲁棒性强的特点,广泛应用于优化问题求解、机器人协同作业等领域。

VideoCaptioner – AI视频字幕处理工具,支持字幕样式调整和多格式导出

VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。VideoCaptioner支持语音识别、字幕断句、校正、翻译及视频合成的全流程处理,无需GPU即可运行,操作简单高效。

Zonos – ZyphraAI 开源的多语言 TTS 模型

Zonos是Zyphra推出的高保真文本到语音(TTS)模型。Zonos包含两个模型:16亿参数的Transformer模型和SSM混合模型,均在Apache 2.0许可下开源。Zonos根据文本提示和说话人嵌入生成自然、高表达性的语音,支持语音克隆功能,可调节语速、音高、情感等参数,输出采样率为44kHz。

InspireMusic – 阿里通义实验室开源的音乐生成技术

InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术,通过人工智能为用户生成高质量的音乐作品。基于多模态大模型技术,支持通过简单的文字描述或音频提示快速生成多种风格的音乐。

YAYI-Ultra – 中科闻歌推出的混合专家模型

YAYI-Ultra 是中科闻歌研发的企业级大语言模型的旗舰版本,具备强大的多领域专业能力和多模态内容生成能力。支持数学、代码、金融、舆情、中医、安全等多个领域的专家组合,能缓解垂直领域迁移中的“跷跷板”现象。

HUGWBC – 上海交大联合上海 AI Lab 推出的人形机器人全身控制器

HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大学、上海AI Lab联合推出的人形机器人全身控制器,能实现精细的运动控制。HUGWBC基于扩展的命令空间和先进的训练技术,让机器人执行多种自然步态(如行走、跑步、跳跃、站立和单脚跳),支持实时外部上肢控制信号,实现复杂的运动操作任务。

TPO – AI优化框架,动态调整推理模型的输出,更符合人类偏好

TPO(Test-Time Preference Optimization)是新型的AI优化框架,在推理阶段对语言模型输出进行动态优化,更符合人类偏好。TPO通过将奖励信号转化为文本反馈,将模型生成的优质响应标记为“选择”输出,低质量响应标记为“拒绝”输出,进而生成“文本损失”并提出“文本梯度”,以此迭代改进模型输出,无需更新模型参数。

PDF to Podcast – 英伟达推出的 PDF 转音频内容 AI 工具

PDF to Podcast是NVIDIA推出的PDF转音频的AI工具,基于NVIDIA NIM微服务架构的,能将PDF文档转换为生动的音频内容,如播客。基于大型语言模型(LLM)、文本到语音(TTS)技术以及NVIDIA的微服务,将PDF中的内容提取转换为Markdown格式,再生成自然流畅的对话或独白形式的音频。

InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型

InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了显著进展,特别是在长视频处理和细粒度时空感知方面表现出色。模型能处理长达万帧的视频,视频处理长度较前代提升了6倍,可在长视频中精准定位目标帧,实现“大海捞针”式的检索。

HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架

HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练,生成具有精细身体渲染的长序列人体运动视频。