
AI文章
LangBot – 多模态即时聊天机器人构建与管理的开源平台
LangBot 是开源的即时聊天机器人平台,支持多平台(如 QQ、微信、飞书、Discord 等)和多种大语言模型(如 ChatGPT、DeepSeek、Gemini 等)。LangBot具备多模态交互能力,支持文本、语音、图片等多种输入输出形式,能进行多轮对话和工具调用。
LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型
LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。
Anthropic 推出 Claude Code 智能编程最佳实践指南(中文版)
Claude Code是用在智能编码(agentic coding)的命令行工具。本文涵盖了经过验证有效的技巧和方法,用于在各种代码库、语言和环境中使用Claude Code。
我们最近发布了Claude Code,这是一个用于智能编码的命令行工具。作为研究项目开发,Claude Code为Anthropic工程师和研究人员提供了更原生的方式将Claude集成到他们的编码工作流程中。
VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸
VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、影视制作等领域。支持多种输入输出格式,可通过 GPU 加速处理,大幅提升效率。
FlashVideo – 字节联合港大推出的高分辨率视频生成框架
FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架,通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成本问题。在第一阶段,FlashVideo 使用 50 亿参数的大型模型在低分辨率(270p)下生成与文本提示高度一致的内容和运动,基于参数高效微调(PEFT)技术确保计算效率。
ACE++ – 阿里通义推出的升级版图像生成与编辑模型
ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成
LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和训练方法,针对放射学领域的特定需求进行了优化。
Satori – 开源的大语言推理模型,具备自回归搜索和自我纠错能力
Satori 是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言模型,专注于提升推理能力。基于Qwen-2.5-Math-7B,Satori通过小规模的格式微调和大规模的增强学习实现了最先进的推理性能。采用行动思维链(COAT)机制,通过强化学习优化模型性能,具备强大的自回归搜索和自我纠错能力。
Goku – 港大和字节联合推出的最新视频生成模型
Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持文生视频、图生视频及文生图等多种模式。Goku的核心优势包括高质量的视频生成能力、极低的广告视频制作成本(比传统方法低100倍)。
AnythingLLM – 开源的全栈 AI 客户端,支持本地部署和API集成
AnythingLLM 是开源免费且支持多模态交互的全栈 AI 客户端。AnythingLLM支持文本、图像和音频等多种输入方式,将任何文档或内容转化为上下文,供各种语言模型(LLM)在对话中使用。AnythingLLM支持本地运行和远程部署,提供多用户管理、工作区隔离、丰富的文档格式支持以及强大的 API 集成。