AI教程

InfiniteYou 字节跳动开源的身份保持图像生成框架

InfiniteYou(InfU)是字节跳动智能创作团队推出的基于扩散变换器(Diffusion Transformers,如 FLUX)的身份保持图像生成框架。基于 InfuseNet 将身份特征注入扩散模型,增强身份相似度,保持图像生成能力。

RuoYi AI 全栈式 AI 开发平台,快速搭建个性化 AI 应用

RuoYi AI 是全栈式 AI 开发平台,提供完整的前端、后台管理及小程序应用,支持灵活修改和分发代码。RuoYi AI 支持本地 RAG 方案,集成 Milvus Weaviate 等向量库,保障数据隐私与性能。平台内置 SSE、websocket 等网络协议,能对接 OpenAI、ChatGLM 等数十种大语言模型。

MoshiVis Kyutai 开源的多模态实时语音模型

MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。

DeepMesh 清华和南洋理工推出的 3D 网格生成框架

DeepMesh 是清华大学和南洋理工大学研究人员提出的 3D 网格生成框架,基于强化学习和自回归变换器生成高质量的 3D 网格。通过两项关键创新来优化网格生成:一是高效的预训练策略,结合了新型标记化算法和改进的数据处理流程;二是引入强化学习(特别是直接偏好优化,DPO),实现生成网格与人类偏好的对齐。

BlockDance 复旦联合字节推出的扩散模型加速方法

BlockDance 是复旦大学联合字节跳动智能创作团队推出的用在加速扩散模型的新方法。BlockDance 基于识别重用相邻时间步中结构相似的时空特征(STSS),减少冗余计算,提升推理速度,最高加速 50%。

Reve Image Reve 推出的全新 AI 图像生成模型

Reve Image 是 Reve 推出的全新 AI 图像生成模型。专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。模型在生成图像时展现出强烈的设计感,作品简洁大气,具有海报风格的视觉冲击力。

StarVector 开源多模态视觉语言模型,支持图像和文本到 SVG 生成

StarVector 是开源的多模态视觉语言模型,ServiceNow Research、Mila - Quebec AI Institute 和 ETS Montreal 联合开发,专注于将图像和文本转换为可缩放矢量图形(SVG)代码。 模型采用多模态架构,能同时处理图像和文本信息,直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 文件。

LHM 阿里通义开源的单图生成可动画3D人体模型

LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。

瀚海智语 海洋垂直领域大模型,基于360 智脑和 DeepSeek 研发

瀚海智语(OceanDS)是国家海洋环境预报中心联合海洋出版社和三六零数字安全科技共同推出的国内首个海洋垂直领域大语言模型,模型以360智脑13B和Deepseek-R1-70B大模型为基座,专注于海洋领域的应用。

Qwen2.5-VL-32B 阿里开源的最新多模态模型

Qwen2.5-VL-32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5-VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显著提升的数学推理能力,及更强的图像细粒度理解和推理能力。