
AI教程
DiffBrush – 北邮联合清华等机构推出的图像生成与编辑框架
DiffBrush是北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学推出的,无需训练的图像生成与编辑框架,支持用户基于手绘草图直观地控制图像生成。DiffBrush用预训练的文本到图像(T2I)模型,基于颜色引导、实例与语义引导及潜在空间再生等技术,精准控制生成图像的颜色、语义和实例分布。
什么是人工智能(Artificial Intelligence)
人工智能(Artificial Intelligence)是计算机科学的一个分支,是模拟和扩展人类智能的理论、方法、技术和应用的学科。通过机器学习、自然语言处理等技术,计算机系统能够执行视觉识别、语言交流、决策支持等任务。AI广泛应用于医疗、金融、教育、交通等领域,旨在提高效率、优化决策和增强用户体验。
Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实现视觉生成与理解。
X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dancer结合自回归变换器(Transformer)和扩散模型,用 2D 人体姿态建模,基于广泛可用的单目视频数据捕捉舞蹈动作与音乐节奏的复杂对齐关系。
AVD2 – 清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架
AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机构推出的,用在自动驾驶事故视频理解的创新框架。基于生成与详细自然语言描述和推理对齐的事故视频,显著提升对复杂事故场景的理解能力。
Kiss3DGen – 基于图像扩散模型的3D资产生成框架
Kiss3DGen是创新的3D资产生成框架,通过重新基于预训练的2D图像扩散模型来高效生成、编辑和增强3D对象。核心在于生成“3D Bundle Image”,将多视图图像及对应的法线图组合成一种拼贴表示,法线图用于重建3D网格,多视图图像则提供纹理映射。
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
Archon 是专注于构建和优化 AI 智能体的开源项目。通过自主生成代码和优化智能体性能,展示了现代 AI 开发的核心理念。Archon 的核心功能包括智能体的快速构建、多智能体协作以及领域知识的无缝集成。
PodAgent – 港中文、微软、小红书联合推出的播客生成框架
PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结构化的对话内容。PodAgent构建了多样化的声音库,用在精准匹配角色与声音,确保音频的自然度和沉浸感。
Chat2SVG – 文本描述实现高质量矢量图形的生成框架
Chat2SVG 是创新的文本到矢量图形(SVG)生成框架,通过结合大型语言模型(LLMs)和图像扩散模型,实现高质量 SVG 图形的自动化创作。通过多阶段流程,首先基于 LLMs 从文本描述生成语义上有意义的 SVG 模板,然后通过图像扩散模型增强细节,在最后阶段优化路径和点坐标,提升图形的规整性和复杂性。
QwQ-32B – 阿里通义千问开源的最新推理模型
QwQ-32B 是阿里巴巴开源的新型推理模型,参数量为 320 亿。基于大规模强化学习(RL)训练,在数学推理、编程等任务上表现出色,性能比肩 6710 亿参数的 DeepSeek-R1 满血版。模型集成智能体能力,根据环境反馈调整推理过程,展现出强大的适应性和推理能力。