每日AI快讯

InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型

InstructMove是东京大学和Adobe公司联合推出的基于指令的图像编辑模型,通过观察视频中的帧对变化学习如何根据指令进行图像操作。模型基于多模态大型语言模型(MLLMs)生成描述帧对之间变化的编辑指令,训练出能在保持内容一致性的同时,执行复杂非刚性编辑任务的能力,如调整主体姿势、改变表情和视角等。

LatentSync – 字节联合北交大开源的端到端唇形同步框架

LatentSync是字节跳动、北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需任何中间的3D表示或2D特征点。LatentSync用Stable Diffusion的强大生成能力,捕捉复杂的视听关联,生成动态逼真的说话视频。

PsycoLLM – 合肥工业大学推出的中文心理大语言模型

PsycoLLM是合肥工业大学计算机科学与信息工程学院推出的中文心理大型语言模型,基于高质量的心理数据集训练,提升对心理健康问题的理解和评估能力。模型的数据集涵盖单轮问答、多轮对话和基于知识的问答,用创新的数据生成和优化流程,确保数据的真实性和适用性。

Casevo – 中国传媒大学推出的开源社会传播模拟系统

Casevo(Cognitive Agents and Social Evolution Simulator)是中国传媒大学数据科学与智能媒体传播学院、中国传媒大学媒体融合与传播国家重点实验室联合推出的开源社会传播模拟系统。结合大语言模型和多智能体技术,基于模拟人类认知、决策和社会交互理解和预测社会传播现象。

NMT – 阿里联合 UC Berkeley 推出的多任务学习框架

NMT(No More Tuning)是UC Berkeley和阿里巴巴集团联合推出的多任务学习框架,能解决多任务学习中不同任务优先级优化的问题。NMT将多任务学习问题转化为约束优化问题,将高优先级任务的性能作为约束条件,在优化低优先级任务时保持高优先级任务的性能。

MiniPerplx – AI 搜索引擎,基于 Grok 2.0 模型

MiniPerplx 是开源的 AI 搜索引擎,基于 Grok 2.0 模型进行搜索。MiniPerplx提供了免费的替代方案,用在搜索网页、推特帖子、研究论文和 YouTube 视频等内容。MiniPerplx 的技术构建包括 Next.js、Vercel AI SDK 等,具备网页搜索、代码解释器、天气预报、URL 摘要和位置搜索等功能。

AddressCLIP – 中科院联合阿里云推出的端到端图像地理定位大模型

AddressCLIP 是基于 CLIP 技术构建的端到端图像地理定位模型,由中科院自动化所和阿里云联合开发。模型能通过一张照片实现街道级精度的定位,直接预测图像拍摄地点的可读文本地址。

TradingAgents – 加利福尼亚联合麻省理工推出的多智能体LLM金融交易框架

TradingAgents是加利福尼亚大学洛杉矶分校和麻省理工学院推出的多代理LLM金融交易框架,能模拟现实世界的交易公司环境。TradingAgents整合多个具有不同角色和风险偏好的LLM代理,如基本面分析师、情绪分析师、技术分析师、交易员和风险经理等,实现对复杂金融数据的全面分析与处理。

CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术

CreatiLayout 是复旦大学和字节跳动联合提出的创新的布局到图像生成(Layout-to-Image, L2I)技术。通过构建大规模的布局数据集 LayoutSAM,包含 270 万图像-文本对和 1070 万个实体标注,每个实体都详细描述了颜色、形状、纹理等属性。

RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架

RealisHuman 是创新的后处理框架,旨在细化生成图像中的人体部位,如手和脸等。框架通过两阶段的方法来实现这一目标。首先,使用原始的畸形部位作为参考,生成逼真的人体部位,以确保与原图像的一致性。其次,通过重新绘制周围区域,将修正后的人体部位无缝地整合回原始位置,确保平滑和真实的融合。