
AI文章
Sa2VA – 字节跳动等机构开源的多模态大语言模型
Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。
如何用AI生成民间故事视频?只需2步
经常有朋友问,民间故事视频都是怎么做的?用哪个AI工具最方便?
首先这类视频需要靠 AI 演绎文字中的故事,我们需要准备好故事文本,然后做分镜,还要分别画出人物图和场景图,再生成视频,配乐,剪辑...一套操作下来,不仅麻烦、费时间,还很难控制画风、人物的一致性。
如何让AI给建筑物穿上毛衣,通义APP一键生成
最近降温了,网络上刮起了一阵“给建筑穿毛衣”的风潮。那这股风潮背后的秘密是什么?原来是通义App最近推出的“局部风格化”功能,不仅能给建筑穿毛衣,万事万物都可一键穿上新衣!
WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集
WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。WebLI-100B是WebLI数据集的扩展版本,基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。
BAG – 港中文联合腾讯推出的3D可穿戴资产生成技术
BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大学和腾讯联合提出创新的3D可穿戴资产生成技术,通过结合多视图图像扩散模型和控制网络(ControlNet),运用人体形状和姿态信息,自动生成与人体完美适配的3D可穿戴资产,如服装和配饰。
如何使用 Kimi 创作空间?操作后惊艳到了!
国内大模型厂商在多模态方向越来越卷了,前有引爆海外的可灵,后有突围的MiniMax海螺,据腾讯混元官方透露,将于今日正式发布混元文生视频大模型。
不断收缩业务线、聚焦核心产品的Kimi,近期也悄悄灰度测试了“Kimi创作空间”功能
只需要输入一句话+一首音乐,最长能生成30s的音乐视频。
通古大模型 – 华南理工大学推出的古籍大语言模型
通古大模型是华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练,使用24.1亿古籍语料进行无监督训练,结合400万古籍对话数据进行指令微调。
如何用AI生成中文海报,即梦/豆包10秒搞定
最近有没有被AI的新突破刷屏?我可是被震撼到了!中文世界终于迎来了自己的Ideogram!
即梦AI、豆包生成的图片支持添加中文字了,画国风插画再也不用担心被英文破坏氛围!AI生成的文字不仅完美契合图片风格,还自带排版,设计小白也能直出精美的海报!
ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型
ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器,直接将点云数据转换为离散的点标记,与文本标记拼接后输入到大型语言模型(LLM)中。
AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架
AnyCharV 是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目标驱动视频相结合,生成高质量的角色视频。AnyCharV基于两阶段训练策略实现精细到粗略的引导:第一阶段用细粒度分割掩码和姿态信息进行自监督合成;第二阶段用自增强训练和粗粒度掩码优化角色细节保留。