StarVector：用于生成可缩放矢量图形的开源多模态视觉模型

AI快讯 2025-04-03 09:45更新

StarVector是什么？

StarVector 是一种由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 联合开发的新型开源多模态视觉-语言模型，专门用于生成可缩放矢量图形（SVG）。

StarVector：用于生成可缩放矢量图形的开源多模态视觉模型.webp

StarVector核心功能

图像到 SVG 的转换（Image-to-SVG）：能够将图像直接转换为 SVG 代码，实现图像的矢量化。

文本到 SVG 的生成（Text-to-SVG）：可以根据文本指令生成相应的 SVG 图形。

StarVector技术特点

多模态架构：StarVector 采用多模态架构，能够同时处理图像和文本信息，将视觉和语言模型无缝集成。

直接操作 SVG 代码空间：与一些中间表示方法不同，StarVector 直接在 SVG 代码空间中操作，生成标准的、可编辑的 SVG 代码。

大规模数据集训练：StarVector 在包含超过 200 万个 SVG 样本的 SVG-Stack 数据集上进行训练，确保模型能够泛化到各种矢量化任务。

两种规模模型：提供 StarVector-1B（包含 10 亿参数）和 StarVector-8B（包含 80 亿参数）两种模型，以满足不同计算资源和性能需求。

StarVector架构与原理

图像编码器：使用 Vision Transformer（ViT）处理图像，将图像分割成小块并依次处理。

LLM 适配器：将图像编码器生成的嵌入向量非线性投影到视觉标记，以便与语言模型集成。

Transformer 解码器架构：将视觉标记或文本标记序列映射到 SVG 代码。

StarVector性能表现

在图像到 SVG 和文本到 SVG 的任务中，StarVector 的性能优于现有模型，例如在 SVG-Bench 基准测试中，StarVector-8B 在多个指标上均优于 GPT-4 Vision（2023）和 Potrace 等模型。

在 SVG-Diagrams 数据集的图像矢量化任务中，StarVector-8B 在 DinoScore 和 LPIPS 等指标上表现优异。

StarVector应用场景

设计与创意领域：帮助设计师快速生成 SVG 文件，提高设计效率。

技术绘图与图表生成：能够生成复杂的技术图表和图形，适用于工程、科学等领域。

StarVector相关链接

项目地址：https://starvector.github.io/

StarVector GitHub 仓库：https://github.com/starvector

StarVector 论文：https://arxiv.org/html/2312.11556v3

StarVector：用于生成可缩放矢量图形的开源多模态视觉模型

网络

2025-04-03

Fin-R1：一款基于Qwen2.5的金融推理型大语言模型

网络

2025-04-03

腾讯元宝如何使用读取并分析复杂Excel表格的功能

网络

2025-04-03

LHM：阿里推出的单张图像重建出可动画化的3D人体模型

网络

2025-04-02

DeTikZify：将手绘草图或图形自动生成TikZ图形代码

网络

2025-04-02

字节开源InfiniteYou：一种基于FLUX，能够生成各种图像的同时并保持人物一致性。

网络

2025-04-02

RF-DETR：Roboflow基于Transformer开发的的SOTA实时物体检测模型

网络

2025-04-02

如何使用腾讯元器创建AI智能体教程指南

网络

2025-04-02

StarVector：用于生成可缩放矢量图形的开源多模态视觉模型

StarVector是什么？

StarVector核心功能

StarVector技术特点

StarVector架构与原理

StarVector性能表现

StarVector应用场景

StarVector相关链接

相关文章

最新收录

最新文章

智汇AI

StarVector：用于生成可缩放矢量图形的开源多模态视觉模型

StarVector是什么？

StarVector核心功能

StarVector技术特点

StarVector架构与原理

StarVector性能表现

StarVector应用场景

StarVector相关链接

相关文章

最新收录

最新文章