文章来源:智汇AI 发布时间:2025-08-14
FastDeploy 是百度基于飞桨(PaddlePaddle)框架开发的高性能推理与部署工具,专为大语言模型(LLMs)和视觉语言模型(VLMs)设计。Fas
暂无访问FastDeploy 是百度基于飞桨(PaddlePaddle)框架开发的高性能推理与部署工具,专为大语言模型(LLMs)和视觉语言模型(VLMs)设计。FastDeploy 支持多种硬件平台(如 NVIDIA GPU、昆仑芯 XPU 等),具备负载均衡、量化优化、分布式推理等特性,显著提升模型推理性能并降低硬件成本。FastDeploy 兼容 OpenAI API 和 vLLM 接口,支持本地和服务化推理,简化大模型的部署流程。最新版本FastDeploy 2.0 是,进一步优化性能,支持文心 4.5等大模型的高效部署,引入 2-bit 量化技术,显著降低推理时的显存占用和硬件资源需求。