豆包大模型

文章来源：智汇AI 发布时间：2024-11-14

豆包大模型是字节跳动推出的AI大模型家族，包括豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、

访问官网

豆包大模型是什么

豆包大模型是字节跳动推出的AI大模型家族，包括豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call和向量化等多个模型。豆包大模型具备强大的语言理解、生成和逻辑能力，能进行个性化创作、情绪丰富的语音合成、高精度语音识别、多风格图像生成和顶级的视频生成。豆包大模型通过火山引擎提供服务，支持企业和开发者构建智能化应用，推动AI技术在多种业务场景中的落地。

豆包大模型的性能在多个评测中表现优异，例如在包括MMLU、BBH、GSM8K和HumanEval在内的11个业界公认的基准测试集中，Doubao-pro-4k模型的总体得分达到了76.8分，在代码能力、专业知识和指令遵循等方面的显著进步。

豆包大模型的主要功能

通用模型：字节跳动自研LLM模型，支持128K长文本，全系列可精调，具备更强的理解、生成、逻辑等综合能力，适配问答、总结、创作、分类等丰富场景。
视频生成：通过精准语义理解、强大动态及运镜能力创作高质量视频，支持文本和图片生成两种模式。
角色扮演：创作个性化角色，具备上下文感知和剧情推动能力，适合虚拟互动和故事创作。
语音合成：生成自然生动的语音，能表达多种情绪，适用于文本到语音转换。
声音复刻：快速克隆声音，高度还原音色和自然度，支持跨语种迁移，用于个性化语音合成。
语音识别：准确识别和转录语音，支持多语种，适用于语音命令和转录服务。
文生图：将文本转换为图像，擅长图文匹配和中国文化元素创作，用于图像生成和视觉内容创作。
图生图：基于现有图像生成新图像，支持风格变换、扩图、重绘和涂抹等创意操作。
同声传译：提供超低延时且自然高质量的实时翻译，支持跨语言同音色翻译，打破沟通中的语言壁垒。
Function Call：准确识别和抽取功能参数，适合复杂工具调用和智能交互。
向量化：提供向量检索能力，支持LLM知识库的核心理解，适用于多语言处理。

豆包大模型的功能特点

豆包通用模型Pro：字节跳动自研的高级语言模型，支持128K长文本处理，适用于问答、总结、创作等多种场景。
豆包通用模型Lite：轻量级语言模型，提供更低的成本和延迟，适合预算有限的企业使用。
豆包·视频生成模型：利用先进的语义理解技术，将文本和图片转化为引人入胜的高质量视频内容。
豆包·语言识别模型：具备高准确率和灵敏度，能够快速准确地识别和转写多种语言的语音。
豆包·Function Call模型：专为复杂工具调用设计，提供精确的功能识别和参数抽取能力。
豆包·文生图模型：将文字描述转化为精美图像，尤其擅长捕捉和表现中国文化元素。
豆包·语音合成模型：能够合成自然、生动的语音，表达丰富的情感和场景。
豆包·向量化模型：专注于向量检索，为知识库提供核心理解能力，支持多种语言。
豆包·声音复刻模型：仅需5秒即可实现声音的1:1克隆，提供高度相似的音色和自然度。
豆包·同声传译模型：实现超低延迟的实时翻译，支持跨语言同音色翻译，消除语言障碍。
豆包·角色扮演模型：具备个性化角色创作能力，能够根据上下文感知和剧情推动进行灵活的角色扮演。

豆包大模型的产品官网

产品官网：volcengine.com/product/doubao

如何使用豆包大模型

确定需求：明确项目或业务需求，比如是否需要文本生成、语音识别、图像创作、视频生成等。
选择合适的模型：根据需求选择合适的豆包大模型，例如文生图模型、语音合成、视频生成模型等。
注册和访问火山引擎：访问火山引擎官网注册账户，是字节跳动的云服务平台，提供豆包大模型的服务。
申请访问权限：在火山引擎平台上申请使用豆包大模型的权限，填写相关信息和使用场景。
API接入：获取相应的API接口信息，包括API的端点、请求方法和必要的认证信息。
开发和测试：根据API文档开发应用程序，将豆包大模型集成到你的业务流程中。进行充分测试，确保模型的输出符合预期。
部署应用：在测试无误后，将集成了豆包大模型的应用部署到生产环境。
监控和优化：监控应用的性能和模型的效果，根据反馈进行优化。

豆包大模型的产品定价

大语言模型
- 按tokens使用量付费：
  - Doubao-lite-4k（包括分支版本lite-character）：上下文长度4K、输入0.0003元/千tokens、输出0.0003元/千tokens、后付费、免费额度50万tokens。
  - Doubao-lite-32k：上下文长度32K、输入0.0003元/千tokens、输出0.0006元/千tokens后付费、免费额度50万tokens。
  - Doubao-lite-128k：上下文长度128K、输入0.0008元/千tokens、输出0.0010元/千tokens后付费、免费额度50万tokens。
  - Doubao-pro-4k（包括分支版本pro-character、pro-functioncall）：上下文长度4K、输入0.0008元/千tokens、输出0.0020元/千tokens后付费、免费额度50万tokens。
  - Doubao-pro-32k：上下文长度32K、输入0.0008元/千tokens、输出0.0020元/千tokens后付费、免费额度50万tokens。
  - Doubao-pro-128k：上下文长度128K、输入0.0050元/千tokens、输出0.0090元/千tokens后付费、免费额度50万tokens。
- 按模型单元付费：独占的算力资源，更加独立可控
  - Doubao-lite-4k、Doubao-lite-32k：可承载性能（TPS）3000、按小时60元/个、包月28000元/个。
  - Doubao-lite-128k：可承载性能（TPS）4500、按小时240元/个、包月112000元/个。
  - Doubao-pro-4k、Doubao-pro-32k：可承载性能（TPS）3200、按小时160元/个、包月80000元/个。
  - Doubao-pro-128k：可承载性能（TPS）3500、按小时1200元/个、包月550000元/个。
视觉模型
- 豆包-文生图模型-智能绘图：推理服务、0.2元/次、后付费、免费额度200次。
语音大模型
- Doubao-语音合成：推理服务、5元/万字符、后付费、免费额度5000字符。
- Doubao-声音复刻：推理服务、8元/万字符、后付费、免费额度5000字符。
向量模型
- Doubao-embedding：最长输入长度4K、输入0.0005元/千tokens、后付费、免费50万tokens。
模型精调
- 按tokens使用量（训练文本*训练迭代次数）计费，训练完成后出账。
- Doubao-lite-4k、Doubao-lite-32k、Doubao-lite-128k：LoRA定价0.03元/千tokens、后付费。
- Doubao-pro-4k、Doubao-pro-32k、Doubao-pro-128k：LoRA定价0.05元/千tokens、后付费。