语音模型
文本转语音
目前支持文本转语音的模型有 tts-1
、tts-1-hd
、gpt-4o-mini-tts
、doubao-tts
,你可以通过如下方式调用:
豆包语音合成模型 doubao-tts
仅支持 input
、model
、voice
三个参数,其中 input
为待合成的文本,model
为模型名称,voice
为声音角色,且仅支持中英文,其他语种建议使用 OpenAI 语音模型。
声音角色
OpenAI 支持的声音角色(通过 voice
指定)有:
- alloy
- ash
- ballad
- coral
- echo
- fable
- onyx
- nova
- sage
- shimmer
选择任意值填充到 voice
参数即可。
豆包平台支持的声音角色太多,这里不一一列举,参考火山引擎的大模型语音合成音色列表,将其中的 voice_type
值填充到 voice
参数即可。
音频格式
OpenAI 支持的音频输出格式(通过 response_format
指定)如下:
- MP3
- Opus
- AAC
- FLAC
- WAV
- PCM
不指定的话默认输出格式为 mp3
,豆包平台目前仅支持生成 mp3
格式的音频。