目前支持文本转语音的模型有 tts-1tts-1-hdgpt-4o-mini-ttsdoubao-tts,你可以通过如下方式调用:

curl --location 'https://geekai.co/api/v1/audio/speech' \
--header 'Content-Type: application/json' \
--header 'Authorization: {YOUR_GEEKAI_API_KEY}' \
--data '{
    "input":"Hello! Nice to meet you!",
    "model":"gpt-4o-mini-tts",
    "voice":"ash",
    "speed":1.0
}'

豆包语音合成模型 doubao-tts 仅支持 inputmodelvoice 三个参数,其中 input 为待合成的文本,model 为模型名称,voice 为声音角色,且仅支持中英文,其他语种建议使用 OpenAI 语音模型。

声音角色

OpenAI 支持的声音角色(通过 voice 指定)有:

  • alloy
  • ash
  • ballad
  • coral
  • echo
  • fable
  • onyx
  • nova
  • sage
  • shimmer

选择任意值填充到 voice 参数即可。

豆包平台支持的声音角色太多,这里不一一列举,参考火山引擎的大模型语音合成音色列表,将其中的 voice_type 值填充到 voice 参数即可。

音频格式

OpenAI 支持的音频输出格式(通过 response_format 指定)如下:

  • MP3
  • Opus
  • AAC
  • FLAC
  • WAV
  • PCM

不指定的话默认输出格式为 mp3,豆包平台目前仅支持生成 mp3 格式的音频。