快速入门
目前支持文本转语音的模型有tts-1、tts-1-hd、gpt-4o-mini-tts、doubao-tts、seed-tts-1.1,你可以通过如下方式调用:
声音角色
OpenAI 支持的声音角色(通过voice 指定)有:
- alloy
- ash
- ballad
- coral
- echo
- fable
- onyx
- nova
- sage
- shimmer
voice 参数即可。
豆包平台支持的声音角色太多,这里不一一列举,参考火山引擎的大模型语音合成音色列表,将其中的 voice_type 值填充到 voice 参数即可。
音频格式
OpenAI 支持的音频输出格式(通过response_format 参数指定)如下:
mp3opuswavflacpcmaac
mp3,豆包平台目前仅支持生成 mp3/wav/pcm/ogg_opus 格式的音频。
流式输出
文本转语音默认输出的是二进制音频文件流,如果你想要实现边输出边播放的效果,可以设置stream_format 请求字段为 sse 开启 SSE 流式输出,目前仅 gpt-4o-mini-tts、doubao-tts、seed-tts-1.1 支持流式输出:
流式输出推荐使用
pcm 音频格式,延迟最低,适合边输出边播放,豆包平台的 wav 格式不支持流式输出,使用时请注意规避。[DONE] 表示流式输出结束,极客智坊语音合成流式输出格式兼容 OpenAI 流式语音合成输出格式。
type 字段为 speech.audio.delta 表示这是音频数据块,audio 字段为经过 base64 编码的音频数据片段,你可以将这些片段解码后拼接成完整的音频文件,或者边解码边播放:
type 字段为 speech.audio.done 表示流式输出结束,接下来可以关闭服务端 EventStream 了:
