快速入门
目前支持文本转语音的模型有tts-1
、tts-1-hd
、gpt-4o-mini-tts
、doubao-tts
、seed-tts-1.1
,你可以通过如下方式调用:
声音角色
OpenAI 支持的声音角色(通过voice
指定)有:
- alloy
- ash
- ballad
- coral
- echo
- fable
- onyx
- nova
- sage
- shimmer
voice
参数即可。
豆包平台支持的声音角色太多,这里不一一列举,参考火山引擎的大模型语音合成音色列表,将其中的 voice_type
值填充到 voice
参数即可。
音频格式
OpenAI 支持的音频输出格式(通过response_format
参数指定)如下:
mp3
opus
wav
flac
pcm
aac
mp3
,豆包平台目前仅支持生成 mp3
/wav
/pcm
/ogg_opus
格式的音频。
流式输出
文本转语音默认输出的是二进制音频文件流,如果你想要实现边输出边播放的效果,可以设置stream_format
请求字段为 sse
开启 SSE 流式输出,目前仅 gpt-4o-mini-tts
、doubao-tts
、seed-tts-1.1
支持流式输出:
流式输出推荐使用
pcm
音频格式,延迟最低,适合边输出边播放,豆包平台的 wav
格式不支持流式输出,使用时请注意规避。[DONE]
表示流式输出结束,极客智坊语音合成流式输出格式兼容 OpenAI 流式语音合成输出格式。
type
字段为 speech.audio.delta
表示这是音频数据块,audio
字段为经过 base64 编码的音频数据片段,你可以将这些片段解码后拼接成完整的音频文件,或者边解码边播放:
type
字段为 speech.audio.done
表示流式输出结束,接下来可以关闭服务端 EventStream 了: