modalities
传入 text
、audio
表示返回文本、语音输出,如果需要文本输出传入 text
即可。audio
用于设置语音输出的音色和格式,对于 OpenAI 平台而言,具体设置和文本转语音的参数一致。
modalities
和 audio
参数配置,更简单明了,通义千问的 modalities
配置和 OpenAI 一致,音色(audio
的 voice
字段)上支持中文音色:
audio
的 format
字段)仅支持 wav
。
以下是通义千问语音对话示例: