跳转到主要内容
目前支持文本转语音的模型有 whisper-1gpt-4o-transcribe 以及 gpt-4o-mini-transcribe,你可以通过如下方式调用:
curl --location 'https://geekai.co/api/v1/audio/transcriptions' \
    --header 'Authorization: {YOUR_GEEKAI_API_KEY}' \
    --form 'file=@"/C:/User/GeekAI/test.mp3"' \
    --form 'model="whisper-1"' \
    --form 'response_format="text"'
Linux 下文件路径示例:
curl --location 'https://geekai.co/api/v1/audio/transcriptions' \
    --header 'Authorization: {YOUR_GEEKAI_API_KEY}' \
    --form 'file=@/home/geekai/test.mp3' \
    --form 'model=whisper-1' \
    --form 'response_format=text'
其中 gpt-4o-transcribe 以及 gpt-4o-mini-transcribe 仅支持 json 响应(response_format=json)。

音频格式

OpenAI 支持的上传音频格式如下:
  • flac
  • mp3
  • mp4
  • mpeg
  • mpga
  • m4a
  • ogg
  • wav
  • webm
如果客户端通过 curl 上传这些类型音频文件报错:
file type should be mp3, mp4, wav, wave, mpeg, webm or m4a
这是因为 curl 自动识别音频文件的媒体类型不正确,可以通过以下方式来强制指定音频文件的媒体类型解决:
curl --location 'https://geekai.co/api/v1/audio/transcriptions' \
    --header 'Authorization: {YOUR_GEEKAI_API_KEY}' \
    --form 'file=@/home/geekai/test.m4a;type=audio/mp4' \
    --form 'model=whisper-1' \
    --form 'response_format=text'