跳转到主要内容
POST
/
audio
/
transcriptions
语音转文字接口
curl --request POST \
  --url https://geekai.co/api/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form model=whisper-1 \
  --form file='@example-file' \
  --form 'prompt=<string>' \
  --form 'language=<string>' \
  --form response_format=text \
  --form stream=true \
  --form temperature=0 \
  --form retries=0
"<string>"
注:语音模型名称设置参考系统支持转录语音模型列表,请求/响应参数结构完全兼容 OpenAI,切换模型时只需修改对应的模型名称即可,若模型请求/响应参数和OpenAI不一致,极客智坊底层会自动转换对齐。
响应数据格式和 OpenAI 语音转录文本接口完全兼容。 关于语音转录文本 API 调用示例,可以参考这里:语音转文本

请求/响应参数明细

授权

Authorization
string
header
必填

API认证token

请求体

multipart/form-data
model
string
默认值:whisper-1
必填

语音识别模型

file
file
必填

音频文件

prompt
string

提示文本,用于指导转录风格

language
string

音频语言

response_format
enum<string>
默认值:text

响应格式,

可用选项:
text,
srt,
vtt,
json
stream
boolean
默认值:false

是否返回流式响应,默认false,whisper-1 模型不支持该设置

示例:

true

temperature
number
默认值:0

采样温度,控制输出的随机性

retries
integer
默认值:0

自动重试次数,默认0,表示失败不重试

响应

成功响应

纯文本格式的转录结果