语音转文本

语音转文字接口

curl --request POST \
  --url https://geekai.co/api/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form model=whisper-1 \
  --form file='@example-file' \
  --form 'prompt=<string>' \
  --form 'language=<string>' \
  --form response_format=text \
  --form stream=true \
  --form temperature=0 \
  --form retries=0

"<string>"

POST

audio

transcriptions

语音转文字接口

curl --request POST \
  --url https://geekai.co/api/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form model=whisper-1 \
  --form file='@example-file' \
  --form 'prompt=<string>' \
  --form 'language=<string>' \
  --form response_format=text \
  --form stream=true \
  --form temperature=0 \
  --form retries=0

"<string>"

注：语音模型名称设置参考系统支持转录语音模型列表，请求/响应参数结构完全兼容 OpenAI，切换模型时只需修改对应的模型名称即可，若模型请求/响应参数和OpenAI不一致，极客智坊底层会自动转换对齐。

响应数据格式和 OpenAI 语音转录文本接口完全兼容。关于语音转录文本 API 调用示例，可以参考这里：语音转文本。

请求/响应参数明细

授权

Authorization

string

header

必填

API认证token

请求体

multipart/form-data

model

string

默认值:whisper-1

必填

语音识别模型

file

必填

音频文件

prompt

string

提示文本，用于指导转录风格

language

string

音频语言

response_format

enum<string>

默认值:text

响应格式，

可用选项:

text,

srt,

vtt,

json

stream

boolean

默认值:false

是否返回流式响应，默认false，whisper-1 模型不支持该设置

示例:

true

temperature

number

默认值:0

采样温度，控制输出的随机性

retries

integer

默认值:0

自动重试次数，默认0，表示失败不重试

响应

成功响应

纯文本格式的转录结果

图像增强文本转语音

文本模型

画图模型

语音模型

视频模型

3D模型

模型列表

文件对话

OCR服务

令牌管理

账单信息

请求/响应参数明细

授权

请求体

响应

文本模型

画图模型

语音模型

视频模型

3D模型

模型列表

文件对话

OCR服务

令牌管理

账单信息

​请求/响应参数明细

授权

请求体

响应

请求/响应参数明细