Authorizations
JWT认证token
Body
模型在生成响应时应如何选择使用哪个工具(或多个工具)。请参阅 tools
参数以了解如何指定模型可以调用的工具。
控制模型调用哪个(如果有)工具。
none
表示模型将不调用任何工具,而是生成一条消息。
auto
表示模型可以选择生成消息或调用一个或多个工具。
required
表示模型必须调用一个或多个工具。
none
, auto
, required
对提示模板及其变量的引用。
用于模型响应的截断策略。
auto
:如果此响应及之前的响应的上下文超出了模型的上下文窗口大小,模型将通过删除对话中间的输入项来截断响应以适应上下文窗口。disabled
(默认):如果模型响应将超出模型的上下文窗口大小,请求将失败并返回 400 错误。
auto
, disabled
指定模型响应中需额外包含的数据。目前支持以下值:
file_search_call.results
: 包含文件搜索工具调用所产生的搜索结果。message.input_image.image_url
: 包含输入消息中的图片链接。computer_call_output.output.image_url
: 包含计算机调用(computer call)输出的图片链接。reasoning.encrypted_content
: 在推理项(reasoning item)的输出中,包含对推理过程令牌(reasoning tokens)的加密版本。如此一来,当以无状态方式使用 Responses API 时(例如,当 store 参数设置为 false,或当组织加入了“零数据保留”计划时),推理项便可在多轮对话中继续使用。code_interpreter_call.outputs
: 包含代码解释器工具调用项中,Python 代码的执行输出。
是否允许模型并行执行工具调用
是否存储生成的模型响应,以供后续通过 API 检索
插入到模型上下文中的系统(或开发者)消息。
当与 previous_response_id
一同使用时,先前响应中的指令将不会被沿用至新的响应中。这使得在新响应中可以轻松地替换系统(或开发者)消息。
若设为 true,模型响应数据将在生成时,通过 Server-Sent Events 流式传输至客户端。 代码示例
一对可以附加到对象的 16 个键值对。这对于以结构化格式存储有关对象的附加信息以及通过 API 或仪表板查询对象非常有用。
键是长度最多为 64 个字符的字符串。值是长度最多为 512 个字符的字符串。
要使用的采样温度,介于 0 和 2 之间。较高的值(如 0.8)将使输出更随机,而较低的值(如 0.2)将使其更聚焦和确定。
我们通常建议修改此项或 top_p
,但不要同时修改两者。
0 <= x <= 2
1
采样温度的另一种方法,称为核采样,模型会考虑具有 top_p 概率质量的 token 的结果。因此,0.1 意味着只考虑包含前 10% 概率质量的 token。
我们通常建议修改此项或 temperature
,但不要同时修改两者。
0 <= x <= 1
1
指定用于处理请求的延迟等级。此参数适用于订阅了按量计费服务的客户: - 如果设置为“auto”,并且项目启用了按量计费服务,系统将使用按量计费积分直至用尽。 - 如果设置为“auto”,但项目未启用按量计费服务,则请求将使用默认服务等级进行处理,该等级的正常运行时间服务水平协议较低,且无延迟保证。 - 如果设置为“default”,请求将使用默认服务等级进行处理,该等级的正常运行时间服务水平协议较低,且无延迟保证。 - 如果设置为“flex”,请求将使用弹性处理服务等级进行处理。了解更多。 - 如果未设置,则默认行为是“auto”。
设置此参数后,响应体将包含所使用的 service_tier
。
auto
, default
, flex
, scale
Response
OK
一对可以附加到对象的 16 个键值对。这对于以结构化格式存储有关对象的附加信息以及通过 API 或仪表板查询对象非常有用。
键是长度最多为 64 个字符的字符串。值是长度最多为 512 个字符的字符串。
要使用的采样温度,介于 0 和 2 之间。较高的值(如 0.8)将使输出更随机,而较低的值(如 0.2)将使其更聚焦和确定。
我们通常建议修改此项或 top_p
,但不要同时修改两者。
0 <= x <= 2
1
采样温度的另一种方法,称为核采样,模型会考虑具有 top_p 概率质量的 token 的结果。因此,0.1 意味着只考虑包含前 10% 概率质量的 token。
我们通常建议修改此项或 temperature
,但不要同时修改两者。
0 <= x <= 1
1
模型在生成响应时应如何选择使用哪个工具(或多个工具)。请参阅 tools
参数以了解如何指定模型可以调用的工具。
控制模型调用哪个(如果有)工具。
none
表示模型将不调用任何工具,而是生成一条消息。
auto
表示模型可以选择生成消息或调用一个或多个工具。
required
表示模型必须调用一个或多个工具。
none
, auto
, required
此响应的唯一标识符
该资源的对象类型 - 始终设置为 response
。
response
此响应创建时的 Unix 时间戳(以秒为单位)。
当模型未能生成响应时返回的错误对象。
响应不完整的详细信息。
由模型生成的内容项数组。
output
数组中项目的长度和顺序取决于模型的响应。- 与其访问
output
数组中的第一个项目并假设它是包含模型生成内容的assistant
消息,不如考虑在 SDK 中使用output_text
属性(如果支持)。
插入到模型上下文中的系统(或开发者)消息。
当与 previous_response_id
一起使用时,前一个响应中的指令不会延续到下一个响应。这使得在新的响应中轻松替换系统(或开发者)消息变得容易。
发送给模型的文本输入,相当于具有 developer
角色的文本输入。
是否允许模型并行运行工具调用。
指定用于处理请求的延迟等级。此参数适用于订阅了按量计费服务的客户: - 如果设置为“auto”,并且项目启用了按量计费服务,系统将使用按量计费积分直至用尽。 - 如果设置为“auto”,但项目未启用按量计费服务,则请求将使用默认服务等级进行处理,该等级的正常运行时间服务水平协议较低,且无延迟保证。 - 如果设置为“default”,请求将使用默认服务等级进行处理,该等级的正常运行时间服务水平协议较低,且无延迟保证。 - 如果设置为“flex”,请求将使用弹性处理服务等级进行处理。了解更多。 - 如果未设置,则默认行为是“auto”。
设置此参数后,响应体将包含所使用的 service_tier
。
auto
, default
, flex
, scale
对提示模板及其变量的引用。
用于模型响应的截断策略。
auto
:如果此响应及之前的响应的上下文超出了模型的上下文窗口大小,模型将通过删除对话中间的输入项来截断响应以适应上下文窗口。disabled
(默认):如果模型响应将超出模型的上下文窗口大小,请求将失败并返回 400 错误。
auto
, disabled
响应生成的状态。可能的值有 completed
、failed
、
in_progress
、cancelled
、queued
或 incomplete
。
completed
, failed
, in_progress
, cancelled
, queued
, incomplete
仅限 SDK 的便利属性,包含 output
数组中所有 output_text
项的聚合文本输出(如果存在)。
在 Python 和 JavaScript SDK 中支持。
表示令牌使用详情,包括输入令牌、输出令牌、输出令牌的明细以及使用的总令牌。