OpenAI 兼容格式 — 大模型统一调用文档

概述

以下模型厂商均支持通过 OpenAI 兼容格式 进行调用，请求格式与 OpenAI chat/completions 接口完全一致。

只需替换请求体中的 model 参数为对应的模型名称，即可调用不同厂商的模型，无需修改其他代码。

接口地址

https://api.tokenhot.ai/v1/chat/completions

使用方法

只需替换 model 参数为您需要的模型名称即可。

基础信息

项目	说明
Base URL	`https://api.tokenhot.ai`
请求方式	`POST`
请求路径	`/v1/chat/completions`
认证方式	Bearer Token（在请求头中添加 `Authorization: Bearer YOUR_API_KEY`）
Content-Type	`application/json`

支持的模型列表

1. GPT（OpenAI）

OpenAI 的 GPT 系列模型，全球领先的大语言模型家族。最新 GPT-5.x 系列在推理、代码生成和多模态方面持续突破，全面支持 Function Calling 和流式输出。

模型名称（model 值）	说明	上下文窗口
`gpt-5.5`	最新旗舰，GPT 系列最强模型，顶尖推理与创作能力	1M
`gpt-5.4`	上一代旗舰，强大的通用推理和多模态理解能力	1M
`gpt-5.4-mini`	轻量高速版本，兼顾性能与成本，适合高吞吐量场景	400K
`gpt-5.3-codex`	代码专精模型，针对代码生成、调试和重构深度优化	1M

2. Claude（Anthropic）

Anthropic 的 Claude 系列模型，以安全性、长上下文理解和精确指令遵循著称。最新 Claude 4.x 系列在复杂推理、代码生成和多语言任务方面表现卓越。

模型名称（model 值）	说明	上下文窗口
`claude-opus-4.7`	最新旗舰，Claude 系列最强模型，顶尖推理与深度分析能力	1M
`claude-opus-4.6`	上一代旗舰，卓越的复杂任务处理和长文本理解能力	1M
`claude-sonnet-4.6`	均衡模型，性能与速度的最佳平衡，适合大多数场景	1M
`claude-haiku-4.5`	轻量高速模型，极致响应速度与高性价比	200K

3. Gemini（Google）

Google 的 Gemini 系列模型，原生多模态架构，支持文本、图像、音频、视频等多种输入。最新 Gemini 3.x 系列进一步增强推理和工具使用能力。

模型名称（model 值）	说明	上下文窗口
`gemini-3.1-pro-preview`	最新旗舰预览，Gemini 3.1 专业版，顶尖推理与多模态能力	1M
`gemini-2.5-pro`	上一代专业版，强大的推理、代码和多模态理解能力	1M
`gemini-3.1-flash-lite-preview`	最新轻量预览版，超高速响应，适合低延迟和高吞吐量场景	1M

4. 千问（Qwen）— 阿里云

阿里云千问系列，覆盖旗舰、均衡、高速等多层次模型，全面支持 Function Calling 和流式输出。最新 Qwen3.6 系列进一步提升推理与多模态能力，支持百万级上下文。

模型名称（model 值）	说明	上下文窗口
`qwen3.6-plus`	最新旗舰，Qwen3.6 系列顶级模型，全面升级推理、代码与多模态能力	1M
`qwen3.6-flash`	最新高速，Qwen3.6 系列轻量高速模型，极致性价比与快速响应	1M
`qwen3.5-plus`	上一代旗舰，基于 MoE 混合专家架构，具备卓越的逻辑推理、代码编写和多模态能力	1M
`qwen3.5-flash`	上一代高速，基于 Qwen3.5-35B-A3B 架构，高性价比和快速响应	1M
`qwen3.5-397b-a17b`	新一代原生多模态大模型（MoE），在推理、代码、视觉理解等方面表现突出	1M
`qwen-max`	经典旗舰模型，适合复杂推理、代码生成、多语言任务	32K
`qwen-plus`	均衡模型，性能/速度/成本最佳平衡	128K
`qwen-turbo`	高速模型，适合高吞吐量通用场景	128K

5. DeepSeek

DeepSeek 系列模型，最新的 V4 系列在推理效率和生成质量上实现重大突破，V3.2 引入了稀疏注意力机制（DSA），大幅降低推理成本并提升长上下文处理能力。

模型名称（model 值）	说明	上下文窗口
`deepseek-v4-pro`	最新旗舰，V4 系列顶级模型，全方位提升推理、代码与对话能力	1M
`deepseek-v4-flash`	最新高速，V4 系列轻量高速模型，极致响应速度与性价比	1M
`DeepSeek-V3.2`	上一代旗舰，具备顶尖推理能力的 MoE 模型，通过 DSA 优化长上下文处理	128K
`DeepSeek-V3.2-Thinking`	V3.2 思维链版本，前沿思维链与稀疏注意力机制融合，适合深度推理	128K
`DeepSeek-V3.2-Fast`	V3.2 高速版本，适合高吞吐量场景	128K
`deepseek-v3.1`	上一代统一架构模型，融合对话、推理和编码能力	128K
`deepseek-reasoner`	经典推理模型，通过思维链技术实现深度逻辑推理	128K

⚠️ deepseek-reasoner 注意事项：
不支持 temperature、top_p、presence_penalty、frequency_penalty 参数
不支持 Function Calling
响应中会包含额外的 reasoning_content 字段
多轮对话时需从历史消息中移除 reasoning_content

6. xAI（Grok）

xAI 公司的 Grok 系列模型，最新 Grok 4.x 系列采用多智能体协作架构，支持超长上下文和深度推理。

模型名称（model 值）	说明	上下文窗口
`grok-4.2-thinking`	最新旗舰，思维链推理模型，深度逻辑分析与复杂问题求解	2M
`grok-4.2`	新一代旗舰，多智能体协作推理架构，适合复杂分析和深度推理	2M
`grok-4.1`	上一代旗舰，在保持深层推理能力的同时大幅增强对话连贯性	2M
`grok-4.1-fast`	4.1 高速版本，通用任务首选，低成本高效率	2M
`grok-4-fast-reasoning`	高性能推理模型，优化了推理速度与效率	2M
`grok-3-mini`	轻量级推理模型，高效率与高性价比	128K

7. 智谱 AI（GLM）

智谱 AI 的 GLM 系列模型，最新 GLM-5.1 在推理深度与指令遵循方面进一步升级，GLM-5 采用动态稀疏注意力（DSA）机制，在对话、代码、Agent 任务等方面表现出色。

模型名称（model 值）	说明	上下文窗口
`glm-5.1`	最新旗舰，GLM 系列最新模型，全面升级推理深度与指令遵循能力	200K
`glm-5`	上一代旗舰，在逻辑推理与复杂指令遵循方面表现卓越	200K
`glm-4.7`	上一代经典，在代码生成和 Agent 任务中表现出色	200K
`glm-4.7-cc`	4.7 旗舰级智能体编程模型，专注复杂任务规划与全栈编码	200K
`glm-4.6`	新一代旗舰模型，针对复杂智能体与工程化场景深度优化	200K
`glm-4.5-air`	轻量高速模型，低成本快速响应	128K

8. MiniMax

MiniMax 系列模型，最新 M2.7 系列专注 Agent 工作流和高级推理，支持 OpenAI 和 Anthropic 双协议。

模型名称（model 值）	说明	上下文窗口
`MiniMax-M2.7`	最新旗舰，具备强大的自主进化与复杂工程任务处理能力	204K
`MiniMax-M2.7-highspeed`	M2.7 极速版本，专为低延迟高吞吐场景优化	204K
`MiniMax-M2.7-cc`	M2.7 高性价比版本，适合高吞吐量的编程与 Agent 工具使用	204K
`MiniMax-M2.5`	上一代旗舰，主打代码生成和重构	204K
`MiniMax-M2.5-cc`	M2.5 高性价比版本，低延迟生产环境设计	204K

9. 月之暗面（Moonshot / Kimi）

月之暗面的 Moonshot 和 Kimi 系列，以超长上下文处理和 Agent 能力著称。最新 Kimi K2.6 进一步提升推理与多模态能力，K2.5 支持原生多模态和思维链推理。

模型名称（model 值）	说明	上下文窗口
`kimi-k2.6`	最新旗舰，全面升级推理与多模态能力，支持更复杂的 Agent 任务	256K
`kimi-k2.5`	上一代旗舰，原生多模态 MoE 模型（1T 参数），支持 Agent Swarm 协作	256K
`kimi-k2.5-thinking`	K2.5 思维链版本，深度推理与逐步分析能力增强	256K
`kimi-k2`	经典版本，强大的编码和 Agent 能力	256K
`moonshot-v1-128k`	经典超长上下文模型，适合大规模文档分析	128K
`moonshot-v1-32k`	中等上下文，适合文档分析和长对话	32K
`moonshot-v1-8k`	基础模型，适合短对话和日常任务	8K

请求示例

Python 示例代码

💡 提示： 实际使用时请将 sk-********************************** 替换为你的真实 API Key。获取地址：https://tokenhot.ai/api-key

cURL 示例

OpenAI SDK 示例（Python）

Node.js 示例

返回示例

成功响应结构

{
  "id": "chatcmpl-abc123def456",
  "object": "chat.completion",
  "created": 1711712000,
  "model": "gpt-5.5",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "量子计算是一种基于量子力学原理的新型计算模式。与传统计算机使用比特（0或1）不同，量子计算机使用量子比特（qubit），它可以同时处于0和1的叠加态..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 28,
    "completion_tokens": 156,
    "total_tokens": 184
  }
}

响应字段说明

字段	类型	说明
`id`	string	本次请求的唯一标识
`object`	string	固定为 `chat.completion`
`created`	integer	响应创建的 Unix 时间戳
`model`	string	实际使用的模型名称
`choices[].message.role`	string	固定为 `assistant`
`choices[].message.content`	string	模型生成的回复内容
`choices[].finish_reason`	string	`stop`=正常结束，`length`=达到最大 token
`usage.prompt_tokens`	integer	输入消耗的 token 数
`usage.completion_tokens`	integer	输出消耗的 token 数
`usage.total_tokens`	integer	总消耗 token 数

请求参数说明

参数	类型	必填	默认值	说明
`model`	string	✅	—	模型名称，参见上方支持的模型列表
`messages`	array	✅	—	对话消息列表，包含 `role` 和 `content`
`temperature`	number	❌	1.0	采样温度 (0-2)，值越高输出越随机
`top_p`	number	❌	1.0	核采样概率 (0-1)，与 temperature 二选一
`max_tokens`	integer	❌	—	生成的最大 token 数
`stream`	boolean	❌	false	是否启用 SSE 流式输出
`stop`	string/array	❌	—	停止词，遇到时停止生成
`presence_penalty`	number	❌	0	存在惩罚 (-2.0 ~ 2.0)
`frequency_penalty`	number	❌	0	频率惩罚 (-2.0 ~ 2.0)
`tools`	array	❌	—	工具/函数调用定义（部分模型支持）
`response_format`	object	❌	—	响应格式，如 `{"type": "json_object"}`（部分模型支持）

messages 数组中的消息角色

role	说明
`system`	系统指令，定义 AI 的行为和角色
`user`	用户输入的消息
`assistant`	AI 之前的回复（用于多轮对话）

错误码与错误响应说明

错误码概览

状态码	类型	说明
`400`	BusinessError	业务校验失败 — 如缺少必填参数、模型不支持当前请求格式等
`401`	GatewayError	认证失败 — API Key 无效、过期或缺失
`503`	GatewayError	服务不可用 — 上游渠道异常或服务暂时不可用

400 — 业务错误（BusinessError）

当请求参数校验失败（如缺少必填字段、模型不支持某种输入格式等）时返回此结构：

{
  "code": "video_url_required",
  "message": "model doubao-seedance-2.0-V2V requires video_url content",
  "data": null
}

字段	类型	必返	说明
`code`	string	✅	业务错误代码，标识具体的错误类型
`message`	string	✅	错误的详细描述信息，说明出错的原因
`data`	null	❌	业务负载，错误时固定为 `null`

401 / 503 — 网关错误（GatewayError）

当鉴权失败（401）或上游渠道异常（503）时返回此结构：

401 示例（令牌无效）：

{
  "error": {
    "code": "",
    "message": "无效的令牌 (request id: 20260327...)",
    "type": "new_api_error"
  }
}

503 示例（渠道异常）：

{
  "error": {
    "code": "model_not_found",
    "message": "当前分组没有可用的渠道 (request id: 20260330...)",
    "type": "new_api_error"
  }
}

字段	类型	必返	说明
`error`	object	✅	错误对象详情
`error.code`	string	❌	系统错误代码，有时可能为空字符串
`error.message`	string	✅	系统错误描述，通常包含 `request id` 便于排查
`error.type`	string	✅	错误类型分类，如 `new_api_error`

📌 温馨提示： 不同模型在部分参数支持上可能略有差异（例如 deepseek-reasoner 不支持 temperature），具体请参考各模型的详细说明。如有疑问，请联系 TokenHot 客服。

OpenAI 兼容格式 — 大模型统一调用文档

概述#

接口地址#

使用方法#

基础信息#

支持的模型列表#

1. GPT（OpenAI）#

2. Claude（Anthropic）#

3. Gemini（Google）#

4. 千问（Qwen）— 阿里云#

5. DeepSeek#

6. xAI（Grok）#

7. 智谱 AI（GLM）#

8. MiniMax#

9. 月之暗面（Moonshot / Kimi）#

请求示例#

Python 示例代码#

cURL 示例#

OpenAI SDK 示例（Python）#

Node.js 示例#

返回示例#

成功响应结构#

响应字段说明#

请求参数说明#

messages 数组中的消息角色#

错误码与错误响应说明#

错误码概览#

400 — 业务错误（BusinessError）#

401 / 503 — 网关错误（GatewayError）#

概述