产品 / 面向 AI 开发者

InferX

正式可用

在您自己的 GPU 上提供兼容 OpenAI 与 Anthropic 的推理服务——每个 token 都可计量。

InferX 是部署在您自己 Kubernetes 上的 LLM 推理平台。它对外同时提供 OpenAI 与 Anthropic Messages API，对内通过内置预设部署 vLLM、llama.cpp 或 text-embeddings-inference——也可接入您自带的任何 KServe ServingRuntime——并补上多数网关缺失的运维层：一个逻辑模型可由多个部署支撑，具备负载均衡与三态熔断器；按用户与密钥归集成本；按模型统计 P50/P95/P99 延迟；从模板管理 KServe 全生命周期；从 Hugging Face 与 S3 下载模型；自带支持流式、思考模式渲染与 MCP 工具调用的 Playground。除聊天外，如今还提供嵌入与 /v1/rerank，经 /v1/audio/speech（TTS）与 /v1/audio/transcriptions（ASR）的音频、视觉语言模型，以及 KServe v2 / Open Inference Protocol 推理——服务实例还可暂停与恢复，以释放闲置 GPU。路线图将加入策略路由与面向控制回路场景的安全模式。

全部产品

规格

版本: v2.15 — 正式可用
协议: OpenAI（聊天 · 嵌入 · 重排 · 音频）· Anthropic Messages · KServe v2 · 流式 SSE
运行时: vLLM · llama.cpp · text-embeddings-inference 预设 · 任意 KServe ServingRuntime
硬件: NVIDIA · AMD · Intel · 昇腾 · 寒武纪 — 自动识别
路由: 单模型多部署 · 加权负载均衡 · 熔断器

用实证说话

一段代码看明白。

没有私有 SDK，无需改写—— InferX 在现有工具所在之处完成对接。

只改一个 URL，代码不动

from openai import OpenAI
client = OpenAI(
    base_url="https://inferx.intra.example/api",  # ← 唯一的改动
    api_key=os.environ["INFERX_API_KEY"],
)
# Anthropic SDK 与 claude-code 同理，经 /anthropic/v1 接入
# 每个请求都进入大盘：成本 · P50/P95/P99 · 错误率▌

OpenAI 与 Anthropic SDK 均可直接替换，支持流式——并带按密钥的预算、限流与模型白名单。

核心能力

InferX 为您带来什么

兼容 OpenAI 与 Anthropic——且多模态

直接替换 /v1/chat/completions、/v1/embeddings、/v1/rerank、/v1/audio/speech 与 /v1/audio/transcriptions，外加 /anthropic/v1/messages 与 KServe v2 /v2/models/:model/infer——全部支持流式 SSE。把现有 SDK 或 claude-code 指向 InferX，只需改 base URL。Provider 原生进程内实现——请求路径上没有额外代理跳转。

多厂商 GPU 与 KServe 原生

自动识别 NVIDIA、AMD、Intel、华为昇腾与寒武纪。从类型化模板部署 InferenceService——vLLM 预设（AWQ、BF16）、经 llama.cpp 的 GGUF、text-embeddings-inference 与视觉语言模型，也可使用您自带的任何 ServingRuntime——并可在界面内从服务一路下钻到 Pod 与日志。暂停闲置部署以释放其 GPU，并按需恢复。

按模型的成本、延迟与错误

每个请求都经 OTEL 埋点。P50/P95/P99 延迟、错误率与 token 级成本，按模型、按用户、按 API 密钥归集——并支持预算、限流与余额归零自动停用。

为智能体而建

一个模型、多个部署：加权负载均衡搭配三态熔断器，首 token 前自动切换。Playground 支持 MCP 与思考模式渲染。路线图：会话亲和、策略路由，以及校验 / 共识 / 人工介入安全模式。

工作原理

从模型权重到可计量的推理端点。

步骤 01

部署模型

选择运行时模板——vLLM 或 GGUF 预设，或您自己的 ServingRuntime——指向放权重的 PVC，点击部署。多厂商 GPU 自动识别。
步骤 02

获得端点

OpenAI 与 Anthropic 兼容的 URL，两者均支持流式 SSE。API 密钥带限流、预算与模型白名单。
步骤 03

看住成本与延迟

每个请求都经 OTEL 埋点。P50/P95/P99、错误率与成本按模型、按密钥归集——大盘里直接可见。