跳到正文
TAIP

产品 / 面向 AI 开发者

InferX

正式可用

在您自己的 GPU 上提供兼容 OpenAI 与 Anthropic 的推理服务——每个 token 都可计量。

InferX 是部署在您自己 Kubernetes 上的 LLM 推理平台。它对外同时提供 OpenAI 与 Anthropic Messages API,对内通过内置预设部署 vLLM、llama.cpp 或 text-embeddings-inference——也可接入您自带的任何 KServe ServingRuntime——并补上多数网关缺失的运维层:一个逻辑模型可由多个部署支撑,具备负载均衡与三态熔断器;按用户与密钥归集成本;按模型统计 P50/P95/P99 延迟;从模板管理 KServe 全生命周期;从 Hugging Face 与 S3 下载模型;自带支持流式、思考模式渲染与 MCP 工具调用的 Playground。除聊天外,如今还提供嵌入与 /v1/rerank,经 /v1/audio/speech(TTS)与 /v1/audio/transcriptions(ASR)的音频、视觉语言模型,以及 KServe v2 / Open Inference Protocol 推理——服务实例还可暂停与恢复,以释放闲置 GPU。路线图将加入策略路由与面向控制回路场景的安全模式。

规格

版本
v2.15 — 正式可用
协议
OpenAI(聊天 · 嵌入 · 重排 · 音频)· Anthropic Messages · KServe v2 · 流式 SSE
运行时
vLLM · llama.cpp · text-embeddings-inference 预设 · 任意 KServe ServingRuntime
硬件
NVIDIA · AMD · Intel · 昇腾 · 寒武纪 — 自动识别
路由
单模型多部署 · 加权负载均衡 · 熔断器

用实证说话

一段代码看明白。

没有私有 SDK,无需改写—— InferX 在现有工具所在之处完成对接。

只改一个 URL,代码不动
from openai import OpenAI
client = OpenAI(
    base_url="https://inferx.intra.example/api",  # ← 唯一的改动
    api_key=os.environ["INFERX_API_KEY"],
)
# Anthropic SDK 与 claude-code 同理,经 /anthropic/v1 接入
# 每个请求都进入大盘:成本 · P50/P95/P99 · 错误率

OpenAI 与 Anthropic SDK 均可直接替换,支持流式——并带按密钥的预算、限流与模型白名单。

核心能力

InferX 为您带来什么

01

兼容 OpenAI 与 Anthropic——且多模态

直接替换 /v1/chat/completions、/v1/embeddings、/v1/rerank、/v1/audio/speech 与 /v1/audio/transcriptions,外加 /anthropic/v1/messages 与 KServe v2 /v2/models/:model/infer——全部支持流式 SSE。把现有 SDK 或 claude-code 指向 InferX,只需改 base URL。Provider 原生进程内实现——请求路径上没有额外代理跳转。

02

多厂商 GPU 与 KServe 原生

自动识别 NVIDIA、AMD、Intel、华为昇腾与寒武纪。从类型化模板部署 InferenceService——vLLM 预设(AWQ、BF16)、经 llama.cpp 的 GGUF、text-embeddings-inference 与视觉语言模型,也可使用您自带的任何 ServingRuntime——并可在界面内从服务一路下钻到 Pod 与日志。暂停闲置部署以释放其 GPU,并按需恢复。

03

按模型的成本、延迟与错误

每个请求都经 OTEL 埋点。P50/P95/P99 延迟、错误率与 token 级成本,按模型、按用户、按 API 密钥归集——并支持预算、限流与余额归零自动停用。

04

为智能体而建

一个模型、多个部署:加权负载均衡搭配三态熔断器,首 token 前自动切换。Playground 支持 MCP 与思考模式渲染。路线图:会话亲和、策略路由,以及校验 / 共识 / 人工介入安全模式。

工作原理

从模型权重到可计量的推理端点。

  1. 步骤 01

    部署模型

    选择运行时模板——vLLM 或 GGUF 预设,或您自己的 ServingRuntime——指向放权重的 PVC,点击部署。多厂商 GPU 自动识别。

  2. 步骤 02

    获得端点

    OpenAI 与 Anthropic 兼容的 URL,两者均支持流式 SSE。API 密钥带限流、预算与模型白名单。

  3. 步骤 03

    看住成本与延迟

    每个请求都经 OTEL 埋点。P50/P95/P99、错误率与成本按模型、按密钥归集——大盘里直接可见。

适用团队

为这些团队而建

  • 在专属算力上交付 LLM 产品的团队
  • 统一推理成本与访问入口的平台团队
  • 有安全与审计需求的智能体系统开发者