产品 / 面向 AI 开发者

GrokX

正式可用

让你的智能体扎根于你的文档——支持扫描版 PDF，每个答案都标注到具体页码。

GrokX 是 TAIP 的知识组件——三件套中的第三件：InferX 提供模型，AgentX 运行智能体，GrokX 提供知识。它把文档语料（包括扫描版 PDF）变成智能体可据以作答的依据，并带有页级引用。摄取只做一次：原生数字页从其文本层读取，扫描页由 OCR 识别，再分块（按段落、标题或句子），并以 SHA-256 清单保持新鲜，重复摄取时跳过未变更的文档。检索默认走混合检索——稀疏关键词向量与稠密嵌入在向量数据库内经排名融合合并，再由交叉编码器重排器重排——并为较小语料提供文本镜像模式（一棵你挂载并 grep 的 markdown 目录树）。一切皆多租户：一个带 OIDC 单点登录的 Web 控制台、受限的个人访问令牌与按知识库的 RBAC，治理着多个相互隔离的知识库，每个都是自己的向量数据库集合。在 AgentX 的 Agent 上以别名 kb 注册后，mcp__kb__search(query, kb) 会返回命中的段落及其来源与页码，于是模型会引用“report.pdf 第 12 页”，而非凭空作答。嵌入与重排调用你自己的 InferX 端点；它以 Helm 打包的 TAIP 应用形式交付——MCP 服务、控制台、向量数据库与一个索引器——如今已在生产环境端到端运行。

全部产品

规格

状态: v0.7.0 — 已发布，生产环境运行中
摄取: 原生数字文本 + OCR 处理扫描件 · PDF · Word · HTML · Markdown · 纯文本
检索: 混合检索（稀疏关键词 + 稠密）经排名融合 · 交叉编码器重排 · 页级引用
嵌入: 可插拔模型经 InferX——兼容 OpenAI 的 /embeddings
存储: 可插拔向量数据库（dense + sparse 命名向量）· 开发用本地存储
访问: Web 控制台 · OIDC 单点登录 · 受限个人访问令牌 · 按知识库 RBAC · 审计日志
服务: MCP 服务（streamable HTTP）· Helm：服务 + 控制台 + 向量数据库 + 索引器

用实证说话

一段代码看明白。

没有私有 SDK，无需改写—— GrokX 在现有工具所在之处完成对接。

一份语料，变成智能体可调用的工具

$ grokx push ./corpus --kb research   # 上传 + OCR 扫描件 + 建索引，可断点续传
ingested 142 docs · 38 OCR'd · 1,907 pages → indexed 9,841 chunks
$ grokx serve                          # MCP 服务（streamable HTTP），监听 :8080
serving 6 knowledge bases
# AgentX 的 Agent 调用该工具——混合检索 + 重排，带引用作答：
mcp__kb__search("Q3 revenue", kb="research") → "…revenue was $4.2M…"  [report.pdf p.12]▌

OCR 与嵌入在摄取时只跑一次，而非每次查询都跑。稀疏关键词与稠密向量在检索时融合并重排，每个段落都保留其来源与页码，让答案可被引用。

核心能力

GrokX 为您带来什么

能读扫描版 PDF 的摄取

遍历语料、逐页提取：原生数字文本直接取自页面的文本层，纯图像的扫描件由 OCR 识别。PDF、Word、HTML、Markdown 与纯文本都可摄取。对原始 PDF 字节做 grep 毫无意义，文本模型也看不到页面图像——所以提取是必需的，GrokX 只做一次，遇到问题时降级为 ocr-skipped 而非直接失败。

混合检索，并重排

稀疏关键词向量与稠密嵌入作为命名向量一起存于向量数据库，并经排名融合合并，再由交叉编码器重排器对头部结果重排。词法召回与语义召回一次查询兼得——或为较小语料挂载 markdown 文本镜像并 grep。

页级引用

每个分块都保留其来源与页码，于是智能体能以“依据 report.pdf 第 12 页”作答，而不是给出无法核实的论断。出处从摄取经检索与重排一路保留。

AgentX 可调用的工具

grokx serve 暴露一个 MCP 服务。在 AgentX 的 Agent 上以别名 kb 注册后，它就成了 mcp__kb__search(query, kb, k, source?, page?) 工具——外加 list_knowledge_bases、list_sources 与 get_document。由模型自行决定何时检索，并取回带引用的段落。向量库住在 GrokX 里，绝不进入智能体沙箱。

多个知识库，受治理

一个带 OIDC 单点登录的 Web 控制台管理多个相互隔离的知识库——每个都是自己的向量数据库集合。按知识库的 RBAC（viewer / editor / owner）、面向用户与组的 ACL 共享、受限的个人访问令牌，以及一条只追加的审计日志。知识库是访问控制的基本单位。

四种摄取方式，持续保鲜

经 Web 控制台上传（可断点续传）、用 CLI 的 grokx push / sync、挂载 WebDAV 文件夹，或接一个定时的 git 连接器。SHA-256 清单跟踪每个源文件，于是重复摄取与重建索引会跳过未变更的文档、并清理已删除项——昂贵的 OCR 与嵌入工作绝不无谓重复。

嵌入与重排都跑在你的 InferX 上

嵌入与重排调用你自己的兼容 OpenAI 的 InferX 端点——没有第三方嵌入 API，数据不出边界。一套无依赖的本地存储与哈希嵌入器，让开发无需任何基础设施即可进行。

工作原理

从一堆 PDF，到一个带引用的答案。

步骤 01

摄取并 OCR 语料

grokx push（或 Web 控制台、WebDAV、git 连接器）提取原生数字文本、并把扫描页 OCR、分块、建索引——只做一次、增量进行、保留出处。
步骤 02

建成混合检索索引

分块经嵌入，并与稀疏关键词向量一起存入按知识库的向量数据库集合——可用于融合、重排的检索，也可挂载为 markdown 镜像供 grep。
步骤 03

经 MCP 服务给智能体

grokx serve 在 AgentX 的 Agent 上注册 kb 工具。模型需要证据时调用 mcp__kb__search，取回带来源与页码的段落。
步骤 04

智能体带引用作答

答案扎根于你的文档、锚定到具体页码——可核实，而非猜测。

适用团队

为这些团队而建

构建必须依据私有文档作答的智能体的团队
手握一堆词法检索读不了的扫描版 PDF 的人
需要有据可查、可标注引用的答案——而非幻觉——的 AI 应用团队
要搭建一套共享、受治理、多租户知识索引的平台团队

搭配使用

其他开发者产品

ConsoleX

正式可用

登录即获得受治理的 Kubernetes 工作空间。无需 kubectl，无需提工单。

用户首次 SSO 登录时，自动获得一个隔离的命名空间：配额、默认拒绝的网络策略、存储与 Web 终端——自动开通，持续收敛。

了解更多

DevSpace

正式可用

几秒钟内在 GPU 上拉起 Jupyter 或 VS Code。闲置环境自动关停。

一键创建 Jupyter、Marimo、Streamlit、Gradio、VS Code 环境——GPU 就绪、按用户经独立认证代理隔离，支持 SSH，默认闲置自动关停。

了解更多

TrainX

正式可用

管理员写模板，用户填表单，Kubernetes 跑作业。

自描述的训练模板直接渲染成 UI 表单——提交前实时校验配额，运行中流式日志、解析进度条，一键 TensorBoard。

了解更多

GrokX

一段代码看明白。

GrokX 为您带来什么

能读扫描版 PDF 的摄取

混合检索，并重排

页级引用

AgentX 可调用的工具

多个知识库，受治理

四种摄取方式，持续保鲜

嵌入与重排都跑在你的 InferX 上

从一堆 PDF，到一个带引用的答案。

摄取并 OCR 语料

建成混合检索索引

经 MCP 服务给智能体

智能体带引用作答

为这些团队而建

其他开发者产品

ConsoleX

DevSpace

TrainX