跳到正文
TAIP

产品 / 面向 AI 开发者

GrokX

正式可用

让你的智能体扎根于你的文档——支持扫描版 PDF,每个答案都标注到具体页码。

GrokX 是 TAIP 的知识组件——三件套中的第三件:InferX 提供模型,AgentX 运行智能体,GrokX 提供知识。它把文档语料(包括扫描版 PDF)变成智能体可据以作答的依据,并带有页级引用。摄取只做一次:原生数字页从其文本层读取,扫描页由 OCR 识别,再分块(按段落、标题或句子),并以 SHA-256 清单保持新鲜,重复摄取时跳过未变更的文档。检索默认走混合检索——稀疏关键词向量与稠密嵌入在向量数据库内经排名融合合并,再由交叉编码器重排器重排——并为较小语料提供文本镜像模式(一棵你挂载并 grep 的 markdown 目录树)。一切皆多租户:一个带 OIDC 单点登录的 Web 控制台、受限的个人访问令牌与按知识库的 RBAC,治理着多个相互隔离的知识库,每个都是自己的向量数据库集合。在 AgentX 的 Agent 上以别名 kb 注册后,mcp__kb__search(query, kb) 会返回命中的段落及其来源与页码,于是模型会引用“report.pdf 第 12 页”,而非凭空作答。嵌入与重排调用你自己的 InferX 端点;它以 Helm 打包的 TAIP 应用形式交付——MCP 服务、控制台、向量数据库与一个索引器——如今已在生产环境端到端运行。

规格

状态
v0.7.0 — 已发布,生产环境运行中
摄取
原生数字文本 + OCR 处理扫描件 · PDF · Word · HTML · Markdown · 纯文本
检索
混合检索(稀疏关键词 + 稠密)经排名融合 · 交叉编码器重排 · 页级引用
嵌入
可插拔模型经 InferX——兼容 OpenAI 的 /embeddings
存储
可插拔向量数据库(dense + sparse 命名向量)· 开发用本地存储
访问
Web 控制台 · OIDC 单点登录 · 受限个人访问令牌 · 按知识库 RBAC · 审计日志
服务
MCP 服务(streamable HTTP)· Helm:服务 + 控制台 + 向量数据库 + 索引器

用实证说话

一段代码看明白。

没有私有 SDK,无需改写—— GrokX 在现有工具所在之处完成对接。

一份语料,变成智能体可调用的工具
$ grokx push ./corpus --kb research   # 上传 + OCR 扫描件 + 建索引,可断点续传
ingested 142 docs · 38 OCR'd · 1,907 pages → indexed 9,841 chunks
$ grokx serve                          # MCP 服务(streamable HTTP),监听 :8080
serving 6 knowledge bases
# AgentX 的 Agent 调用该工具——混合检索 + 重排,带引用作答:
mcp__kb__search("Q3 revenue", kb="research") → "…revenue was $4.2M…"  [report.pdf p.12]

OCR 与嵌入在摄取时只跑一次,而非每次查询都跑。稀疏关键词与稠密向量在检索时融合并重排,每个段落都保留其来源与页码,让答案可被引用。

核心能力

GrokX 为您带来什么

01

能读扫描版 PDF 的摄取

遍历语料、逐页提取:原生数字文本直接取自页面的文本层,纯图像的扫描件由 OCR 识别。PDF、Word、HTML、Markdown 与纯文本都可摄取。对原始 PDF 字节做 grep 毫无意义,文本模型也看不到页面图像——所以提取是必需的,GrokX 只做一次,遇到问题时降级为 ocr-skipped 而非直接失败。

02

混合检索,并重排

稀疏关键词向量与稠密嵌入作为命名向量一起存于向量数据库,并经排名融合合并,再由交叉编码器重排器对头部结果重排。词法召回与语义召回一次查询兼得——或为较小语料挂载 markdown 文本镜像并 grep。

03

页级引用

每个分块都保留其来源与页码,于是智能体能以“依据 report.pdf 第 12 页”作答,而不是给出无法核实的论断。出处从摄取经检索与重排一路保留。

04

AgentX 可调用的工具

grokx serve 暴露一个 MCP 服务。在 AgentX 的 Agent 上以别名 kb 注册后,它就成了 mcp__kb__search(query, kb, k, source?, page?) 工具——外加 list_knowledge_bases、list_sources 与 get_document。由模型自行决定何时检索,并取回带引用的段落。向量库住在 GrokX 里,绝不进入智能体沙箱。

05

多个知识库,受治理

一个带 OIDC 单点登录的 Web 控制台管理多个相互隔离的知识库——每个都是自己的向量数据库集合。按知识库的 RBAC(viewer / editor / owner)、面向用户与组的 ACL 共享、受限的个人访问令牌,以及一条只追加的审计日志。知识库是访问控制的基本单位。

06

四种摄取方式,持续保鲜

经 Web 控制台上传(可断点续传)、用 CLI 的 grokx push / sync、挂载 WebDAV 文件夹,或接一个定时的 git 连接器。SHA-256 清单跟踪每个源文件,于是重复摄取与重建索引会跳过未变更的文档、并清理已删除项——昂贵的 OCR 与嵌入工作绝不无谓重复。

07

嵌入与重排都跑在你的 InferX 上

嵌入与重排调用你自己的兼容 OpenAI 的 InferX 端点——没有第三方嵌入 API,数据不出边界。一套无依赖的本地存储与哈希嵌入器,让开发无需任何基础设施即可进行。

工作原理

从一堆 PDF,到一个带引用的答案。

  1. 步骤 01

    摄取并 OCR 语料

    grokx push(或 Web 控制台、WebDAV、git 连接器)提取原生数字文本、并把扫描页 OCR、分块、建索引——只做一次、增量进行、保留出处。

  2. 步骤 02

    建成混合检索索引

    分块经嵌入,并与稀疏关键词向量一起存入按知识库的向量数据库集合——可用于融合、重排的检索,也可挂载为 markdown 镜像供 grep。

  3. 步骤 03

    经 MCP 服务给智能体

    grokx serve 在 AgentX 的 Agent 上注册 kb 工具。模型需要证据时调用 mcp__kb__search,取回带来源与页码的段落。

  4. 步骤 04

    智能体带引用作答

    答案扎根于你的文档、锚定到具体页码——可核实,而非猜测。

适用团队

为这些团队而建

  • 构建必须依据私有文档作答的智能体的团队
  • 手握一堆词法检索读不了的扫描版 PDF 的人
  • 需要有据可查、可标注引用的答案——而非幻觉——的 AI 应用团队
  • 要搭建一套共享、受治理、多租户知识索引的平台团队