产品 / 面向 AI 开发者
GrokX
正式可用让你的智能体扎根于你的文档——支持扫描版 PDF,每个答案都标注到具体页码。
GrokX 是 TAIP 的知识组件——三件套中的第三件:InferX 提供模型,AgentX 运行智能体,GrokX 提供知识。它把文档语料(包括扫描版 PDF)变成智能体可据以作答的依据,并带有页级引用。摄取只做一次:原生数字页从其文本层读取,扫描页由 OCR 识别,再分块(按段落、标题或句子),并以 SHA-256 清单保持新鲜,重复摄取时跳过未变更的文档。检索默认走混合检索——稀疏关键词向量与稠密嵌入在向量数据库内经排名融合合并,再由交叉编码器重排器重排——并为较小语料提供文本镜像模式(一棵你挂载并 grep 的 markdown 目录树)。一切皆多租户:一个带 OIDC 单点登录的 Web 控制台、受限的个人访问令牌与按知识库的 RBAC,治理着多个相互隔离的知识库,每个都是自己的向量数据库集合。在 AgentX 的 Agent 上以别名 kb 注册后,mcp__kb__search(query, kb) 会返回命中的段落及其来源与页码,于是模型会引用“report.pdf 第 12 页”,而非凭空作答。嵌入与重排调用你自己的 InferX 端点;它以 Helm 打包的 TAIP 应用形式交付——MCP 服务、控制台、向量数据库与一个索引器——如今已在生产环境端到端运行。
规格
- 状态
- v0.7.0 — 已发布,生产环境运行中
- 摄取
- 原生数字文本 + OCR 处理扫描件 · PDF · Word · HTML · Markdown · 纯文本
- 检索
- 混合检索(稀疏关键词 + 稠密)经排名融合 · 交叉编码器重排 · 页级引用
- 嵌入
- 可插拔模型经 InferX——兼容 OpenAI 的 /embeddings
- 存储
- 可插拔向量数据库(dense + sparse 命名向量)· 开发用本地存储
- 访问
- Web 控制台 · OIDC 单点登录 · 受限个人访问令牌 · 按知识库 RBAC · 审计日志
- 服务
- MCP 服务(streamable HTTP)· Helm:服务 + 控制台 + 向量数据库 + 索引器
用实证说话
一段代码看明白。
没有私有 SDK,无需改写—— GrokX 在现有工具所在之处完成对接。
$ grokx push ./corpus --kb research # 上传 + OCR 扫描件 + 建索引,可断点续传
ingested 142 docs · 38 OCR'd · 1,907 pages → indexed 9,841 chunks
$ grokx serve # MCP 服务(streamable HTTP),监听 :8080
serving 6 knowledge bases
# AgentX 的 Agent 调用该工具——混合检索 + 重排,带引用作答:
mcp__kb__search("Q3 revenue", kb="research") → "…revenue was $4.2M…" [report.pdf p.12]▌ OCR 与嵌入在摄取时只跑一次,而非每次查询都跑。稀疏关键词与稠密向量在检索时融合并重排,每个段落都保留其来源与页码,让答案可被引用。
核心能力
GrokX 为您带来什么
能读扫描版 PDF 的摄取
遍历语料、逐页提取:原生数字文本直接取自页面的文本层,纯图像的扫描件由 OCR 识别。PDF、Word、HTML、Markdown 与纯文本都可摄取。对原始 PDF 字节做 grep 毫无意义,文本模型也看不到页面图像——所以提取是必需的,GrokX 只做一次,遇到问题时降级为 ocr-skipped 而非直接失败。
混合检索,并重排
稀疏关键词向量与稠密嵌入作为命名向量一起存于向量数据库,并经排名融合合并,再由交叉编码器重排器对头部结果重排。词法召回与语义召回一次查询兼得——或为较小语料挂载 markdown 文本镜像并 grep。
页级引用
每个分块都保留其来源与页码,于是智能体能以“依据 report.pdf 第 12 页”作答,而不是给出无法核实的论断。出处从摄取经检索与重排一路保留。
AgentX 可调用的工具
grokx serve 暴露一个 MCP 服务。在 AgentX 的 Agent 上以别名 kb 注册后,它就成了 mcp__kb__search(query, kb, k, source?, page?) 工具——外加 list_knowledge_bases、list_sources 与 get_document。由模型自行决定何时检索,并取回带引用的段落。向量库住在 GrokX 里,绝不进入智能体沙箱。
多个知识库,受治理
一个带 OIDC 单点登录的 Web 控制台管理多个相互隔离的知识库——每个都是自己的向量数据库集合。按知识库的 RBAC(viewer / editor / owner)、面向用户与组的 ACL 共享、受限的个人访问令牌,以及一条只追加的审计日志。知识库是访问控制的基本单位。
四种摄取方式,持续保鲜
经 Web 控制台上传(可断点续传)、用 CLI 的 grokx push / sync、挂载 WebDAV 文件夹,或接一个定时的 git 连接器。SHA-256 清单跟踪每个源文件,于是重复摄取与重建索引会跳过未变更的文档、并清理已删除项——昂贵的 OCR 与嵌入工作绝不无谓重复。
嵌入与重排都跑在你的 InferX 上
嵌入与重排调用你自己的兼容 OpenAI 的 InferX 端点——没有第三方嵌入 API,数据不出边界。一套无依赖的本地存储与哈希嵌入器,让开发无需任何基础设施即可进行。
工作原理
从一堆 PDF,到一个带引用的答案。
- 步骤 01
摄取并 OCR 语料
grokx push(或 Web 控制台、WebDAV、git 连接器)提取原生数字文本、并把扫描页 OCR、分块、建索引——只做一次、增量进行、保留出处。
- 步骤 02
建成混合检索索引
分块经嵌入,并与稀疏关键词向量一起存入按知识库的向量数据库集合——可用于融合、重排的检索,也可挂载为 markdown 镜像供 grep。
- 步骤 03
经 MCP 服务给智能体
grokx serve 在 AgentX 的 Agent 上注册 kb 工具。模型需要证据时调用 mcp__kb__search,取回带来源与页码的段落。
- 步骤 04
智能体带引用作答
答案扎根于你的文档、锚定到具体页码——可核实,而非猜测。
适用团队
为这些团队而建
- 构建必须依据私有文档作答的智能体的团队
- 手握一堆词法检索读不了的扫描版 PDF 的人
- 需要有据可查、可标注引用的答案——而非幻觉——的 AI 应用团队
- 要搭建一套共享、受治理、多租户知识索引的平台团队
搭配使用
其他开发者产品
ConsoleX
正式可用登录即获得受治理的 Kubernetes 工作空间。无需 kubectl,无需提工单。
用户首次 SSO 登录时,自动获得一个隔离的命名空间:配额、默认拒绝的网络策略、存储与 Web 终端——自动开通,持续收敛。
了解更多DevSpace
正式可用几秒钟内在 GPU 上拉起 Jupyter 或 VS Code。闲置环境自动关停。
一键创建 Jupyter、Marimo、Streamlit、Gradio、VS Code 环境——GPU 就绪、按用户经独立认证代理隔离,支持 SSH,默认闲置自动关停。
了解更多TrainX
正式可用管理员写模板,用户填表单,Kubernetes 跑作业。
自描述的训练模板直接渲染成 UI 表单——提交前实时校验配额,运行中流式日志、解析进度条,一键 TensorBoard。
了解更多