跳到正文
TAIP

产品 / 面向 AI 开发者

TrainX

正式可用

管理员写模板,用户填表单,Kubernetes 跑作业。

TrainX 是 TAIP 的训练引擎。它把临时用 kubectl 提交作业变成一个精心打磨的产品:管理员编写带类型化参数和约定明确脚本的 TrainXJobTemplate;用户填写一张由模板直接渲染出来的表单。TrainX 生成底层的 Kubernetes Job 与 ConfigMap,提交前实时校验用户的 ResourceQuota,运行中流式输出日志、把进度解析成真正的进度条,按需拉起 TensorBoard——作业结束后自动回收。

规格

版本
v1.5.4 — 正式可用
底层
TrainXJob · TrainXJobTemplate CRD → Kubernetes Job
可观测
实时日志 · 进度解析 · K8s 事件 · TensorBoard
内置模板
LoRA 微调(torchtune、Unsloth)· 评测 · HF 下载
语言
English · 简体中文(界面与文档)

用实证说话

一段代码看明白。

没有私有 SDK,无需改写—— TrainX 在现有工具所在之处完成对接。

一行日志就是进度条
# 脚本里按这个格式打印的内容,都会变成进度条
print(f"TRAINX_PROGRESS: {step}/{total} loss={loss:.4f}")

# 作业页面实时呈现,解析自日志流
qwen2.5-lora  ████████████░░░░░░░░  62/100  loss=0.8214

没有 SDK,没有回调钩子——一条 print 语句就是全部集成。日志、事件与 TensorBoard 一并就位。

核心能力

TrainX 为您带来什么

01

自描述模板

TrainXJobTemplate 携带类型化的参数元数据,Web 表单直接由模板渲染——新增参数只是改一行 YAML,而不是改 UI。表单与 YAML 双向同步。

02

提交、观察、浏览

实时流式日志,万行日志不卡顿。`TRAINX_PROGRESS: i/N` 日志自动解析成进度条。K8s 事件页签。一键 TensorBoard,作业结束自动回收。内置 PVC 文件浏览器,支持上传下载。

03

天生多租户

每次运行都是用户命名空间里的一个 TrainXJob CRD。命名空间与实时配额由 ConsoleX 提供——超配额的提交在到达集群之前就被表单拦下。每个作业都打上用户标签,可审计。

04

适配物理隔离环境

运行时没有任何必需的外部依赖。打包脚本把全部镜像装载进集群本地镜像仓库;同一份 Chart 在联网与物理隔离环境中均可部署——如今已在一个完全物理隔离的生产集群上运行。

工作原理

从模板到运行中的作业,权责清晰交接。

  1. 步骤 01

    管理员编写模板

    类型化参数、默认配置、一份约定明确的脚本。保存为 TrainXJobTemplate CRD——可审计、可复用。

  2. 步骤 02

    用户填写表单

    Web 表单直接由模板的参数元数据渲染。没有 YAML,没有 kubectl。提交前先过配额校验。

  3. 步骤 03

    观察与迭代

    流式日志、解析出的进度条、K8s 事件、一键 TensorBoard。换组参数重跑只需两次点击。

适用团队

为这些团队而建

  • 做微调、RLHF 和评测的研究团队
  • 不想再手改 Job YAML 的 ML 工程师
  • 希望提供规范训练入口的平台团队