SkillOps / SMS 标准

SMS v1.0

技能管理标准体系_

SMS · Skill Management Standard · openclaw-skill-ops

市面上的 skill / GPT / prompt 库都没有一套标准——没人说得清"一个 Skill 应该长什么样、怎么分类、怎么评好坏"。SMS 是第一套 AI Skill 的管理标准：它是小能的"操作系统"，定义了 分类、评估、Skill Card 三件事，让 skill 从"散落的提示词"变成"可管理、可评级、可规模化的资产"。

三维分类 Skill Card 10 维评级段位 9 子技能 × 8 模块审计基线

01三维分类体系

每个 Skill 用三个维度定位：它是什么能力（类型）、成熟到哪一级（成熟度）、在系统里扮演什么角色（角色层）。

维度一 · 12 类能力类型

理解

UNDERSTAND

获取

ACQUIRE

结构化

STRUCTURE

分析

ANALYZE

判断

JUDGE

设计

DESIGN

执行

EXECUTE

生成

GENERATE

交互

INTERACT

协同

COLLABORATE

评估

EVALUATE

进化

EVOLVE

维度二 · 5 级成熟度（L1 → L5）

资产级

标准化、版本化、可商业化的长期资产，能被 agent 系统长期依赖。

系统级

可与其他 skill 组合、可被 agent 编排、可评估回归。

技能级

完整 SKILL.md：触发词、步骤、输出格式、质量标准齐全。

模板级

结构化、可复用的模板，有固定的输入输出。

提示词级

一段 prompt——能用，但临时、脆弱、难复用。

注：L1 提示词级与 L5 资产级为标准定义的两端；L2–L4 名称为当前呈现版本，以 SMS v1.0 标准原文为准。

维度三 · 3 层系统角色

02Skill Card · 标准模板

每个 Skill 都有一张标准化的"身份卡"——15 个字段，其中 parent_agent（归属 Agent）必填，保证每个 skill 都能追溯到它服务的 agent。

# Skill Card · SMS v1.0 id: jtbd-interview-analyzer name: JTBD 用户访谈分析器 parent_agent: innolab # ← 必填 capability_type: 分析 # 12 类之一 maturity: L3 # L1–L5 system_role: 专业层 # 元/专业/交付 triggers: [分析这份访谈, JTBD 拆解] inputs / outputs / dependencies sms_score: 33 · tier: B 段 # … 共 15 字段（完整字段定义见标准原文）

注：以上为代表性字段；完整 15 字段的逐项定义以 SMS v1.0 标准原文为准。

03技能评级 · 10 维评估雷达

SMS 的评估工具是「技能评级」——10 维评估雷达，每维 0–10 分，总分 100。引擎按 4 个支柱组织这 10 维（便于理解）：

支柱 I · 可理解

能不能搞懂、知道何时用

清晰度可调用性

支柱 II · 可执行

能不能真把活干好、且稳定

可执行性输出稳定性结果质量

支柱 III · 可工程

能不能进更大的 agent 系统

复用性组合性可评估性

支柱 IV · 可信赖与价值

敢不敢用、值不值得

安全性商业价值

0–10 锚点标尺（每维统一）

0 缺失 · 2 雏形 · 4 基础 · 6 合格（公开门槛）· 8 良好 · 10 卓越（标杆）。锚点把"凭感觉打分"变成"对号入座"。

04段位 · S / A / B / C / D

100 分映射到段位。对外更强调段位而非具体分数——段位才是可决策的信号。

段位

分数

含义

S 段

86–100

核心资产 · 旗舰级，可主推、可商业化

A 段

76–85

稳定可用 · 可对外公开、可放心调用

B 段

64–75

公开门槛 · 达到发布线，仍在打磨

C 段

50–63

概念 · 雏形阶段，建议继续完善

D 段

< 50

待重写 · 信息不足或未成熟

注：S 段为小能在标准 A/B/C/D 之上为旗舰资产增设的最高档（SMS v1.0 原版为 A/B/C/D 四级）。

05小能 = 执行这套标准的 9 个子技能

SMS 是标准，小能（Ace）是执行它的工具集——9 个子技能，把 skill 从入库、评级、组合，到培训、绩效、退役的全生命周期自动化。

子技能

干什么

触发词

skill-card-gen

卡片生成——通过访谈生成标准 Skill Card

"造一个 XX 技能"

skill-forge

技能锻造——六阶段造新技能（意图捕获 → 写 SKILL.md → 参考文件 → 质量检查 → 测试 → 迭代）

"造技能"

skill-audit

技能审计——10 维评级 + 质量报告

"审计一下 XX"

skill-registry-scan

注册扫描——扫描全量 Skill 并分类登记

"扫描一下技能库"

skill-graph

技能图谱——维护 Skill 间的依赖 / 组合关系

"技能关系"

agent-capability-map

能力地图——按 Agent 分组盘点 Skill 组合

"团队能力盘点"

skill-coachNEW

技能培训——读评级、定位最弱维度、重写 SKILL.md 提分到目标段位

"帮 XX 提分到 A"

skill-metricsNEW

技能绩效——调用量 / 分数趋势 / 退化预警，红黄绿持续监控

"哪些技能在退化"

skill-retireNEW

技能退役——识别该下线的 skill，查依赖、给迁移指引，可逆归档

"哪些技能该下线"

9 子技能 × 8 个 HR 模块

把每个 skill 当员工管：从招聘到退役，一个完整的 HR 生命周期分成 8 个模块，每个模块由对应子技能执行。分发是平台原生能力（registry + API），不需要单独的 skill。

HR 模块

做什么

执行子技能

M·01 招聘

新 skill 入库

skill-card-gen · skill-forge

M·02 评估

10 维评级定段位

skill-audit

M·03 管理

编目 + 依赖/组合关系

skill-registry-scan · skill-graph

M·04 分发

上架 / 公开私有 / 被 agent 调用

平台原生（registry + API）

M·05 培训

把不够分的 skill 带上一档

skill-coach

M·06 绩效

持续监控、退化预警

skill-metrics

M·07 项目评估

按 agent / 项目盘点能力组合

agent-capability-map

M·08 退役

下线、合并、可逆归档

skill-retire

闭环：招聘 → 评估 → 管理 → 分发 → 培训 → 绩效 → 项目评估 → 退役 → 回到招聘。skill-metrics 发现退化 → skill-coach 提分；提分无效且低价值 → skill-retire 下线。这就是"管理"。

06审计基线

小能用 SMS 跑了两层审计：一层是 openclaw 全库扫描，一层是已公开上架的精选目录。后者就是 /demo 与 /registry 实时展示的同一批 skill：

全库审计 · openclaw 全部 skill（含未发布）

个 Skill 全量扫描

56.4

平均分 / 100

平均段位

已发布目录 · 公开上架精选 = demo / registry

个已发布 Skill

70.4

平均分 / 100

平均段位

段位分布 · S 2 · A 12 · B 5 · C 1 · D 5 —— 发布门槛把均分从 56.4 抬到 70.4，这正是"管理"在做的事。

诚实声明：SMS 是一套标准 + 引擎估算 + 人工校准，不是绝对真理。评级由 LLM 引擎按上面的 10 维 / 0–10 锚点逐维评估，S 段核心资产额外人工复核；标准版本化迭代（当前 v1.0），分类、字段、rubric 公开可质疑。把它当"可决策的参考坐标"，不是"裁决"。完整方法可见 openclaw-skill-ops。

用 SMS 给你的 skill 评个级_

▶ 在线评级（免费 · 真实 LLM）