SkillOps / SMS 标准
SMS v1.0

技能管理标准体系_

SMS · Skill Management Standard · openclaw-skill-ops

市面上的 skill / GPT / prompt 库都没有一套标准——没人说得清"一个 Skill 应该长什么样、怎么分类、怎么评好坏"。SMS 是第一套 AI Skill 的管理标准:它是小能的"操作系统",定义了 分类、评估、Skill Card 三件事,让 skill 从"散落的提示词"变成"可管理、可评级、可规模化的资产"。

01三维分类体系

每个 Skill 用三个维度定位:它是什么能力(类型)、成熟到哪一级(成熟度)、在系统里扮演什么角色(角色层)。

维度一 · 12 类能力类型
01
理解
UNDERSTAND
02
获取
ACQUIRE
03
结构化
STRUCTURE
04
分析
ANALYZE
05
判断
JUDGE
06
设计
DESIGN
07
执行
EXECUTE
08
生成
GENERATE
09
交互
INTERACT
10
协同
COLLABORATE
11
评估
EVALUATE
12
进化
EVOLVE
维度二 · 5 级成熟度(L1 → L5)
L5
资产级
标准化、版本化、可商业化的长期资产,能被 agent 系统长期依赖。
L4
系统级
可与其他 skill 组合、可被 agent 编排、可评估回归。
L3
技能级
完整 SKILL.md:触发词、步骤、输出格式、质量标准齐全。
L2
模板级
结构化、可复用的模板,有固定的输入输出。
L1
提示词级
一段 prompt——能用,但临时、脆弱、难复用。
注:L1 提示词级与 L5 资产级为标准定义的两端;L2–L4 名称为当前呈现版本,以 SMS v1.0 标准原文为准。
维度三 · 3 层系统角色
META
元层

管理其他 skill 的 skill——审计、扫描、编排。如小能的 skill-audit。

PROFESSIONAL
专业层

领域专家能力——方法论、分析、判断。如 innolab、郑刚工具包。

DELIVERY
交付层

直接产出交付物——写作、设计、PPT、生成。

02Skill Card · 标准模板

每个 Skill 都有一张标准化的"身份卡"——15 个字段,其中 parent_agent(归属 Agent)必填,保证每个 skill 都能追溯到它服务的 agent。

# Skill Card · SMS v1.0 id: jtbd-interview-analyzer name: JTBD 用户访谈分析器 parent_agent: innolab # ← 必填 capability_type: 分析 # 12 类之一 maturity: L3 # L1–L5 system_role: 专业层 # 元/专业/交付 triggers: [分析这份访谈, JTBD 拆解] inputs / outputs / dependencies sms_score: 33 · tier: B 段 # … 共 15 字段(完整字段定义见标准原文)
注:以上为代表性字段;完整 15 字段的逐项定义以 SMS v1.0 标准原文为准。

03技能评级 · 10 维评估雷达

SMS 的评估工具是「技能评级」——10 维评估雷达,每维 0–5 分,总分 50。引擎按 4 个支柱组织这 10 维(便于理解):

支柱 I · 可理解

能不能搞懂、知道何时用

清晰度可调用性
支柱 II · 可执行

能不能真把活干好、且稳定

可执行性输出稳定性结果质量
支柱 III · 可工程

能不能进更大的 agent 系统

复用性组合性可评估性
支柱 IV · 可信赖与价值

敢不敢用、值不值得

安全性商业价值
0–5 锚点标尺(每维统一)

0 缺失 · 1 雏形 · 2 基础 · 3 合格(公开门槛)· 4 良好 · 5 卓越(标杆)。锚点把"凭感觉打分"变成"对号入座"。

04段位 · S / A / B / C / D

50 分映射到段位。对外更强调段位而非具体分数——段位才是可决策的信号。

段位
分数
含义
S 段
43–50
核心资产 · 旗舰级,可主推、可商业化
A 段
38–42
稳定可用 · 可对外公开、可放心调用
B 段
32–37
公开门槛 · 达到发布线,仍在打磨
C 段
25–31
概念 · 雏形阶段,建议继续完善
D 段
< 25
待重写 · 信息不足或未成熟
注:S 段为小能在标准 A/B/C/D 之上为旗舰资产增设的最高档(SMS v1.0 原版为 A/B/C/D 四级)。

05小能 = 执行这套标准的 9 个子技能

SMS 是标准,小能(Ace)是执行它的工具集——9 个子技能,把 skill 从入库、评级、组合,到培训、绩效、退役的全生命周期自动化。

子技能
干什么
触发词
skill-card-gen
卡片生成——通过访谈生成标准 Skill Card
"造一个 XX 技能"
skill-forge
技能锻造——六阶段造新技能(意图捕获 → 写 SKILL.md → 参考文件 → 质量检查 → 测试 → 迭代)
"造技能"
skill-audit
技能审计——10 维评级 + 质量报告
"审计一下 XX"
skill-registry-scan
注册扫描——扫描全量 Skill 并分类登记
"扫描一下技能库"
skill-graph
技能图谱——维护 Skill 间的依赖 / 组合关系
"技能关系"
agent-capability-map
能力地图——按 Agent 分组盘点 Skill 组合
"团队能力盘点"
skill-coachNEW
技能培训——读评级、定位最弱维度、重写 SKILL.md 提分到目标段位
"帮 XX 提分到 A"
skill-metricsNEW
技能绩效——调用量 / 分数趋势 / 退化预警,红黄绿持续监控
"哪些技能在退化"
skill-retireNEW
技能退役——识别该下线的 skill,查依赖、给迁移指引,可逆归档
"哪些技能该下线"

9 子技能 × 8 个 HR 模块

把每个 skill 当员工管:从招聘到退役,一个完整的 HR 生命周期分成 8 个模块,每个模块由对应子技能执行。分发是平台原生能力(registry + API),不需要单独的 skill。

HR 模块
做什么
执行子技能
M·01 招聘
新 skill 入库
skill-card-gen · skill-forge
M·02 评估
10 维评级定段位
skill-audit
M·03 管理
编目 + 依赖/组合关系
skill-registry-scan · skill-graph
M·04 分发
上架 / 公开私有 / 被 agent 调用
平台原生(registry + API)
M·05 培训
把不够分的 skill 带上一档
skill-coach
M·06 绩效
持续监控、退化预警
skill-metrics
M·07 项目评估
按 agent / 项目盘点能力组合
agent-capability-map
M·08 退役
下线、合并、可逆归档
skill-retire

闭环:招聘 → 评估 → 管理 → 分发 → 培训 → 绩效 → 项目评估 → 退役 → 回到招聘。skill-metrics 发现退化 → skill-coach 提分;提分无效且低价值 → skill-retire 下线。这就是"管理"。

06审计基线

小能用 SMS 跑了两层审计:一层是 openclaw 全库扫描,一层是已公开上架的精选目录。后者就是 /demo/registry 实时展示的同一批 skill:

全库审计 · openclaw 全部 skill(含未发布)
52
个 Skill 全量扫描
28.2
平均分 / 50
B
平均段位
已发布目录 · 公开上架精选 = demo / registry
25
个已发布 Skill
35.2
平均分 / 50
B
平均段位

段位分布 · S 2 · A 12 · B 5 · C 1 · D 5 —— 发布门槛把均分从 28.2 抬到 35.2,这正是"管理"在做的事。

诚实声明:SMS 是一套标准 + 引擎估算 + 人工校准,不是绝对真理。评级由 LLM 引擎按上面的 10 维 / 0–5 锚点逐维评估,S 段核心资产额外人工复核;标准版本化迭代(当前 v1.0),分类、字段、rubric 公开可质疑。把它当"可决策的参考坐标",不是"裁决"。完整方法可见 openclaw-skill-ops

用 SMS 给你的 skill 评个级_

▶ 在线评级(免费 · 真实 LLM)