大家读完觉得有帮助记得关注和点赞!!!
摘要
本文提出 CyBOKClaw——一个可解释的人机协同检索框架,用于将网络安全关键词或短语(KWoPs, Keywords or Phrases)映射到网络安全知识体系(Cyber Security Body of Knowledge, 简称 CyBOK)。该框架不将该任务视为严格的精确分类问题,而是设计为一个供专家审查的 top-k 候选生成器。它融合了查询归一化、精心构建的术语扩展、概念级加权提升、主题描述语义增强,以及具有安全领域敏感性的排序规则。由于教育场景中的 KWoP 往往宽泛、模糊,且只与 CyBOK 术语实现近似对齐,严格的精确匹配只能部分反映其实际实用价值。因此,本文采用结构化检索指标与一种专家引导的 top-5 实用性指标 ECA-5(前5位精确或最近可接受匹配率)双重评估方式——ECA-5 记录返回的候选集中是否至少包含一个专家会判定为"精确"或"可接受的最近实际 CyBOK 归属"的映射。在开发数据集上,CyBOKClaw 达到 64.73% 的 EXA-5(前5位精确匹配率)、84.18% 的结构语义对齐度以及 91.88% 的 ECA-5;在验证数据集上,分别达到 81.19% EXA-5、93.32% 结构语义对齐度和 98.00% ECA-5。结果表明:专家引导的 top-k 实用性评估比单纯的精确结构匹配更忠实地刻画了 CyBOK 映射的实际效用,且 CyBOKClaw 作为一个面向 CyBOK 的专家辅助检索系统是有效的。
1 引言
网络安全知识体系(CyBOK) 通过知识领域(Knowledge Areas, KAs)、主题(Topics)和指示性材料(Indicative Material, IM) 提供了一个用于组织网络安全知识的结构化分类体系。随着网络安全教育在大学课程和专业培训场景中不断扩展,人们越来越需要将课程术语、讲座主题、学习成果和评估材料与 CyBOK 对齐的方法。这种对齐可以支撑课程设计、项目评审、教学大纲比对、教育知识组织和认证工作 [citation:5,9]。
然而在实践中,将自然语言形式的网络安全关键词或短语(KWoPs)映射到 CyBOK,几乎从来都不是一个简单的精确分类任务。许多 KWoP 宽泛、模糊、更像讲座标题,或者只与 CyBOK 术语近似对齐。在这些条件下,最有用的系统行为往往是返回一组高质量的候选映射供专家审查,而非强行给出一个单一精确映射。因此,严格元组级匹配只能提供对系统实际性能的部分描述。
本文提出 CyBOKClaw——一个用于将上述 KWoP 映射为 CyBOK 候选的人机协同检索框架。该框架被设计为 top-k 映射助手,结合了启发式查询归一化、精心构建的术语扩展、概念级加权提升、主题描述语义增强和领域敏感的排序规则,从而为人工审查浮现出语义上合理的 CyBOK 映射候选项。我们研究两个相关问题:第一,一个轻量的精心构建检索框架能否为课程映射提供有用的 top-k 个 CyBOK 候选;第二,专家引导的实用性指标是否能揭示出严格元组级指标所遗漏的实际价值。
在此场景下,仅靠精确结构指标不足以充分反映实际有用性。EXA-5(前5位精确匹配率)衡量的是元组级检索,而结构语义对齐度捕捉的是与参考映射之间的算法接近程度——两者都不直接回答返回候选集是否真正能帮专家完成映射任务。为弥合这一缺口,我们采用以专家判断为中心的评估方式,核心是 ECA-5(前5位精确或最近可接受匹配率),即记录返回的 top-5 中是否至少包含一个专家会判为"精确"或"接受为最近实际 CyBOK 归属"的候选。
实验结果显示结构匹配指标与专家引导的实用性之间存在显著差距。开发集上:EXA-5=64.73%、结构语义对齐=84.18%、ECA-5=91.88%;验证集上:EXA-5=81.19%、结构语义对齐=93.32%、ECA-5=98.00%。这些发现表明:仅凭精确元组级检索低估了对专家驱动的 CyBOK 映射的支持价值。
本工作的核心贡献在于:将课程映射在 CyBOK 语境下重新定义为一个人机协同的 top-k 检索问题;开发了一个与 CyBOK 知识树对齐的实用检索框架;引入了一套结构评估与专家引导评估相结合的评价方法论;并从经验上证明精确匹配指标在此场景下会大幅低估面向专家的实用价值。
2 主要贡献
本工作的主要贡献如下:
一个实用的 CyBOK 映射系统。 提出 CyBOKClaw——一个语义检索系统,将网络安全 KWoP 映射为 CyBOK 的知识领域(KA)、主题(Topic)和指示性材料(IM)候选。
CyBOK 映射的人机协同建模。 将 CyBOK 映射概念化为 top-k 候选生成任务,而非严格的精确分类问题,这反映了现实教育查询的模糊性、宽泛性和不完全对齐特征。
专家引导的评估框架。 定义并应用了一种候选级评估协议:参考映射充当语义锚点,同时允许专家对"最近可接受替代项"做出判断,并采用 ECA-5 作为具有实践意义的映射效用度量。
桥接结构与专家评估的经验证据。 通过双重评估表明:结构指标(EXA-5 和结构语义对齐度)与专家实用性捕捉的是系统质量的不同维度,且 CyBOKClaw 作为人机协同候选生成器的表现远强于将其当作严格精确分类器的表现。
3 相关工作
本工作处于分类体系映射、语义检索、课程对齐与人机协同评估的交叉点,聚焦于将网络安全课程对齐到 CyBOK 。虽然各领域分别已有大量研究,但在 CyBOK 教育映射语境下的整合处理仍相对未被充分探索。
3.1 分类体系与本体映射
已有大量工作研究将术语、实体或概念映射到结构化分类体系和本体 [citation:4,3],目标通常是识别跨知识系统间的语义对应关系,常以精确概念对齐、语义相似性或层级对应来表述 。
CyBOK 映射的关键差异在于:教育语境中产生的 KWoP 经常宽泛、像讲座标题、或与 CyBOK 术语仅近似对齐。因此任务往往不是检索一个单一等价概念,而是在结构化知识框架内找到一个或多个语义上可接受的归属位置。此时严格元组级对齐虽有价值但不够,需要能考量"专家可接受语义邻近度"的评估方式。
3.2 语义检索与 top-k 候选生成
本工作也与语义检索和 top-k 候选排序研究密切相关 :检索导向的系统往往目标不是产生单一精确答案,而是返回一个按相关性排序的候选集以支持下游解释或决策。查询扩展、启发式排序、语义增强和 top-k 生成都是当查询与目标间词面重叠有限时的成熟做法 。
这一视角对 CyBOK 映射尤为相关:CyBOKClaw 不是一次性分类器,而是为专家审查缩小语义搜索空间的检索助手,许多教育查询对应的是 CyBOK 内的主题族、部分概念或近似语义区域,而非单一无歧义的目标行。
3.3 人机协同与专家支持系统
在人机协同和专家支持决策系统中 [citation:6,19],系统质量不只由与金标准标签的精确一致决定,还取决于系统是否为用户提供了足够强、足够有信息量的选项来高效支撑专家判断——这在模糊性、部分语义重叠和语境依赖的领域尤其重要。
本文评估设计即由此驱动:不仅依赖精确结构匹配,还引入候选级专家判断来评估 top-k 中是否含有精确或最近可接受的语义映射,从而使评估更贴近"面向专家的决策支持",而非传统的单标签准确率报告。
3.4 课程对齐与教育知识映射
教育知识组织和课程对齐领域也有相关工作 :将教学内容映射到形式化框架常需要解释性判断而非直接的词面对应。教学大纲主题、模块标题、评估材料频繁表达的是宽泛的教学主题或抽象,无法干净地对应到分类体系的单一入口——CyBOK 映射也呈现同样特征(例如"安全概述"这类讲座标题对应概念族而非单一行)。
3.5 网络安全知识组织与 CyBOK 语境
CyBOK 为组织网络安全知识提供了全面的结构化参考模型 ,越来越多地用于课程设计、项目基准和教育对齐 ,但针对面向 CyBOK 的自动化/半自动化语义映射(尤其是从专家引导 top-k 检索角度)的研究仍相当有限。本研究的贡献不在于声称在分类映射或语义检索领域有广泛新颖性,而在于将成熟检索和人机协同原则应用于 CyBOK 特有的教育映射问题,并用专家引导的 top-k 实用性度量加以评估。
4 系统设计与实现
4.1 系统概览
如图1所示,CyBOKClaw 是一个实用语义检索框架,输入网络安全 KWoP,输出来自 CyBOK 知识树的按序排列的 KA/Topic/IM 候选列表。它面向人机协同使用:最高排名候选辅助专家判断和决策,而非充当一次性最终预测。
实现采用轻量但结构化的排序架构,核心组件包括:
组件 | 功能 |
|---|---|
查询归一化 | 小写化、去多余空白、分词、去停用词 |
精心构建的术语扩展 | 缩写展开、短语归一化、领域特定术语泛化 |
提示意图推断 | 判断查询属于哪类语义意图/语境 |
词汇短语匹配 + Token重叠评分 | 捕捉词面及部分匹配关系 |
概念级加权提升 | 强化已知高价值对应关系 |
主题描述语义增强 | 用别名和课程短语丰富候选行 |
特殊情形排序规则 | 处理需要领域敏感解读的术语 |
领域不匹配惩罚 | 抑制因表面词面重叠而虚高排名的不合理候选 |
最终得分由各信号组合为单一启发式分数,再经候选集多样化输出 top-k。
图1说明文字译述: CyBOKClaw 概览。网络安全关键词/短语先经归一化和语义增强,再通过启发式词面、语义和精心构建信号的联合作用,在扁平化的 CyBOK 知识树上排序,随后经多样化策略过滤产出 top-k 候选列表;可选的"解释模式"提供各分数分量和置信标签以辅助专家审查。
4.2 数据表示
核心 CyBOK 知识树 存为结构化 JSON:每个 KA 含若干 Topics,每个 Topic 含若干 IM 条目。运行时将该层级结构扁平化为由 (KA, Topic, IM) 组合定义的候选行,构成排序的搜索空间。
此外还依赖若干精心构建的辅助资源:短语到行的概念映射表、为主题行补充别名和课程短语的描述文件、归一化简写变体的术语扩展表、以及对需要领域敏感解读术语的特殊规则。
4.3 查询归一化与扩展
流水线第一步:小写化、合并且规整空白、分词、去停用词 → 产生适合排序的清洁词面表示。
随后施加术语扩展:缩写展开(如 SSL→Secure Sockets Layer)、短语归一化、领域特定术语泛化,以及对已知安全术语的概念增强。这对网络安全尤为关键——大量查询使用缩略语或安全特有表述而非 CyBOK 原文措辞。
4.4 查询分类与语境推断
因许多查询宽泛、教学化或语境依赖,排序前加入轻量查询分类阶段,判定查询应解释为:直接术语查找 / 概念定义 / 宽泛概述型 / 风险治理导向 / 密码学协议导向 / AI安全导向 / …,并提取语境线索(隐私、网络安全、密码学、软件安全、人为因素、风险管理、存储安全、形式化方法等)以偏置排序朝向语义合适的 CyBOK 区域。
4.5 核心排序模型
排序模型集成多种轻量评分分量而非依赖单一检索信号:
查询与候选条目间的直接和部分短语匹配
词面重叠评分(无精确匹配时捕捉词法关联)
基于意图和语境的加分项(推动进入语义合适的 CyBOK 区域)
概念映射表的精心构建加权提升
主题描述语义增强(提高对宽泛教学化查询的鲁棒性)
领域敏感特殊规则:对供应链概念、协议族、PKI 与证书管理、链路层攻击、AI 相关安全查询等做定向提升/抑制
4.6 主题族塑形与不匹配控制
关键设计:用领域不匹配惩罚压制那些因表面词面重叠而虚高排名但实际语义不合理的 CyBOK 条目(如过度漂移到泛化的"Web 化"、服务端误配条目、物理攻击或松散关联的 AI 中心主题)。这主要通过惩罚与推断查询领域不一致的主题族来实现——在协议导向、PKI 相关和基础设施密集型查询上效果尤为显著。
4.7 Top-k 多样化
排序后按分数降序排列,施加轻量多路化步骤,防止最终 top-k 被同一主题分组内的近重复行主导。这提升了返回候选集对专家审查的实际价值——在相关性和受控主题多样性之间取得平衡。
4.8 解释模式与置信报告
框架内置解释模式:报告每条候选的排名、数值分数、各分量得分以及整体置信标签(强 / 中 / 弱)。还提供查询级标注提示:top 候选是呈现强启发式对齐、还是仅中等/主题级对齐(而非行级对应)、或无强 CyBOK 匹配。这提高了透明度,降低将弱启发式结果误读为高置信精确映射的风险——契合人机协同和混合主动性原则:解释性支持旨在辅助而非替代专家判断 。
4.9 实现哲学
框架刻意采用精心构建的启发式架构,优势在于:可解释性、可调性、计算效率、可控性。代价是整体性能依赖构建层资源的广度和质量——评估表明定向精化扩展表、概念映射和主题描述可显著提升泛化,但也意味着持续维护负担。
4.10 运行范围
当前阶段,CyBOKClaw 作为一个强 top-k 候选生成器运行,支持:单关键词及课程风格查询映射、解释模式、层级浏览、批量映射、置信报告,并对供应链/协议/PKI/基础设施查询提供精心构建的概念支持。框架既可作为 OpenClaw 环境中的 Agent Skill 运行,也可通过独立 Python 实现运行。
5 评估方法论
5.1 概览
评估目的是考察 CyBOKClaw 对 KWoP 检索有用 CyBOK 映射的效果。鉴于输入的宽泛性和近似对齐特征,采用结构检索指标 + 专家引导语义判断双重评估。某些情况下系统可能未检索到精确参考元组,但仍返回专家实践中可接受的候选——因此需要两套互补评估:
评估维度 | 度量 | 问什么问题 |
|---|---|---|
结构评估 | EXA-5、结构语义对齐 | 精确/结构上距参考多远? |
专家引导评估 | ECA-5 | top-5 里有没有专家可接受的东西? |
5.2 评估语料
两批数据集:
表1:开发数据集(8个网络安全模块)
模块名称 | 机构 | # KWoP |
|---|---|---|
Security 101 [12] | 布里斯托大学(英) | 30 |
Introduction to Cybersecurity [10] | 哈佛大学(美) | 25 |
Applied Cyber Security [11] | 麻省理工学院(美) | 40 |
Security Principles [13] | 牛津大学(英) | 49 |
InfoSec Management/COMM037 [14] | 萨里大学(英) | 23 |
Fundamentals of Networks and Security | 德比大学 | 39 |
Ethical Hacking | 德比大学 | 40 |
Security Management | 德比大学 | 25 |
合计 | 271 |
表2:验证数据集(3个模块)
模块名称 | 机构 | # KWoP |
|---|---|---|
Communication and Security Protocols | 德比大学 | 47 |
Security Architectures and Future Trends | 德比大学 | 40 |
Artificial Intelligence for Security | 德比大学 | 13 |
合计 | 100 |
前5组参考映射由 CyBOK 项目组制作,其余开发集+全部验证集由本文作者制作。每个 KWoP 配一个人工 CyBOK 参考映射(指定 KA / Topic / IM)。
5.3 结构评估
EXA-5:对每个查询取 top-5 候选,看精确参考 (KA, Topic, IM) 元组是否落在其中——基于精确元组级匹配的严格精度评估。
结构语义对齐度:因精确元组匹配对宽泛/近似查询过严,额外计算结构语义对齐——评估返回候选集在 CyBOK 结构中是否与参考映射结构和语义对齐,比精确匹配宽松但仍是全算法而非专家主观判断 。
5.4 专家引导语义评估
候选级判断: 对每个查询的 top-5,结合原始查询语义意图和参考映射(作语义锚点),由熟悉课程映射和 CyBOK 结构的专家审阅,按预定义评分表给每条候选标为四档之一:
标签 | 含义 |
|---|---|
Exact(精确) | 与参考完全一致 |
Closest Acceptable(最近可接受) | 虽不精确但专家接受为最近实际归属 |
Relevant but not Closest(相关但非最近) | 语义相关但非最佳 |
Not Acceptable(不可接受) | 不合适 |
⚠️ 当前采用单专家流程,因此专家引导结果应理解为任务对齐的效用评估而非共识语义金标准。
处理部分指定参考映射: 参考中 Topic 或 IM 字段出现***是有意标注(非缺失数据):IM=***→ 主要在 KA+Topic 层级评估;Topic=***+IM=***→ 主要在 KA 层级;KA=***→ 谨慎处理,视为可能超出范围或无直接 CyBOK 锚点。这种粒度感知解读避免在不该施加元组精确性的地方强加精确性。
ECA-5: 只要 top-5 中至少一条标为 Exact 或 Closest Acceptable,即算成功。这契合 CyBOKClaw 的定位——top-k 候选生成器而非单标签精确匹配器。
5.5 为什么要用双重评估
三者各有分工:EXA-5 = 严格元组精度;结构语义对齐 = 分类体系内的算法邻近度;ECA-5 = 专家是否真能用。合在一起才能区分"靠精确匹配拿到的成绩"和"靠有效浮现语义可用候选拿到的成绩"。
5.6 迭代流程
以开发集为中心迭代:先跑基准 → 识别系统性失效模式 → 精化构建层和排序规则 → 重跑基准;然后用验证集做留出泛化评估;最后做专家标注和 ECA-5 计算。这样既支持渐进改进,又帮助理解结构指标与专家实用性在何处分化。
6 结果
6.1 概览
再次强调三个指标:
指标 | 含义 |
|---|---|
EXA-5 | top-5 中包含精确参考元组吗?(严格) |
结构语义对齐度 | 返回候选在 CyBOK 知识树中距参考多近?(算法) |
ECA-5 | top-5 中有专家判为精确或最近可接受的吗?(实用) |
典型的分化案例:某查询 EXA-5 失败(精确行不在 top-5),但因检索候选落在正确 CyBOK 区域而结构语义对齐分高;且专家认为其中之一就是"最近实际归属",于是 ECA-5 成功。
6.2 总体结果
表3:开发与验证集上的总体评估结果
拆分 | KWoP数 | EXA-5 | 结构语义对齐度 | ECA-5 |
|---|---|---|---|---|
开发集 | 271 | 64.73% | 84.18% | 91.88% |
验证集 | 100 | 81.19% | 93.32% | 98.00% |
清晰的模式:精确行级检索 < 结构语义对齐 < 专家引导 ECA-5。开发集上 ECA-5 超 EXA-5 达 27.15个百分点;验证集上差值为 16.81个百分点。实务上,即使精确参考行未被返回,框架通常仍能捞出至少一条专家认可的合适 CyBOK 归属。
6.3 数据集级结果
表4:数据集级评估结果
数据集 | KWoP | EXA-5 | 结构语义对齐 | ECA-5 |
|---|---|---|---|---|
Bristol | 30 | 60.00% | 78.33% | 90.00% |
Ethical Hacking | 40 | 76.19% | 86.90% | 95.00% |
Fundamentals of Networks & Security | 39 | 78.05% | 84.76% | 92.31% |
Harvard | 25 | 48.00% | 82.00% | 96.00% |
MIT | 40 | 60.00% | 87.50% | 87.50% |
Oxford | 49 | 59.18% | 83.16% | 91.84% |
Security Management | 25 | 76.00% | 88.00% | 92.00% |
Surrey | 23 | 52.17% | 80.43% | 91.30% |
——— 验证集 ——— | ||||
AI for Security | 13 | 53.85% | 86.54% | 92.31% |
Comm. & Security Protocols | 47 | 82.98% | 92.55% | 97.87% |
Sec. Architectures & Future Trends | 40 | 87.80% | 96.34% | 100.00% |
最鲜明的例子:Harvard 数据集 EXA-5 仅 48%,但 ECA-5 高达 96%——说明很多困难的教学风格查询虽抓不到精确行,但对专家审查仍高度可用。
6.4 结构—专家指标差距的解读
EXA-5 与 ECA-5 之间的显著差距不只是计分假象,而是揭示了:即便精确参考元组不在 top-5,很多输出在语义上对专家审查仍有价值。结构语义对齐从算法上部分反映这一现象(CyBOK 知识树中的邻近性),ECA-5 则更直接地通过专家可接受性捕获它。
从预期用途看,这恰恰是核心发现:CyBOKClaw 最有效的定位是专家辅助检索系统——缩小搜索空间、浮现语义合理的 CyBOK 候选、降低专家做最终映射决策的脑力与手工成本。
6.5 示例演析
成功案例: Oxford 数据集查询"Secure sockets layer"(安全套接层)。CyBOKClaw 返回的最高排名候选是:
Network Security → Network Protocols and Their Security → Security at the Transport Layer
专家标为 Closest Acceptable(非 Exact)。这个例子很有启发性:它凸显了"精确行级恢复"与"实际专家可用性"的区别——即使人工参考措辞不同或锚定在略微不同的粒度层级,框架仍在 top-5 内浮现出一个明确可辩护的 CyBOK 归属。
更难的情形: 像"Security Overview"这种宽泛的教学提示,或横跨多个 CyBOK 区域的架构型输入——框架可能正确定位到相关主题族/概念区但无法选出单一最优精确行。这类情况不成比例地拖累 EXA-5 却大体保留 ECA-5,解释了为何严格元组级恢复不完美时专家引导实用性仍居高。
7 讨论
实验结果说明:CyBOKClaw 作为语义候选生成框架,其实质性强于单纯用精确匹配视角所暗示的水平。ECA-5 在两个数据集上持续超越 EXA-5,意味着即使未能找回精确参考行,框架也频繁返回有用的候选映射。
开发集上差距尤大——这说明框架虽不一定总能定位到"唯一首选精确行",但可靠地从正确的语义区域捞出候选,至少浮现一条专家在实践中会接受的映射。对于人机协同 CyBOK 映射,这比单纯的元组相等更有意义。
数据集级结果进一步印证:Harvard、Oxford、Surrey 等宽泛/概念/教学取向的数据集在严格精确匹配下仍较棘手,但 ECA-5 很强——表明残差难点常在"从已定位的相关区域内挑出单一最优行"而非找对区域本身。相比之下,验证集表明当查询更局部锚定或更受结构约束时,框架可在三项指标上同时表现强劲。
7.1 局限性
启发式架构依赖构建资源质量:性能与术语扩展表、概念映射、主题描述、排序规则的覆盖面和质量密切相关;移植到其他分类体系/领域不能直接假设可泛化。
单专家流程:专家判断有解释主观性——本文用单专家+迭代一致性检查,非多人标注一致性研究,故 ECA-5 应读为任务对齐的效用度量而非完整评分者间信度研究。
缺乏与简单词面/嵌入检索基线的直接对比:结果主要证明其自身在任务和绝对意义上的实用性,而非终结性对比基准。
精确行级精度仍逊于 top-k 实用性:宽泛/架构密集/协议敏感查询仍产出近似而非完全精确输出。
基准数据集的范围局限:当前数据未涵盖实践中遇到的全部术语多样性、教学风格或课程形态。
7.2 未来工作
混合 LLM 辅助架构:用现有启发式框架生成有界的 top-k 候选池,再用 LLM 做第二阶段语义重排——保留效率/可解释性/可控性,同时改善宽泛、基础设施密集、缩略语密集或协议敏感查询的消歧能力。
四个方向并进:①提升已定位主题族内的精确行选择;②系统化扩充并规范化构建层以减少增量调参的临时补丁性质;③加入与简单词面和语义检索方法的直接基线对比;④实证比较纯启发式 vs. 启发式+LLM 混合变体,厘清语义灵活性、可解释性、可复现性与计算成本的权衡。
8 错误分析
剩余错误集中在少数反复出现的模式中:
最频繁失效模式:从 CyBOK 正确语义区域捞出了候选,但未锁定单一最佳精确行 → 导致标记为 Closest Acceptable 而非 Exact,构成 EXA-5↔ECA-5 残差差距的大部分。
宽泛教学风格查询:天然对应主题族而非单行,对严格精确匹配不公平地"罚分"但候选集语义仍合适。
基础设施/架构密集型查询(大规模网络、IoT 部署、云访问模型、企业架构):跨域特性使其难以定位到单个 CyBOK 条目。
协议与标准导向查询:层级和语境消歧困难——尤其在密码学含义、运维含义和基础设施含义交汇处。
精心构建的语义资源已有效缓解诸多此类问题,但性能对构建层的覆盖缺口仍敏感。综上,未来改进应聚焦:加强已正确主题族内的精确行选择、强化跨域和协议敏感概念的消歧、系统化扩充构建语义覆盖——强化 CyBOKClaw 作为渐进改进的专家辅助检索系统而非全自动分类器的定位。
9 结论
本文提出了 CyBOKClaw——一个将网络安全 KWoP 对齐到 CyBOK 的实用语义检索框架,明确定位为人机协同的 top-k 映射助手,呼应了现实教育查询的模糊性、宽泛性和教学化特征。实验显示结构指标与专家引导指标捕捉的是框架质量的不同(互补)维度:
开发集 | 验证集 | |
|---|---|---|
EXA-5 | 64.73% | 81.19% |
结构语义对齐 | 84.18% | 93.32% |
ECA-5 | 91.88% | 98.00% |
核心贡献在于:将面向课程的 CyBOK 映射重新表述为人机协同 top-k 检索问题,并配以结构评估+专家引导评估的组合方法论,更直接反映面向专家的效用。结论清晰——专家可接受的 top-k 检索比孤立的严格结构精确匹配更能提供实用且有信息量的 CyBOK 映射质量刻画。未来工作应聚焦:提升已正确主题族内的精确行级精度、扩展对协议和基础设施密集型概念的语义支持、以及实证评估结合启发式检索与语义消歧的有界混合重排架构。总体而言,结果支持将 CyBOKClaw 视为实用 CyBOK 映射助手,并强化了任务对齐的专家引导评估对理解和设计面向专家的映射系统的价值。