开源项目WPS AI插件察元AI文档助手:段落截取:长度、重叠与策略枚举
2026/7/1 17:16:42 网站建设 项目流程

摘要

getChunkSettings 从 globalSettings 读取 chunkSettings,并对 chunkLength、overlapLength 做上下界夹取。splitStrategy 支持 paragraph、sentence、char,影响 documentChunker 的分割行为。

关键词

chunk;overlap;paragraph

扩展阅读与维护提示

本篇围绕「段落截取:长度、重叠与策略枚举」组织材料。仓库内与主题最直接相关的检索词包括:chunk、overlap、paragraph。建议在阅读正文所列片段后,用 IDE 全局搜索这些符号,沿 import 与调用栈向上追问「谁在什么时机调用」,而不是只记住单文件路径。

摘要所概括的要点为:getChunkSettings 从 globalSettings 读取 chunkSettings,并对 chunkLength、overlapLength 做上下界夹取。splitStrategy 支持 paragraph、sentence、char,影响 documentChunker 的分割行为。落地到排障时,可把现象粗分为三类交叉验证:配置是否按预期写入持久化介质;WPS COM 上下文是否可用(例如是否缺少 ActiveDocument);以及网络与证书策略是否拦截了 fetch。本篇涉及的模块通常只覆盖其中一两类,需要与相邻篇目拼成完整拼图。

教程文件名「13-chunkSettings-fenduan-yu-zhongdie.md」仅用于导航与排序,不等价于源码模块名。若正文中的行号与本地分支不一致,多半因合并导致行偏移,此时应以函数名、导出名为锚重新检索;团队若维护了生成脚本,可在变更大段源码后重新运行以保持摘录大致对齐。

本文刻意避免对产品能力做营销式承诺:所述行为均以当前仓库可见实现为准。若组织策略要求离线或内网模型,应在网关、证书与代理层收口,而不是假设加载项能绕过浏览器安全模型。

若你同时阅读 docs/chayuan-llm-chain-series,可先对照其中的总体链路图理解「请求从 UI 到 chatApi」的次序,再回到本教程看数据结构、默认值与修改风险面;两者互补,不重复堆砌功能列表。

正文

1. 默认值与读取

未配置时返回 4000 字块长与 200 重叠的默认组合。

阅读源码摘录时,请把它当作「定位入口」而非完整实现:同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前,建议用最小文档手工走一遍相关助手或对话框,并观察任务清单与日志中的字段是否与预期一致,再决定是否做数据迁移或配置重置。

// src/utils/chunkSettings.js 第8-28行constDEFAULT_CHUNK_LENGTH=4000constDEFAULT_OVERLAP_LENGTH=200constMIN_CHUNK_LENGTH=500constMAX_CHUNK_LENGTH=16000constMIN_OVERLAP=0constMAX_OVERLAP_RATIO=0.5/** * 获取段落截取配置 * @returns {{ chunkLength: number, overlapLength: number, splitStrategy: string }} */exportfunctiongetChunkSettings(){constsettings=loadGlobalSettings()constraw=settings.chunkSettingsif(!raw||typeofraw!=='object'){return{chunkLength:DEFAULT_CHUNK_LENGTH,overlapLength:DEFAULT_OVERLAP_LENGTH,splitStrategy:'paragraph'}}

2. 合法策略

非法值回退到 paragraph,避免持久化损坏导致运行期异常。

阅读源码摘录时,请把它当作「定位入口」而非完整实现:同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前,建议用最小文档手工走一遍相关助手或对话框,并观察任务清单与日志中的字段是否与预期一致,再决定是否做数据迁移或配置重置。

// src/utils/chunkSettings.js 第29-44行constchunkLength=clamp(parseInt(raw.chunkLength,10)||DEFAULT_CHUNK_LENGTH,MIN_CHUNK_LENGTH,MAX_CHUNK_LENGTH)constmaxOverlap=Math.floor(chunkLength*MAX_OVERLAP_RATIO)constoverlapLength=clamp(parseInt(raw.overlapLength,10)||DEFAULT_OVERLAP_LENGTH,MIN_OVERLAP,maxOverlap)constsplitStrategy=['paragraph','sentence','char'].includes(raw.splitStrategy)?raw.splitStrategy:'paragraph'return{chunkLength,overlapLength,splitStrategy}}

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询