摘要
getChunkSettings 从 globalSettings 读取 chunkSettings,并对 chunkLength、overlapLength 做上下界夹取。splitStrategy 支持 paragraph、sentence、char,影响 documentChunker 的分割行为。
关键词
chunk;overlap;paragraph
扩展阅读与维护提示
本篇围绕「段落截取:长度、重叠与策略枚举」组织材料。仓库内与主题最直接相关的检索词包括:chunk、overlap、paragraph。建议在阅读正文所列片段后,用 IDE 全局搜索这些符号,沿 import 与调用栈向上追问「谁在什么时机调用」,而不是只记住单文件路径。
摘要所概括的要点为:getChunkSettings 从 globalSettings 读取 chunkSettings,并对 chunkLength、overlapLength 做上下界夹取。splitStrategy 支持 paragraph、sentence、char,影响 documentChunker 的分割行为。落地到排障时,可把现象粗分为三类交叉验证:配置是否按预期写入持久化介质;WPS COM 上下文是否可用(例如是否缺少 ActiveDocument);以及网络与证书策略是否拦截了 fetch。本篇涉及的模块通常只覆盖其中一两类,需要与相邻篇目拼成完整拼图。
教程文件名「13-chunkSettings-fenduan-yu-zhongdie.md」仅用于导航与排序,不等价于源码模块名。若正文中的行号与本地分支不一致,多半因合并导致行偏移,此时应以函数名、导出名为锚重新检索;团队若维护了生成脚本,可在变更大段源码后重新运行以保持摘录大致对齐。
本文刻意避免对产品能力做营销式承诺:所述行为均以当前仓库可见实现为准。若组织策略要求离线或内网模型,应在网关、证书与代理层收口,而不是假设加载项能绕过浏览器安全模型。
若你同时阅读 docs/chayuan-llm-chain-series,可先对照其中的总体链路图理解「请求从 UI 到 chatApi」的次序,再回到本教程看数据结构、默认值与修改风险面;两者互补,不重复堆砌功能列表。
正文
1. 默认值与读取
未配置时返回 4000 字块长与 200 重叠的默认组合。
阅读源码摘录时,请把它当作「定位入口」而非完整实现:同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前,建议用最小文档手工走一遍相关助手或对话框,并观察任务清单与日志中的字段是否与预期一致,再决定是否做数据迁移或配置重置。
// src/utils/chunkSettings.js 第8-28行constDEFAULT_CHUNK_LENGTH=4000constDEFAULT_OVERLAP_LENGTH=200constMIN_CHUNK_LENGTH=500constMAX_CHUNK_LENGTH=16000constMIN_OVERLAP=0constMAX_OVERLAP_RATIO=0.5/** * 获取段落截取配置 * @returns {{ chunkLength: number, overlapLength: number, splitStrategy: string }} */exportfunctiongetChunkSettings(){constsettings=loadGlobalSettings()constraw=settings.chunkSettingsif(!raw||typeofraw!=='object'){return{chunkLength:DEFAULT_CHUNK_LENGTH,overlapLength:DEFAULT_OVERLAP_LENGTH,splitStrategy:'paragraph'}}2. 合法策略
非法值回退到 paragraph,避免持久化损坏导致运行期异常。
阅读源码摘录时,请把它当作「定位入口」而非完整实现:同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前,建议用最小文档手工走一遍相关助手或对话框,并观察任务清单与日志中的字段是否与预期一致,再决定是否做数据迁移或配置重置。
// src/utils/chunkSettings.js 第29-44行constchunkLength=clamp(parseInt(raw.chunkLength,10)||DEFAULT_CHUNK_LENGTH,MIN_CHUNK_LENGTH,MAX_CHUNK_LENGTH)constmaxOverlap=Math.floor(chunkLength*MAX_OVERLAP_RATIO)constoverlapLength=clamp(parseInt(raw.overlapLength,10)||DEFAULT_OVERLAP_LENGTH,MIN_OVERLAP,maxOverlap)constsplitStrategy=['paragraph','sentence','char'].includes(raw.splitStrategy)?raw.splitStrategy:'paragraph'return{chunkLength,overlapLength,splitStrategy}}