1. 多级需求和方案设想及其结论(项目根本)
如果某几个提取出来的关键词在原文中相连的, 则这几个关键词可以按原文合并为若干个新的关键词,关键词可以重复连续出现
正则搜索法:
/(A|B|C|D|E|F){2,}/mg
- 搜索结果:
match1 ABCD
Group1 D
match2 DB
Group1 B
match3 EE
Group1 E
match4 CD
Group1 D
match5 BCD
Group1 D
计数关键词含量
- 对原文的所有关键词都加划分字符
- 用于判断连续相连的关键词
- 替换字符串: ’┣$&┫‘
降序排序
计数排序
- 稳定性无要求
- 量可能在10~1000这个数量级之间
- 数值范围不大, 绝大多数都是个位大小, 且比较连续, 重复度高
sort排序✔
从最长的匹配项开始遍历
过滤: 如果该匹配项已经存在于最终结果中, 则跳过
如果组成的关键词>2的就求出所有关键词子串, 加入最终结果
可能结果已经有求出的子串了, 但无妨, 待导出结果时去重即可
组成的关键词为2就直接加入最终结
匹配关键词的正则:/┣([^┫┣]+)┫/g
2. 调研材料及结论(项目动力)
关键词组合
例如:
原文: ABCDSDBGEESSESCDSBCD
关键词: A, B, C, D, E, F
可以组合成AB, ABC, ABCD, BC, BCD, CD, DB, EE
1. 调研代办(项目至始至终都要写):
3. 随想(未整理, 灵点子)
- 穷举法:
- 把所有关键词全排列一遍
- 遍历所有全排列
- 尝试从原文中匹配此全排列的任意字串, 只要匹配到一次就行 - 最终结果具有若干个最长序列, 其他结果都是这若干个最长序列的子序列
- 如例子中的ABCD, DB, EE, CD - 用于关键词连接的文本应该包含用于提取关键词的材料