1. 多级需求和方案设想及其结论(项目根本)

如果某几个提取出来的关键词在原文中相连的, 则这几个关键词可以按原文合并为若干个新的关键词,关键词可以重复连续出现

正则搜索法: 

/(A|B|C|D|E|F){2,}/mg

  • 搜索结果:
    match1 ABCD
    Group1 D
    match2 DB
    Group1 B
    match3 EE
    Group1 E
    match4 CD
    Group1 D
    match5 BCD
    Group1 D

计数关键词含量

  • 对原文的所有关键词都加划分字符
        - 用于判断连续相连的关键词
        - 替换字符串: ’┣$&┫‘

降序排序

计数排序

  • 稳定性无要求
  • 量可能在10~1000这个数量级之间
  • 数值范围不大, 绝大多数都是个位大小, 且比较连续, 重复度高

sort排序✔

从最长的匹配项开始遍历

过滤: 如果该匹配项已经存在于最终结果中, 则跳过

如果组成的关键词>2的就求出所有关键词子串, 加入最终结果

可能结果已经有求出的子串了, 但无妨, 待导出结果时去重即可
组成的关键词为2就直接加入最终结
匹配关键词的正则:/┣([^┫┣]+)┫/g

2. 调研材料及结论(项目动力)

关键词组合

例如: 
原文: ABCDSDBGEESSESCDSBCD
关键词: A, B, C, D, E, F
可以组合成AB, ABC, ABCD, BC, BCD, CD, DB, EE

1. 调研代办(项目至始至终都要写):

3. 随想(未整理, 灵点子)

  • 穷举法: 
        - 把所有关键词全排列一遍
        - 遍历所有全排列
            - 尝试从原文中匹配此全排列的任意字串, 只要匹配到一次就行
  • 最终结果具有若干个最长序列, 其他结果都是这若干个最长序列的子序列
        - 如例子中的ABCD, DB, EE, CD
  • 用于关键词连接的文本应该包含用于提取关键词的材料

4. 项目结论(用以回顾项目以学习)

5. 项目代办(确定好方案后再写)

6.