一种自动化选择合适关键词组合抽取文本的方法技术

技术编号:33447166 阅读:12 留言:0更新日期:2022-05-19 00:32
本发明专利技术公开了一种自动化选择合适关键词组合抽取文本的方法,包括如下步骤:S1、对原始文本进行数据预处理,得到高质量的切词结果,所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词;S2、选取候选关键词;S3、推荐关键词组合,基于原始文本中每条数据所包含的候选关键词,生成无序和有序的共现词组合集合,并以F1

【技术实现步骤摘要】
一种自动化选择合适关键词组合抽取文本的方法


[0001]本专利技术涉及人工智能领域中的自然语言处理技术,具体为一种自动化选择合适关键词组合抽取文本的方法。

技术介绍

[0002]使用关键词及关键词组合搜索内容是一种常见的文本搜索方法。该方法的优点是搜索效率高,可以快速为用户提供搜索结果,但也对用户所选用的关键词及关键词组合有较高要求。能否找到合适的关键词及关键词组合进行文本搜索成了是否能抽出令用户满意的目标文本的关键所在。当所选择的关键词及词组质量较差时,搜索结果中将存在大量杂质,用户想得到目标文本还需对搜索结果进行进一步过滤,从而增大了用户的工作量。
[0003]目前,选择用于搜索文本的合适关键词及关键词组合主要依靠人工总结,然而,在一些任务中,文本数据量较大,所包含信息纷乱复杂。从中总结出能尽可能多地规避杂质,同时又能尽可能多的保留目标文本的关键词组合较为困难,需要耗费大量时间。并且,该劳动成果不可复用,在新的文本搜索任务中,又需要基于新的搜索目标重新总结关键词及关键词组合。因此,专利技术一种自动化选择用于搜索文本的合适关键词组合的方法,将能大大减少此类工作的人力投入和时间成本。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0005]本专利技术一种自动化选择合适关键词组合抽取文本的方法,包括如下步骤:
[0006]S1、对原始文本进行数据预处理,得到高质量的切词结果,所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词
[0007]S2、选取候选关键词,从S1中的切词结果中,选择出主题特征性较强的词作为候选关键词,具体步骤如下:
[0008]S2.1、使用TF

IDF算法,为原始文本中的每条数据所包含的词赋予基于其统计信息所计算得的权重;
[0009]S2.2、基于原始文本训练LDA模型,使用训练好的LDA模型,计算原始文本中的每条数据所包含的词的主题突出度;
[0010]S2.3、将各词基于TF

IDF算法计算得到的权重和基于训练好的LDA模型计算得的主题突出度相加,得到二者之和,再考虑各词词性对二者之和进行修正,得到各词的最终权重;
[0011]S2.4、将原始文本中每条数据所包含的词依照其权重从高到低排序,设置权重的最小阈值,并将权重大于所设阈值的词作为候选关键词;
[0012]S3、推荐关键词组合,基于原始文本中每条数据所包含的候选关键词,生成无序和有序的共现词组合集合,并以F1

score作为评价指标,从无序和有序的共现词组合集合中推荐出用于搜索目标文本的合适的关键词组合。
[0013]作为本专利技术的一种优选技术方案,S1中的发现固定搭配短语具体步骤如下:
[0014]S1.1、基于原始文本生成所有N元词串,计算各N元词串的左右熵和互信息,设置好左右熵和互信息的最小阈值,将左右熵和互信息的值均大于所设阈值的N元词串作为候选固定搭配短语;
[0015]S1.2、对候选固定搭配短语去重,当两个候选固定搭配短语属于包含关系时,保留长度较长的候选固定搭配短语,而删掉长度较短的;
[0016]S1.3、基于词性对候选固定搭配短语进行进一步过滤。
[0017]作为本专利技术的一种优选技术方案,S1中的对原始文本进行切词以及过滤停用词,是将得到的固定搭配短语添加至用户词典,使用pkuseg切词工具对原始文本切词,得到切词结果,之后通过搜集常见停用词补充至停用词词典,基于停用词词典对切词结果进行进一步过滤。
[0018]作为本专利技术的一种优选技术方案,S3的具体步骤如下:
[0019]S3.1、基于原始文本中每条数据所包含的候选关键词,生成遍历长度为1到N的无序和有序的共现词组合集合;
[0020]S3.2、从原始文本中抽出部分数据进行打标,将属于目标文本的数据打标为正样本,不属于目标文本的数据打标为负样本;
[0021]S3.3、用各个无序和有序的共现词组合对打标文本进行搜索,基于搜索结果计算各组合的F1

score,设置好F1

score的最小阈值,将F1

score值大于所设阈值的共现词组合作为中间结果;
[0022]S3.4、对中间结果去重,当中间结果中,存在所包含词完全相同的无序共现词组合和有序共现词组合时,保留F1

score值较大的共现词组合,删掉F1

score值较小的;当二者F1

score值相同时,保留无序共现词组合,删掉有序共现词组合,最终得到的所有共现词组合集合,即为所选择出的用于搜索目标文本的合适的关键词组合。
[0023]本专利技术的有益效果是:
[0024]1、本专利技术所选择出的关键词组合与人工选择出的关键词组合相比,质量更优且内容更完整,有效避免人工选择用于搜索目标文本的关键词组合时,考虑到人力成本和时间成本,一般会遵循“满意原则”,选出搜索效果较为满意的关键词组合即可,而不会穷尽所有组合去从中选出最优解的情况出现,能够使穷尽所有组合去从中选出最优解成为可能,从而可使选出的关键词组合结果具有质量更优、内容更完整的特点。
[0025]2、本专利技术通过完善代码逻辑、使用多线程运行等方法保证代码效率,使该技术方案所需耗费的时间相对较少,从而减轻其所需耗费的时间成本。
附图说明
[0026]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0027]图1是本专利技术自动化选择用于抽取文本的合适关键词组合整体流程图。
具体实施方式
[0028]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实
施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0029]实施例1
[0030]如图1所示,本专利技术一种自动化选择合适关键词组合抽取文本的方法,包括如下步骤:
[0031]S1、对原始文本进行数据预处理,得到高质量的切词结果,所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词;
[0032]S2、选取候选关键词,从S1中的切词结果中,选择出主题特征性较强的词作为候选关键词,具体步骤如下:
[0033]S2.1、使用TF

IDF算法(TF

IDF是现有技术中一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,算法简单高效,本技术方案在此不做赘述),为原始文本中的每条数据所包含的词赋予基于其统计信息所计算得的权重;
[0034]S2.2、基于原始文本训练LDA模型,使用训练好的LDA模型,计算原始文本中的每条数据所包含的词的主题突出度;
[0035]S2.3、将各词基于TF...

【技术保护点】

【技术特征摘要】
1.一种自动化选择合适关键词组合抽取文本的方法,其特征在于,包括如下步骤:S1、对原始文本进行数据预处理,得到高质量的切词结果,所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词;S2、选取候选关键词,从S1中的切词结果中,选择出主题特征性较强的词作为候选关键词,具体步骤如下:S2.1、使用TF

IDF算法,为原始文本中的每条数据所包含的词赋予基于其统计信息所计算得的权重;S2.2、基于原始文本训练LDA模型,使用训练好的LDA模型,计算原始文本中的每条数据所包含的词的主题突出度;S2.3、将各词基于TF

IDF算法计算得到的权重和基于训练好的LDA模型计算得的主题突出度相加,得到二者之和,再考虑各词词性对二者之和进行修正,得到各词的最终权重;S2.4、将原始文本中每条数据所包含的词依照其权重从高到低排序,设置权重的最小阈值,并将权重大于所设阈值的词作为候选关键词;S3、推荐关键词组合,基于原始文本中每条数据所包含的候选关键词,生成无序和有序的共现词组合集合,并以F1

score作为评价指标,从无序和有序的共现词组合集合中推荐出用于搜索目标文本的合适的关键词组合。2.根据权利要求1所述的一种自动化选择合适关键词组合抽取文本的方法,其特征在于,S1中的发现固定搭配短语具体步骤如下:S1.1、基于原始文本生成所有N元词串,计算各N元词串的左右熵和互信息,设置好左右熵和互信息的最小阈值,将左右熵和互信息的值均大于所设阈值的N元词串作为候选固定搭配短语;S1.2、对候选固定搭配短语去重,当两个候选固定搭配...

【专利技术属性】
技术研发人员:王栋平李颜戎杨学鑫刘秀美周晶钱柏丞
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1