一种自动化选择合适关键词组合抽取文本的方法技术

技术编号：33447166 阅读：12 留言：0更新日期：2022-05-19 00:32

本发明专利技术公开了一种自动化选择合适关键词组合抽取文本的方法，包括如下步骤：S1、对原始文本进行数据预处理，得到高质量的切词结果，所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词；S2、选取候选关键词；S3、推荐关键词组合，基于原始文本中每条数据所包含的候选关键词，生成无序和有序的共现词组合集合，并以F1

全部详细技术资料下载

【技术实现步骤摘要】
一种自动化选择合适关键词组合抽取文本的方法

[0001]本专利技术涉及人工智能领域中的自然语言处理技术，具体为一种自动化选择合适关键词组合抽取文本的方法。

技术介绍

[0002]使用关键词及关键词组合搜索内容是一种常见的文本搜索方法。该方法的优点是搜索效率高，可以快速为用户提供搜索结果，但也对用户所选用的关键词及关键词组合有较高要求。能否找到合适的关键词及关键词组合进行文本搜索成了是否能抽出令用户满意的目标文本的关键所在。当所选择的关键词及词组质量较差时，搜索结果中将存在大量杂质，用户想得到目标文本还需对搜索结果进行进一步过滤，从而增大了用户的工作量。
[0003]目前，选择用于搜索文本的合适关键词及关键词组合主要依靠人工总结，然而，在一些任务中，文本数据量较大，所包含信息纷乱复杂。从中总结出能尽可能多地规避杂质，同时又能尽可能多的保留目标文本的关键词组合较为困难，需要耗费大量时间。并且，该劳动成果不可复用，在新的文本搜索任务中，又需要基于新的搜索目标重新总结关键词及关键词组合。因此，专利技术一种自动化选择用于搜索文本的合适关键词组合的方法，将能大大减少此类工作的人力投入和时间成本。

技术实现思路

[0004]为了解决上述技术问题，本专利技术提供了如下的技术方案：
[0005]本专利技术一种自动化选择合适关键词组合抽取文本的方法，包括如下步骤：
[0006]S1、对原始文本进行数据预处理，得到高质量的切词结果，所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词

【技术保护点】

【技术特征摘要】
1.一种自动化选择合适关键词组合抽取文本的方法，其特征在于，包括如下步骤：S1、对原始文本进行数据预处理，得到高质量的切词结果，所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词；S2、选取候选关键词，从S1中的切词结果中，选择出主题特征性较强的词作为候选关键词，具体步骤如下：S2.1、使用TF
‑
IDF算法，为原始文本中的每条数据所包含的词赋予基于其统计信息所计算得的权重；S2.2、基于原始文本训练LDA模型，使用训练好的LDA模型，计算原始文本中的每条数据所包含的词的主题突出度；S2.3、将各词基于TF
‑
IDF算法计算得到的权重和基于训练好的LDA模型计算得的主题突出度相加，得到二者之和，再考虑各词词性对二者之和进行修正，得到各词的最终权重；S2.4、将原始文本中每条数据所包含的词依照其权重从高到低排序，设置权重的最小阈值，并将权重大于所设阈值的词作为候选关键词；S3、推荐关键词组合，基于原始文本中每条数据所包含的候选关键词，生成无序和有序的共现词组合集合，并以F1
‑
score作为评价指标，从无序和有序的共现词组合集合中推荐出用于搜索目标文本的合适的关键词组合。2.根据权利要求1所述的一种自动化选择合适关键词组合抽取文本的方法，其特征在于，S1中的发现固定搭配短语具体步骤如下：S1.1、基于原始文本生成所有N元词串，计算各N元词串的左右熵和互信息，设置好左右熵和互信息的最小阈值，将左右熵和互信息的值均大于所设阈值的N元词串作为候选固定搭配短语；S1.2、对候选固定搭配短语去重，当两个候选固定搭配...

【专利技术属性】
技术研发人员：王栋平，李颜戎，杨学鑫，刘秀美，周晶，钱柏丞，
申请(专利权)人：南京烽火星空通信发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人