一种文章关键词筛选类别的方法、装置、设备及存储介质制造方法及图纸

技术编号:36118615 阅读:23 留言:0更新日期:2022-12-28 14:23
本发明专利技术涉及智能决策技术,揭露了一种文章关键词筛选类别的方法,包括:获取待分类文本,对所述待分类文本进行预处理,得到目标文本;识别所述目标文本的文本分类因素,查询所述文本分类因素中每个分类因素的文本数据,对所述文本数据进行分词处理,得到文本词语;提取所述文本词语的文本关键词,计算所述文本关键词在所述文本分类因素中的归属度,并计算所述文本关键词在所述目标文本中的权重;根据所述归属度和所述权重计算出所述文本关键词的支持度,选取所述支持度符合预设条件的文本关键词作为目标关键词,并识别所述目标关键词的词语类别,将所述词语类别作为所述待分类文本的文本类别。本发明专利技术在于提高文章关键词分类的准确性。性。性。

【技术实现步骤摘要】
一种文章关键词筛选类别的方法、装置、设备及存储介质


[0001]本专利技术涉及智能决策
,尤其涉及一种文章关键词筛选类别的方法、装置、设备及存储介质。

技术介绍

[0002]我们已经进入了大数据时代,各行各业都需要处理大量的数据,如新闻方面,当前的新闻数据和研报数据,数据量非常大,需按照业务给的匹配规则筛选和分类才能得到想要的数据。当接收一条新闻或者研报数据后,需要根据标题匹配关键词确定该条数据是否是所需要的数据,并按照关键词关联的分类标签确定分类,当前采用字符串匹配的方式筛选文章并确定文章分类的方法,该方法只考虑了标题,未考虑文章的摘要和正文部分的内容,导致分类结果不准确,因此,目前急需一种能够提高文章分类准确性的方法。

技术实现思路

[0003]本专利技术提供一种文章关键词筛选类别的方法、装置、设备及存储介质,其主要目的在于提高文章关键词分类的准确性。
[0004]为实现上述目的,本专利技术提供的一种文章关键词筛选类别的方法,包括:
[0005]获取待分类文本,对所述待分类文本进行预处理,得到目标文本;
[0006]识别所述目标文本的文本分类因素,查询所述文本分类因素中每个分类因素的文本数据,对所述文本数据进行分词处理,得到文本词语;
[0007]提取所述文本词语的文本关键词,计算所述文本关键词在所述文本分类因素中的归属度,并计算所述文本关键词在所述目标文本中的权重;
[0008]根据所述归属度和所述权重计算出所述文本关键词的支持度,选取所述支持度符合预设条件的文本关键词作为目标关键词,并识别所述目标关键词的词语类别,将所述词语类别作为所述待分类文本的文本类别。
[0009]可选地,所述对所述待分类文本进行预处理,得到目标文本,包括:
[0010]识别所述待分类文本中的非文本内容;
[0011]若所述待分类文本中无所述非文本内容,则对所述待分类文本进行转化,得到目标文本;
[0012]若所述待分类文本中有所述非文本内容,则识别所述非文本内容文本区域;
[0013]对所述文本区域进行字符提取,得到字符序列;
[0014]将所述字符序列转换成字符文本,结合所述字符文本与所述待分类文本,得到目标文本。
[0015]可选地,所述对所述文本数据进行分词处理,得到文本词语,包括:
[0016]对所述文本数据进行去重处理,得到去重文本;
[0017]对所述去重文本进行过滤处理,得到过滤文本;
[0018]按照预设的词语对照表对所述过滤文本进行标注,得到标注文本;
[0019]对所述标注数据进行分词处理,得到文本词语。
[0020]可选地,所述提取所述文本词语的文本关键词,包括:
[0021]对所述文本数据进行语义分析,得到文本语义;
[0022]对所述文本词语进行语义分析,得到词语语义;
[0023]计算所述文本语义与所述词语语义的匹配度;
[0024]在所述匹配度大于预设值时,将所述匹配度对应的所述文本词语作为所述文本数据的文本关键词,并提取所述文本关键词。
[0025]可选地,所述计算所述文本关键词在所述文本分类因素中的归属度,包括:
[0026]计算所述文本关键词在所述文本分类因素中的权重值;
[0027]获取所述文本关键词在所述文本分类因素中出现的频次;
[0028]根据所述权重值和所述频次计算所述文本关键词在所述文本分类因素中的归属度。
[0029]可选地,所述并计算所述文本关键词在所述目标文本中的权重,包括:
[0030]计算所述文本关键词在所述目标文本中的词频;
[0031]计算所述文本关键词在所述目标文本中的逆向文件频率;
[0032]根据所述频率和所述逆向文件频率计算出所述文本关键词的权重。
[0033]可选地,所述根据所述归属度和所述权重计算出所述文本关键词的支持度,包括:
[0034]计算所述文本关键词在所述文本分类因素中的所占分值,将所述所占分值相加求和,得到所述文本关键词的匹配得分,将所述匹配得分转化成数值,将所述数值与所述归属度和所述权重分别相乘并求和,得到所述文本关键词的支持度。
[0035]为了解决上述问题,本专利技术还提供一种文章关键词筛选类别装置,所述装置包括:
[0036]文本处理模块,用于获取待分类文本,对所述待分类文本进行预处理,得到目标文本;
[0037]文本分词模块,用于识别所述目标文本的文本分类因素,查询所述文本分类因素中每个分类因素的文本数据,对所述文本数据进行分词处理,得到文本词语;
[0038]权重计算模块,用于提取所述文本词语的文本关键词,计算所述文本关键词在所述文本分类因素中的归属度,并计算所述文本关键词在所述目标文本中的权重;
[0039]文本分类模块,用于根据所述归属度和所述权重计算出所述文本关键词的支持度,选取所述支持度符合预设条件的文本关键词作为目标关键词,并识别所述目标关键词的词语类别,将所述词语类别作为所述待分类文本的文本类别。
[0040]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0041]至少一个处理器;以及,
[0042]与所述至少一个处理器通信连接的存储器;其中,
[0043]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的文章关键词筛选类别的方法。
[0044]为了解决上述问题,本专利技术还提供一种存储介质,所述存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文章关键词筛选类别的方法。
[0045]本专利技术实施例通过获取待分类文本,对所述待分类文本进行预处理,可以得到目标文本,可以将所述分类文本中的内容全部转化成文本形式,为后续对所述目标文本进行处理提供了便利性,其中,本专利技术实施例通过对所述目标文本的文本分类因素进行识别,从而查询到所述文本分类因素中每个分类因素的文本数据,为后续对文本数据的处理提供了保障;此外,本专利技术通过提取所述文本词语的文本关键词,可以将所述文本词语中不重要的词语去除,降低了后续对所述文本关键词计算难度,本专利技术实施例通过根据所述归属度和所述权重计算出所述文本关键词的支持度,为后续的所述待分类文本的分类提供了保障。因此,本专利技术实施例提供的一种文章关键词筛选类别的方法、装置、设备及存储介质,能够在于在于提高文章关键词分类的准确性。
附图说明
[0046]图1为本专利技术一实施例提供的文章关键词筛选类别的方法的流程示意图;
[0047]图2为本专利技术一实施例提供的文章关键词筛选类别的装置的功能模块图;
[0048]图3为本专利技术一实施例提供的实现所述文章关键词筛选类别的方法的电子设备的结构示意图。
[0049]本专利技术目的的实现、功能特点及优点将结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文章关键词筛选类别的方法,其特征在于,所述方法包括:获取待分类文本,对所述待分类文本进行预处理,得到目标文本;识别所述目标文本的文本分类因素,查询所述文本分类因素中每个分类因素的文本数据,对所述文本数据进行分词处理,得到文本词语;提取所述文本词语的文本关键词,计算所述文本关键词在所述文本分类因素中的归属度,并计算所述文本关键词在所述目标文本中的权重;根据所述归属度和所述权重计算出所述文本关键词的支持度,选取所述支持度符合预设条件的文本关键词作为目标关键词,并识别所述目标关键词的词语类别,将所述词语类别作为所述待分类文本的文本类别。2.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述对所述待分类文本进行预处理,得到目标文本,包括:识别所述待分类文本中的非文本内容;若所述待分类文本中无所述非文本内容,则对所述待分类文本进行转化,得到目标文本;若所述待分类文本中有所述非文本内容,则识别所述非文本内容文本区域;对所述文本区域进行字符提取,得到字符序列;将所述字符序列转换成字符文本,结合所述字符文本与所述待分类文本,得到目标文本。3.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述对所述文本数据进行分词处理,得到文本词语,包括:对所述文本数据进行去重处理,得到去重文本;对所述去重文本进行过滤处理,得到过滤文本;按照预设的词语对照表对所述过滤文本进行标注,得到标注文本;对所述标注数据进行分词处理,得到文本词语。4.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述提取所述文本词语的文本关键词,包括:对所述文本数据进行语义分析,得到文本语义;对所述文本词语进行语义分析,得到词语语义;计算所述文本语义与所述词语语义的匹配度;在所述匹配度大于预设值时,将所述匹配度对应的所述文本词语作为所述文本数据的文本关键词,并提取所述文本关键词。5.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述计算所述文本关键词在所述文本分类因素中的归属度,包括:计算所述文本关键词在所述文本分类因素中的权重值;获取所述文本关键词在所述...

【专利技术属性】
技术研发人员:刘伟光张瑞熊一龙
申请(专利权)人:招商局金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1