领域特征关键词的处理方法及相关装置制造方法及图纸

技术编号:29060333 阅读:11 留言:0更新日期:2021-06-30 09:02
本发明专利技术提供的一种领域特征关键词的处理方法及相关装置,所述方法首先获得本类文本语料以及对照类文本语料;所述本类文本语料为包含领域特征关键词的待处理的文本语料,所述对照类文本语料为不包含领域特征关键词的文本语料;然后将所述文本语料处理为长词集,获得所述长词集中每一个长词的文本特征;最终利用所述文本特征确定长词集中的领域特征关键词。由于本发明专利技术可以利用本类文本语料的文本特征综合了多种影响领域关键词准确度的因素,且对照类文本语料可以对本类文本语料中的领域关键词进行筛选,因此,大大提高了提取领域特征关键词的准确性,降低了后续工作的工作量。降低了后续工作的工作量。降低了后续工作的工作量。

【技术实现步骤摘要】
领域特征关键词的处理方法及相关装置


[0001]本专利技术涉及数据处理
,具体而言,涉及一种领域特征关键词的处理方法及相关装置。

技术介绍

[0002]通过查找文本数据中是否含有相关关键词特征,来判断该文本数据的所属特征,是信息检索、数据归纳分析、数据审计等领域常用方法。
[0003]表达领域特征的关键词,通常为该领域特有词汇,不同领域之间,关键词应该不同。采用普通的关键词提取方式无法准确提取出准确的领域特征关键词,导致采用该领域特征关键词进行例如信息检索、数据归纳分析、数据审计等后续工作的工作量增多。
[0004]因此,现有技术中缺少一种可以准确提取领域特征关键词的技术方案,来降低后续工作的工作量。

技术实现思路

[0005]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种领域特征关键词的处理方法及相关装置,以可以准确提取领域特征关键词,来降低后续工作的工作量。
[0006]为了实现上述目的,本专利技术实施例公开的技术方案如下:
[0007]一种领域特征关键词的处理方法,包括:
[0008]获得本类文本语料以及对照类文本语料;其中,所述本类文本语料为包含领域特征关键词的待处理的文本语料,所述对照类文本语料为不包含领域特征关键词的文本语料;
[0009]将所述本类文本语料处理为长词集;
[0010]获得所述长词集中每一个长词的文本特征;所述文本特征表征长词在所述本类语料以及所述对照类文本语料出现的次数、频率和/或长度;
[0011]利用所述文本特征确定长词集中的领域特征关键词。
[0012]优选的,所述将所述本类文本语料处理为长词集包括:
[0013]对所述本类文本语料进行分词处理,得到文本语料关键词集;
[0014]依据拼接规则将所述文本语料关键词集中的词进行拼接,得到长词集。
[0015]优选的,所述文本特征包括:
[0016]每一个长词在所述本类文本语料的所有文档中表征出现次数的本类文档篇数以及在所述对照类文本语料的所有文档中表征出现次数的对照类文档篇数;
[0017]每一个长词在所述本类文本语料的各个文档中表征出现次数最大值的本类语料词频以及在所述对照类文本语料的各个文档中表征出现次数最大值的对照类语料词频;
[0018]和/或,
[0019]表征每一个长词长度的词长。
[0020]优选的,所述利用所述文本特征确定长词集中的领域特征关键词包括:
[0021]获得所述本类文档篇数与所述对照类文档篇数的第一差值;
[0022]获得所述本类语料词频与所述对照类语料词频的第二差值;
[0023]以所述第一差值、第二差值以及所述词长作为输入参数,调用预设的评分公式得到综合领先分数;
[0024]依据所述综合领先分数,确定领域特征关键词。
[0025]优选的,所述依据所述综合领先分数,确定领域特征关键词包括:
[0026]调用预设修正公式对所述综合领先分数进行修正,得到最终评分;
[0027]依据所述最终评分,确定领域特征关键词。
[0028]优选的,所述预设的评分公式具体包括:
[0029]docBias=max{baseDocNum-otherDocNum,0};
[0030]wordBias=max{baseWrodNum-otherWordNum,0};
[0031][0032]其中,所述docBias表征第一差值,所述wordBias表征第二差值,所述baseDocNum表征本类文档篇数,所述otherDocNum表征对照类文档篇数,所述baseWrodNum表征本类语料词频,所述otherWordNum表征对照类语料词频,所述biasScore表征综合领先分数,所述length表征词长。
[0033]优选的,所述预设修正公式具体包括:
[0034][0035]其中,所述score表征最终评分,所述biasScore表征综合领先分数,所述length表征词长。
[0036]本专利技术另一方面提供了一种领域特征关键词的处理装置,包括:
[0037]第一获得模块,获得本类文本语料以及对照类文本语料;其中,所述本类文本语料为包含领域特征关键词的待处理的文本语料,所述对照类文本语料为不包含领域特征关键词的文本语料;
[0038]处理模块,将所述本类文本语料处理为长词集;
[0039]第二获得模块,获得所述长词集中每一个长词的文本特征;所述文本特征表征长词在所述本类语料以及所述对照类文本语料出现的次数、频率和/或长度;
[0040]确定模块,利用所述文本特征确定长词集中的领域特征关键词。
[0041]本专利技术另一方面提供了一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如前述所述的一种领域特征关键词的处理方法。
[0042]本专利技术另一方面还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如前述所述的一种领域特征关键词的处理方法。
[0043]借由上述技术方案,本专利技术提供的一种领域特征关键词的处理方法及相关装置,
所述方法首先获得本类文本语料以及对照类文本语料;其中,所述本类文本语料为包含领域特征关键词的待处理的文本语料,所述对照类文本语料为不包含领域特征关键词的文本语料;然后将所述本类文本语料处理为长词集;之后获得所述长词集中每一个长词的文本特征;所述文本特征表征长词在所述本类语料以及所述对照类文本语料出现的次数、频率和/或长度;最终利用所述文本特征确定长词集中的领域特征关键词。由于本专利技术实施例中,可以利用本类文本语料的文本特征综合了多种影响领域关键词准确度的因素,且对照类文本语料可以对本类文本语料中的领域关键词进行筛选,因此,大大提高了提取领域特征关键词的准确性,来降低后续工作的工作量。
[0044]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0045]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0046]图1示出了本专利技术实施例中提供的一种领域特征关键词的处理方法的流程示意图;
[0047]图2示出了是本专利技术实施例提供的一种领域特征关键词的处理装置的结构示意图;
[0048]图3示出了本专利技术提供的一种设备的结构示意图。
具体实施方式...

【技术保护点】

【技术特征摘要】
1.一种领域特征关键词的处理方法,其特征在于,包括:获得本类文本语料以及对照类文本语料;其中,所述本类文本语料为包含领域特征关键词的待处理的文本语料,所述对照类文本语料为不包含领域特征关键词的文本语料;将所述本类文本语料处理为长词集;获得所述长词集中每一个长词的文本特征;所述文本特征表征长词在所述本类语料以及所述对照类文本语料出现的次数、频率和/或长度;利用所述文本特征确定长词集中的领域特征关键词。2.根据权利要求1所述的处理方法,其特征在于,所述将所述本类文本语料处理为长词集包括:对所述本类文本语料进行分词处理,得到文本语料关键词集;依据拼接规则将所述文本语料关键词集中的词进行拼接,得到长词集。3.根据权利要求1所述的处理方法,其特征在于,所述文本特征包括:每一个长词在所述本类文本语料的所有文档中表征出现次数的本类文档篇数以及在所述对照类文本语料的所有文档中表征出现次数的对照类文档篇数;每一个长词在所述本类文本语料的各个文档中表征出现次数最大值的本类语料词频以及在所述对照类文本语料的各个文档中表征出现次数最大值的对照类语料词频;和/或,表征每一个长词长度的词长。4.根据权利要求3所述的处理方法,其特征在于,所述利用所述文本特征确定长词集中的领域特征关键词包括:获得所述本类文档篇数与所述对照类文档篇数的第一差值;获得所述本类语料词频与所述对照类语料词频的第二差值;以所述第一差值、第二差值以及所述词长作为输入参数,调用预设的评分公式得到综合领先分数;依据所述综合领先分数,确定领域特征关键词。5.根据权利要求4所述的处理方法,其特征在于,所述依据所述综合领先分数,确定领域特征关键词包括:调用预设修正公式对所述综合领先分数进行修正,得到最终评分;依据所述最终评分,确定领域特征关键词。6.根据权利要求4所述的处理方法,其特征在于,所述预设的评分公式具体包括...

【专利技术属性】
技术研发人员:童陈敏
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1