文档关键词的提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36256775 阅读:17 留言:0更新日期:2023-01-07 09:52
本发明专利技术公开了一种文档关键词的提取方法、装置、电子设备及存储介质。该方法包括:将待处理的非结构化长文档转换为结构化长文档;根据结构化长文档中每个文本的哈希指纹,对结构化长文档进行文本去重处理,得到目标结构化文档;识别目标结构化文档中的各候选关键词,并根据各候选关键词在结构化长文档中的词频

【技术实现步骤摘要】
文档关键词的提取方法、装置、电子设备及存储介质


[0001]本专利技术涉及自动化识别
,尤其涉及文档关键词的提取方法、装置、电子设备及存储介质。

技术介绍

[0002]关键词是文档主要内容的概要,它是一种快速理解文档主题的重要方法。在各个地方都可以看到关键词的身影,比如我们在新闻网站上可以看到每篇新闻的标签,我们在浏览科技论文时可以看到该论文所讨论的关键词。它降低了人们在海量信息中搜寻信息的难度。当前关键词己被应用在各个领域。关键词在各个领域中应用广泛,准确快速的识别出文档的关键词有助于用户更快速的获取文档的有效信息,找出目标文件等。
[0003]现有技术中,主要通过基于深度学习法,利用双向长短期记忆网络与条件随机构建深度学习模型的方法识别非结构化长文档的信息,该方法具有一定的应用效果。
[0004]专利技术人在实现本专利技术的过程中,发现该方法有如下缺陷:非结构化长文档内的信息具有多样性,信息量大等特性,该方法只能运用于较小的文档,即信息量小的文档中,而在较大文档中,即文档信息量较大时,现有技术的识别精度和可靠性明显下降。

技术实现思路

[0005]本专利技术提供了一种文档关键词的提取方法、装置、电子设备及存储介质,以解决现有技术中对较大的非结构化长文档识别精度下降的问题。
[0006]第一方面,本专利技术实施例提供了一种文档关键词的提取方法,该方法包括:
[0007]将待处理的非结构化长文档转换为结构化长文档;
[0008]根据结构化长文档中每个文本的哈希指纹,对结构化长文档进行文本去重处理,得到目标结构化文档,其中,每个文本中包括至少一个句子;
[0009]识别目标结构化文档中的各候选关键词,并根据各候选关键词在结构化长文档中的词频

逆文本频率指数和信息熵,计算各候选关键词的权重值;
[0010]根据各候选关键词的权重值和预设的文本排序算法,计算与各候选关键词对应的得分值,并根据得分值在各候选键词中筛选得到文档关键词。
[0011]第二方面,本专利技术实施例提供了一种文档关键词的提取装置,该装置包括:
[0012]文档结构化转换模块,用于将待处理的非结构化长文档转换为结构化长文档;
[0013]文档去重模块,用于根据结构化长文档中每个文本的哈希指纹,对结构化长文档进行文本去重处理,得到目标结构化文档,其中,每个文本中包括至少一个句子;
[0014]权重值计算模块,用于识别目标结构化文档中的各候选关键词,并根据各候选关键词在结构化长文档中的词频

逆文本频率指数和信息熵,计算各候选关键词的权重值;
[0015]文档关键词筛选模块,用于根据各候选关键词的权重值和预设的文本排序算法,计算与各候选关键词对应的得分值,并根据得分值在各候选关键词中筛选得到文档关键词。
[0016]第三方面,本专利技术实施例提供了一种电子设备,所述电子设备包括:
[0017]至少一个处理器;以及
[0018]与所述至少一个处理器通信连接的存储器;其中,
[0019]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的文档关键词的提取方法。
[0020]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的文档关键词的提取方法。
[0021]本专利技术实施例的技术方案,通过将非结构化长文档转化为结构化长文档,并根据文本对应的哈希指纹对文本进行去重,识别去重后的文档的各候选关键词,通过计算各候选关键词的词频

逆文本指数及信息熵,确定出各关键词的权重,根据权重及预设文本排序法的计算规则,筛选得到文档关键词,提高了对非结构化长文档中关键词提取的准确度。
[0022]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1a是根据本专利技术实施例一提供的一种文档关键词的提取方法的流程图;
[0025]图1b是根据本专利技术实施例一提供的一种哈希指纹获取方法的流程图;
[0026]图2a是根据本专利技术实施例二所提供的一种文档关键词的提取方法的流程图;
[0027]图2b是根据本专利技术实施例二所提供的方法对不同大小的非结构化长文档的转化效率示意图;
[0028]图2c是根据本专利技术实施例二所提供的方法在不同海明距离条件下的去重率波动情况示意图;
[0029]图2d是根据本专利技术实施例二所提供的方法在不同相似度阈值条件下的去重率波动情况示意图;
[0030]图3是根据本专利技术实施例三提供的一种文档关键词的提取装置的结构示意图;
[0031]图4是根据本专利技术实施例四提供的一种可以用来实施本专利技术的实施例的电子设备的结构示意图。
具体实施方式
[0032]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范
围。
[0033]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0034]实施例一
[0035]图1a为本专利技术实施例一提供了一种文档关键词的提取方法的流程图,本实施例可适用于提取非结构化长文档内关键词的情况,该方法可以由文档关键词的提取装置来执行,该文档关键词的提取装置可以采用硬件和/或软件的形式实现,该文档关键词的提取装置可配置于搭载文档关键词提取功能的终端或者服务器中。如图1a所示,该方法包括:
[0036]S110、将待处理的非结构化长文档转换为结构化长文档。
[0037]其中,所述非结构化长文档为包含非结构化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档关键词的提取方法,其特征在于,包括:将待处理的非结构化长文档转换为结构化长文档;根据结构化长文档中每个文本的哈希指纹,对结构化长文档进行文本去重处理,得到目标结构化文档,其中,每个文本中包括至少一个句子;识别目标结构化文档中的各候选关键词,并根据各候选关键词在结构化长文档中的词频

逆文本频率指数和信息熵,计算各候选关键词的权重值;根据各候选关键词的权重值和预设的文本排序算法,计算与各候选关键词对应的得分值,并根据得分值在各候选关键词中筛选得到文档关键词。2.根据权利要求1所述的方法,其特征在于,将待处理的非结构化长文档转换为结构化长文档,包括:采用XML文件生成工具,将所述非结构化长文档转换XML格式的半结构化长文档;采用XML文件解析工具,将所述半结构化长文档转换为结构化长文档。3.根据权利要求1所述的方法,其特征在于,根据结构化长文档中每个文本的哈希指纹,对结构化长文档进行文本去重处理,得到目标结构化文档,包括:将结构化文档划分为多个文本,并对每个文本中的各句子进行分词处理,得到与每个文本分别对应的分词集;根据与每个文本分别对应的分词集中各分词的哈希编码值,计算得到每个文本的哈希指纹;根据每个文本的哈希指纹,计算两两文本之间的海明距离;根据两两文本之间的海明距离,对结构化长文档进行文本去重处理,得到目标结构化文档。4.根据权利要求3所述的方法,其特征在于,根据与每个文本对应的分词集中各分词的哈希编码值,计算得到每个文本的哈希指纹,包括:获取与当前处理的目标文本对应的分词集中各分词的目标哈希编码值;将各所述目标哈希编码值中相同编码位的哈希值进行累加处理,得到与目标文本对应的累加哈希编码值;根据预设的门限阈值,对所述累加哈希编码值中各编码位的哈希值进行二值化处理,得到目标文本的哈希指纹。5.根据权利要求1

4任一项所述的方法,其特征在于,识别目标结构化文档中的各候选关键词,包括:获取与目标结构化文档中的每个文本分别对应的分词集,并对各分词集进行停用词过滤;将完成过滤处理后的各分词集中的分词进行词性标注;根据词性标注结果,保留在各分词集中至少一种指定词性的分词作为候选关键词。6.根据权利要求1

4任一项所述的方法,其特征在于,根据各候选关键词在结构化长文档中的词频

逆文本频率指数和信息熵,计算各候选关键词的权重值,包括:根据各候选关键词在结构化长文档中的词频

逆文本频率指数...

【专利技术属性】
技术研发人员:林荣荣张小晶梁志明支天波
申请(专利权)人:贵州小爱机器人科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1