文档关键词的提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36256775 阅读：17 留言：0更新日期：2023-01-07 09:52

本发明专利技术公开了一种文档关键词的提取方法、装置、电子设备及存储介质。该方法包括：将待处理的非结构化长文档转换为结构化长文档；根据结构化长文档中每个文本的哈希指纹，对结构化长文档进行文本去重处理，得到目标结构化文档；识别目标结构化文档中的各候选关键词，并根据各候选关键词在结构化长文档中的词频

全部详细技术资料下载

【技术实现步骤摘要】
文档关键词的提取方法、装置、电子设备及存储介质

[0001]本专利技术涉及自动化识别
，尤其涉及文档关键词的提取方法、装置、电子设备及存储介质。

技术介绍

[0002]关键词是文档主要内容的概要，它是一种快速理解文档主题的重要方法。在各个地方都可以看到关键词的身影，比如我们在新闻网站上可以看到每篇新闻的标签，我们在浏览科技论文时可以看到该论文所讨论的关键词。它降低了人们在海量信息中搜寻信息的难度。当前关键词己被应用在各个领域。关键词在各个领域中应用广泛，准确快速的识别出文档的关键词有助于用户更快速的获取文档的有效信息，找出目标文件等。
[0003]现有技术中，主要通过基于深度学习法，利用双向长短期记忆网络与条件随机构建深度学习模型的方法识别非结构化长文档的信息，该方法具有一定的应用效果。
[0004]专利技术人在实现本专利技术的过程中，发现该方法有如下缺陷：非结构化长文档内的信息具有多样性，信息量大等特性，该方法只能运用于较小的文档，即信息量小的文档中，而在较大文档中，即文档信息量较大时，现有技术的识别精度和可靠性明显下降。

技术实现思路

[0005]本专利技术提供了一种文档关键词的提取方法、装置、电子设备及存储介质，以解决现有技术中对较大的非结构化长文档识别精度下降的问题。
[0006]第一方面，本专利技术实施例提供了一种文档关键词的提取方法，该方法包括：
[0007]将待处理的非结构化长文档转换为结构化长文档；
[0008]根据结构化长文档中每个文本的...

【技术保护点】

【技术特征摘要】
1.一种文档关键词的提取方法，其特征在于，包括：将待处理的非结构化长文档转换为结构化长文档；根据结构化长文档中每个文本的哈希指纹，对结构化长文档进行文本去重处理，得到目标结构化文档，其中，每个文本中包括至少一个句子；识别目标结构化文档中的各候选关键词，并根据各候选关键词在结构化长文档中的词频
‑
逆文本频率指数和信息熵，计算各候选关键词的权重值；根据各候选关键词的权重值和预设的文本排序算法，计算与各候选关键词对应的得分值，并根据得分值在各候选关键词中筛选得到文档关键词。2.根据权利要求1所述的方法，其特征在于，将待处理的非结构化长文档转换为结构化长文档，包括：采用XML文件生成工具，将所述非结构化长文档转换XML格式的半结构化长文档；采用XML文件解析工具，将所述半结构化长文档转换为结构化长文档。3.根据权利要求1所述的方法，其特征在于，根据结构化长文档中每个文本的哈希指纹，对结构化长文档进行文本去重处理，得到目标结构化文档，包括：将结构化文档划分为多个文本，并对每个文本中的各句子进行分词处理，得到与每个文本分别对应的分词集；根据与每个文本分别对应的分词集中各分词的哈希编码值，计算得到每个文本的哈希指纹；根据每个文本的哈希指纹，计算两两文本之间的海明距离；根据两两文本之间的海明距离，对结构化长文档进行文本去重处理，得到目标结构化文档。4.根据权利要求3所述的方法，其特征在于，根据与每个文本对应的分词集中各分词的哈希编码值，计算得到每个文本的哈希指纹，包括：获取与当前处理的目标文本对应的分词集中各分词的目标哈希编码值；将各所述目标哈希编码值中相同编码位的哈希值进行累加处理，得到与目标文本对应的累加哈希编码值；根据预设的门限阈值，对所述累加哈希编码值中各编码位的哈希值进行二值化处理，得到目标文本的哈希指纹。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，识别目标结构化文档中的各候选关键词，包括：获取与目标结构化文档中的每个文本分别对应的分词集，并对各分词集进行停用词过滤；将完成过滤处理后的各分词集中的分词进行词性标注；根据词性标注结果，保留在各分词集中至少一种指定词性的分词作为候选关键词。6.根据权利要求1
‑
4任一项所述的方法，其特征在于，根据各候选关键词在结构化长文档中的词频
‑
逆文本频率指数和信息熵，计算各候选关键词的权重值，包括：根据各候选关键词在结构化长文档中的词频
‑
逆文本频率指数...

【专利技术属性】
技术研发人员：林荣荣，张小晶，梁志明，支天波，
申请(专利权)人：贵州小爱机器人科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人