提取文本关键词的方法、装置、设备及存储介质制造方法及图纸

技术编号:19009124 阅读:45 留言:0更新日期:2018-09-22 09:00
本发明专利技术公开了一种提取文本关键词的方法,包括:对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词。本发明专利技术还公开了一种提取文本关键词的装置、设备及存储介质,可以解决文档关键词提取不精准的问题,使得在度量不同文档之间的相似度时更加准确。

Method, device, device and storage medium for extracting text key words

The invention discloses a method for extracting text keywords, including: processing at least two matched texts separately to obtain at least one word segmentation corresponding to each text; calculating word frequency score, part of speech score and position score root of each word segmentation in each text according to preset assignment rules; According to the word frequency score, the part-of-speech score and the position score of each participle, the comprehensive weight value of each participle in each text is calculated; according to the comprehensive weight value of each participle, the weight of each participle in each text is calculated; and according to the weight of each participle in each text, Extract the keywords of each text. The invention also discloses a device, a device and a storage medium for extracting text keywords, which can solve the problem of inaccurate extraction of document keywords and make the similarity between different documents more accurate.

【技术实现步骤摘要】
提取文本关键词的方法、装置、设备及存储介质
本专利技术涉及计算机
,尤其涉及一种提取文本关键词的方法、装置、设备及存储介质。
技术介绍
随着科学技术的发展和社会法律的健全,目前一定规模的工程项目都需要通过招标的方法选择合适的公司或单位,而参与投标的公司或单位则需要做好投标工作来提高竞争力。因此,投标文档匹配度的研究已经成为了当前投标中介增值业务的重要方向,而文档匹配度研究的前提是文档关键词的提取,提取关键词是自然语言领域的重要领域之一。然而,专利技术人在实施本专利技术的过程中发现,现有技术中,在度量不同文档之间的相似度时,通常采用TFI-DF算法来提取关键词,而由于TFI-DF算法过度关注词语的出现次数和频率,没有客观地分配每个词语的权重,不符合真实的情况,从而导致关键词提取不精准,降低了度量得到的不同文档之间的相似度的准确性。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种提取文本关键词的方法、装置、设备及存储介质,可以解决文档关键词提取不精准的问题,使得在度量不同文档之间的相似度时更加准确。第一方面,本专利技术实施例提供了一种提取文本关键词的方法,包括以下步骤:对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。在第一方面的第一种实现方式中,所述对待匹配的至少两个文本分别进行分词,得到相应于每个文本的至少一个分词,具体为:利用分词工具对待匹配的至少两个文本分别进行分词处理,生成相应于每个文本的分词结果;构建停用词库对每个所述分词结果进行过滤,得到相应于每个文本的至少一个分词。在第一方面的第二种实现方式中,所述根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值,具体为:根据所述每个文本的所述每个分词的所述词频分值、所述词性分值和所述位置分值,生成相应于每个文本的词语矩阵;根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值。根据第一方面的第二种实现方式,在第一方面的第三种实现方式中,所述根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值,具体为:对于每一个文本:计算所述词语矩阵中每个分词的每个特征向量的熵权;根据所述每个分词的每个特征向量的熵权以及与所述每个特征向量对应的分值,计算所述每个分词的综合权值。在第一方面的第四种实现方式中,所述根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重,具体为:对于每一个文本:根据所述每个分词的综合权值,计算所述每个分词之间的转移概率;根据所述每个分词之间的转移概率,计算所述每个分词的权重。在第一方面的第五种实现方式中,所述待匹配的至少两个文本中包括第一文本和第二文本;则在所述根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词之后,还包括:获取第一文本的关键词和第二文本的关键词,利用正则表达式匹配生成字符串;根据所述第一文本的每个关键词的权重和所述字符串,生成第一向量矩阵;根据所述第二文本的每个关键词的权重和所述字符串,生成第二向量矩阵;根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度。根据第一方面的第五种实现方式,在第一方面的第六种实现方式中,所述根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度,具体为:对所述第一向量矩阵和所述第二向量矩阵进行计算,得到所述第一向量矩阵和所述第二向量矩阵的夹角余弦值;根据所述夹角余弦值的大小,得出所述第一文本与所述第二文本之间的相似度。第二方面,本专利技术实施例还提供了一种提取文本关键词的装置,包括:分词模块,用于对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;赋值模块,用于根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;综合权值计算模块,用于根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;权重计算模块,用于根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;关键词提取模块,用于根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。第三方面,本专利技术实施例还提供了一种提取文本关键词的设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的提取文本关键词的方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的提取文本关键词的方法。上述技术方案中的一个技术方案具有如下优点:根据计算得到的文本中的每个分词的词频分值、词性分值以及位置分值来计算每个分词的综合权值,能够根据各项量评分的分布,使得能够客观地、科学地对每个分词的权值进行合理分配;根据每个分词的权重来提取关键词,能够提高关键词提取的准确率,使得在度量不同文档之间的相似度时能够提高度量的准确性。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例提供的提取文本关键词的方法的一种流程示意图。图2是本专利技术第二实施例提供的提取文本关键词的方法的另一种流程示意图。图3是本专利技术第三实施例提供的提取文本关键词的装置的一种结构示意图。图4是本专利技术第三实施例提供的提取文本关键词的装置的另一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术第一实施例提供了一种提取文本关键词的方法,其可以在提取文本关键词的设备上执行,包括以下步骤:S10,对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词。在本实施例中,所述设备可以包括但不限于:桌上型计算机、笔记本、掌上电脑、手机以及电视机等各类电子设备,在所述设备上可以导入或者接受待匹配的各种文本或文档并且可以将这些文档进行存储。在本实施例中,对待匹配的文本分别进行分词处理,即对每一个文本分别进行词语的划分,在这里,可以利用结巴分词工具对文本进行分析,其中模式为精确模式,所述精确模式可以将本文档来自技高网...
提取文本关键词的方法、装置、设备及存储介质

【技术保护点】
1.一种提取文本关键词的方法,其特征在于,包括:对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。

【技术特征摘要】
1.一种提取文本关键词的方法,其特征在于,包括:对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。2.根据权利要求1所述的提取文本关键词的方法,其特征在于,所述对待匹配的至少两个文本分别进行分词,得到相应于每个文本的至少一个分词,具体为:利用分词工具对待匹配的至少两个文本分别进行分词处理,生成相应于每个文本的分词结果;构建停用词库对每个所述分词结果进行过滤,得到相应于每个文本的至少一个分词。3.根据权利要求1所述的提取文本关键词的方法,其特征在于,所述根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值,具体为:根据所述每个文本的所述每个分词的所述词频分值、所述词性分值和所述位置分值,生成相应于每个文本的词语矩阵;根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值。4.根据权利要求3所述的提取文本关键词的方法,其特征在于,所述根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值,具体为:对于每一个文本:计算所述词语矩阵中每个分词的每个特征向量的熵权;根据所述每个分词的每个特征向量的熵权以及与所述每个特征向量对应的分值,计算所述每个分词的综合权值。5.根据权利要求1所述的提取文本关键词的方法,其特征在于,所述根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重,具体为:对于每一个文本:根据所述每个分词的综合权值,计算所述每个分词之间的转移概率;根据所述每个分词之间的转移概率,计算所述每个分词的权重。6.根据权利要求1所述的提取文本关键词的方法,其特征在于,...

【专利技术属性】
技术研发人员:杜翠凤
申请(专利权)人:广州杰赛科技股份有限公司广州杰赛通信规划设计院有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1