提取文本关键词的方法、装置、设备及存储介质制造方法及图纸

技术编号：19009124 阅读：45 留言：0更新日期：2018-09-22 09:00

本发明专利技术公开了一种提取文本关键词的方法，包括：对待匹配的至少两个文本分别进行分词处理，得到相应于每个文本的至少一个分词；根据预设的赋值规则，计算所述每个文本中每个分词的词频分值、词性分值及位置分值；根据所述每个分词的所述词频分值、所述词性分值和所述位置分值，计算所述每个文本中的每个分词的综合权值；根据所述每个分词的综合权值，计算所述每个文本中的每个分词的权重；根据所述每个文本中的每个分词的权重，提取所述每个文本的关键词。本发明专利技术还公开了一种提取文本关键词的装置、设备及存储介质，可以解决文档关键词提取不精准的问题，使得在度量不同文档之间的相似度时更加准确。

Method, device, device and storage medium for extracting text key words

The invention discloses a method for extracting text keywords, including: processing at least two matched texts separately to obtain at least one word segmentation corresponding to each text; calculating word frequency score, part of speech score and position score root of each word segmentation in each text according to preset assignment rules; According to the word frequency score, the part-of-speech score and the position score of each participle, the comprehensive weight value of each participle in each text is calculated; according to the comprehensive weight value of each participle, the weight of each participle in each text is calculated; and according to the weight of each participle in each text, Extract the keywords of each text. The invention also discloses a device, a device and a storage medium for extracting text keywords, which can solve the problem of inaccurate extraction of document keywords and make the similarity between different documents more accurate.

全部详细技术资料下载

【技术实现步骤摘要】
提取文本关键词的方法、装置、设备及存储介质
本专利技术涉及计算机
，尤其涉及一种提取文本关键词的方法、装置、设备及存储介质。
技术介绍
随着科学技术的发展和社会法律的健全，目前一定规模的工程项目都需要通过招标的方法选择合适的公司或单位，而参与投标的公司或单位则需要做好投标工作来提高竞争力。因此，投标文档匹配度的研究已经成为了当前投标中介增值业务的重要方向，而文档匹配度研究的前提是文档关键词的提取，提取关键词是自然语言领域的重要领域之一。然而，专利技术人在实施本专利技术的过程中发现，现有技术中，在度量不同文档之间的相似度时，通常采用TFI-DF算法来提取关键词，而由于TFI-DF算法过度关注词语的出现次数和频率，没有客观地分配每个词语的权重，不符合真实的情况，从而导致关键词提取不精准，降低了度量得到的不同文档之间的相似度的准确性。
技术实现思路
针对上述问题，本专利技术的目的在于提供一种提取文本关键词的方法、装置、设备及存储介质，可以解决文档关键词提取不精准的问题，使得在度量不同文档之间的相似度时更加准确。第一方面，本专利技术实施例提供了一种提取文本关键词的方法，包括以下步骤：对待匹配的至少两个文本分别进行分词处理，得到相应于每个文本的至少一个分词；根据预设的赋值规则，计算所述每个文本中每个分词的词频分值、词性分值及位置分值；根据所述每个分词的所述词频分值、所述词性分值和所述位置分值，计算所述每个文本中的每个分词的综合权值；根据所述每个分词的综合权值，计算所述每个文本中的每个分词的权重；根据所述每个文本中的每个分词的权重，提取所述每个文本的关键词，使得根据...
提取文本关键词的方法、装置、设备及存储介质

【技术保护点】
1.一种提取文本关键词的方法，其特征在于，包括：对待匹配的至少两个文本分别进行分词处理，得到相应于每个文本的至少一个分词；根据预设的赋值规则，计算所述每个文本中每个分词的词频分值、词性分值及位置分值；根据所述每个分词的所述词频分值、所述词性分值和所述位置分值，计算所述每个文本中的每个分词的综合权值；根据所述每个分词的综合权值，计算所述每个文本中的每个分词的权重；根据所述每个文本中的每个分词的权重，提取所述每个文本的关键词，使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。

【技术特征摘要】
1.一种提取文本关键词的方法，其特征在于，包括：对待匹配的至少两个文本分别进行分词处理，得到相应于每个文本的至少一个分词；根据预设的赋值规则，计算所述每个文本中每个分词的词频分值、词性分值及位置分值；根据所述每个分词的所述词频分值、所述词性分值和所述位置分值，计算所述每个文本中的每个分词的综合权值；根据所述每个分词的综合权值，计算所述每个文本中的每个分词的权重；根据所述每个文本中的每个分词的权重，提取所述每个文本的关键词，使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。2.根据权利要求1所述的提取文本关键词的方法，其特征在于，所述对待匹配的至少两个文本分别进行分词，得到相应于每个文本的至少一个分词，具体为：利用分词工具对待匹配的至少两个文本分别进行分词处理，生成相应于每个文本的分词结果；构建停用词库对每个所述分词结果进行过滤，得到相应于每个文本的至少一个分词。3.根据权利要求1所述的提取文本关键词的方法，其特征在于，所述根据所述每个分词的所述词频分值、所述词性分值和所述位置分值，计算所述每个文本中的每个分词的综合权值，具体为：根据所述每个文本的所述每个分词的所述词频分值、所述词性分值和所述位置分值，生成相应于每个文本的词语矩阵；根据所述词语矩阵，计算所述每个文本中的每个分词的综合权值。4.根据权利要求3所述的提取文本关键词的方法，其特征在于，所述根据所述词语矩阵，计算所述每个文本中的每个分词的综合权值，具体为：对于每一个文本：计算所述词语矩阵中每个分词的每个特征向量的熵权；根据所述每个分词的每个特征向量的熵权以及与所述每个特征向量对应的分值，计算所述每个分词的综合权值。5.根据权利要求1所述的提取文本关键词的方法，其特征在于，所述根据所述每个分词的综合权值，计算所述每个文本中的每个分词的权重，具体为：对于每一个文本：根据所述每个分词的综合权值，计算所述每个分词之间的转移概率；根据所述每个分词之间的转移概率，计算所述每个分词的权重。6.根据权利要求1所述的提取文本关键词的方法，其特征在于，...

【专利技术属性】
技术研发人员：杜翠凤，
申请(专利权)人：广州杰赛科技股份有限公司，广州杰赛通信规划设计院有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人