一种关键词提取方法及计算设备技术

技术编号：26479166 阅读：44 留言：0更新日期：2020-11-25 19:23

本发明专利技术公开了一种关键词提取方法，在计算设备中执行，包括以下步骤：获取待提取关键词的文本，该文本中包括多个候选词；对于每一个候选词：分别确定该候选词与其他候选词的相似度，将该候选词与其他候选词的相似度的和作为该候选词的覆盖率；根据该候选词在文本中的位置来确定该候选词的位置特征值：确定该候选词的主题概率分布，将概率的最大值作为该候选词的语义多样性；根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值；将综合特征值最大的预设数量个候选词作为文本的关键词。本发明专利技术一并公开了相应的计算设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种关键词提取方法及计算设备
本专利技术涉及自然语言处理
，尤其涉及一种基于三种特征的英文关键词智能提取方法及计算设备。
技术介绍
近十年来，在线学术资源的数量迅速增长，例如，顶级数据提供商谷歌学术(GoogleScholar)在2019年收录了数千万篇论文。云数据的广泛应用和在线学术信息的激增提升了个人对学术资料的访问便捷性，同时也为学术工作者带来了从海量信息中正确选择出所需要的信息的挑战。为了便于进行信息检索，数据提供者试图在文档搜索上应用智能处理方法。关键词是文档的概括性描述，被认为是高效的搜索标签。准确的关键词能够提高文档搜索任务的效率，大大减少用户搜索所需文档以及阅读文档内容的时间。但是，并非所有文档都带有准确的关键词，关键词的缺失和错误容易造成文档的漏检和错检，使得文档搜索的效率和准确性大打折扣。因此，需要一种文档关键词的智能提取方法。
技术实现思路
为此，本专利技术提供一种关键词提取方法及计算设备，以力图解决或至少缓解上面存在的问题。根据本专利技术的第一个方面，提供一种...

【技术保护点】
1.一种关键词提取方法，在计算设备中执行，包括：/n获取待提取关键词的文本，所述文本包括多个候选词；/n对于每一个候选词：/n分别确定该候选词与其他候选词的相似度，将该候选词与其他候选词的相似度的和作为该候选词的覆盖率；/n根据该候选词在所述文本中的位置来确定该候选词的位置特征值：确定该候选词的主题概率分布，将概率的最大值作为该候选词的语义多样性；/n根据所述覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值；/n将综合特征值最大的预设数量个候选词作为所述文本的关键词。/n

【技术特征摘要】
1.一种关键词提取方法，在计算设备中执行，包括：
获取待提取关键词的文本，所述文本包括多个候选词；
对于每一个候选词：
分别确定该候选词与其他候选词的相似度，将该候选词与其他候选词的相似度的和作为该候选词的覆盖率；
根据该候选词在所述文本中的位置来确定该候选词的位置特征值：确定该候选词的主题概率分布，将概率的最大值作为该候选词的语义多样性；
根据所述覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值；
将综合特征值最大的预设数量个候选词作为所述文本的关键词。

2.如权利要求1所述的方法，其中，所述文本为英文文本，所述方法还包括：
删除所述文本中的停用词，将所述文本中剩余的词作为候选词。

3.如权利要求1或2所述的方法，其中，候选词之间的相似度按照以下步骤确定：
采用词向量模型来确定候选词的词向量；
将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。

4.如权利要求3所述的方法，其中，所述词向量模型包括依次相连的输入层、隐藏层和输出层，
所述采用词向量模型来确定候选词的词向量的步骤包括：
将所述文本中的候选词与其上下文词所组成的词对作为训练样本，训练所述词向量模型，以得到所述隐藏层的权重矩阵，所述权重矩阵的行的数量为所述文本包括的候选词的数量，列的数量为预设的词向量维数；
将所述权重矩阵中的每一个行向量作为相应候选词的词向量。

5.如权利要求1-4中任一项所述的方法，其中，候选词的位置特征值为候选词在所述文本中出现的各个位置顺序的倒数之和。

...

【专利技术属性】
技术研发人员：李拓航，迟令，李宏图，孙成宇，李帅，胡亮，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人