一种关键词抽取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:36434721 阅读:7 留言:0更新日期:2023-01-20 22:48
本申请提供了一种关键词抽取方法、装置、计算机设备及存储介质,所述方法包括:获取目标业务领域中的目标句子;将所述目标句子输入至训练好的关键词抽取模型;通过所述训练好的关键词抽取模型获取所述目标句子的词向量和句向量,并计算每个所述词向量与所述句向量的相似度;根据所述相似度的大小对所述词向量排序,并按照排序后的词向量和预设规则提取出目标词向量对应的关键词。本申请能够提高关键词抽取的准确率,提高用户的使用体验效果。提高用户的使用体验效果。提高用户的使用体验效果。

【技术实现步骤摘要】
一种关键词抽取方法、装置、计算机设备及存储介质


[0001]本申请涉及关键词智能抽取
,具体而言,涉及一种关键词抽取方法、装置、计算机设备及存储介质。

技术介绍

[0002]关键词抽取是人工智能领域的重要技术,对于人类来说很容易识别文本中的重要关键词语,但是对于人工智能来说,准确的识别抽取关键词能够快速理解文本的主旨,进而用于提升文本匹配,对话聊天等应用的效果。近年来,包括百度,美团,知乎等互联网公司都在应用最新的技术来提升关键词抽取的能力,快速准确的关键词抽取技术已经变得越来越重要。
[0003]传统的关键词抽取技术主要是使用词频(Term Frequency,TF)、文档主题生成(Latent Dirichlet Allocation,LDA)模型、对比学习(A Contrastive Framework for Self

Supervised Sentence Representation Transfer,ConSERT)模型等技术,对比学习模型包括五层,从下往上分别为句子对层,数据对齐层,bert编码层、句子表示层和对比学习损失层,但这些传统技术都有明显的缺点,就是通过词频和语法来分析文本,不能从语义和句法角度来理解文本内容,抽取的关键词效果不够理想,不适合文本长度较长的场景,如摘要生成、主旨分析等,导致抽取的关键词准确度以较低,同时,这也影响了用户的使用体验。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种关键词抽取方法、装置、计算机设备及存储介质,能够提高关键词抽取的准确率,提高用户的使用体验效果。
[0005]第一方面,本申请实施例提供了一种关键词抽取方法,包括以下步骤:
[0006]获取目标业务领域中的目标句子;
[0007]将所述目标句子输入至训练好的关键词抽取模型;所述关键词抽取模型是基于所述目标业务领域中的句子样本训练得到的,所述句子样本包括原始样本、基于所述原始样本构建的正样本、基于所述原始样本和预先配置的反义词表与否定词表构建的负样本;
[0008]通过所述训练好的关键词抽取模型获取所述目标句子的词向量和句向量,并计算每个所述词向量与所述句向量的相似度;
[0009]根据所述相似度的大小对所述词向量排序,并按照排序后的词向量和预设规则提取出目标词向量对应的关键词。
[0010]在一种可能的实施方式中,所述关键词抽取模型的训练方法,包括:
[0011]确定所述原始样本的正样本和负样本,构建包括所述原始样本、所述正样本和所述负样本的目标样本;所述负样本是基于所述原始样本和预先配置的反义词表与否定词表所构建的;
[0012]将所述目标样本输入所述关键词抽取模型,获取所述原始样本、所述正样本与所
述负样本的句向量;
[0013]计算所述正样本的句向量和所述原始样本的句向量的第一相似度、所述负样本的句向量和所述原始样本的句向量的第二相似度,基于第一相似度、第二相似度以及所述目标样本中样本的总数量,计算损失函数值;
[0014]根据计算出的损失函数值调整所述关键词抽取模型的参数,直至训练完成。
[0015]在一种可能的实施方式中,所述负样本的构建方法,包括:
[0016]基于所述原始样本中的词,在所述反义词表中查找所述原始样本中的词的反义词;
[0017]若所述反义词表中存在所述原始样本中的词的反义词,将目标反义词与所述原始样本中的目标词进行替换,得到第一负样本;若所述反义词表中不存在所述原始样本中的词的反义词,基于否定词表,对所述原始样本添加否定词,得到第二负样本。
[0018]在一种可能的实施方式中,所述负样本的构建方法,还包括:
[0019]若所述反义词表中不存在所述原始样本中的词的反义词,且判定所述原始样本不能添加否定词,将所述原始样本中的某个名词随机替换为另一个名词,得到第三负样本。
[0020]在一种可能的实施方式中,所述根据所述相似度的大小对所述词向量排序,并按照排序后的词向量和预设规则提取出目标词向量对应的关键词,包括:
[0021]按照所述相似度从大到小的顺序,对所述词向量进行排序;
[0022]根据所述词向量的排序结果,从所述词向量中提取前预设数量个所述词向量作为目标词向量;
[0023]基于提取的所述目标词向量,确定提取的所述目标词向量对应的关键词。
[0024]第二方面,本申请实施例提供了一种关键词抽取装置,包括:
[0025]获取模块,用于获取目标业务领域中的目标句子;
[0026]输入模块,用于将所述目标句子输入至训练好的关键词抽取模型;所述关键词抽取模型是基于所述目标业务领域中的句子样本训练得到的,所述句子样本包括原始样本、基于所述原始样本构建的正样本、基于所述原始样本和预先配置的反义词表与否定词表构建的负样本;
[0027]计算模块,用于通过所述训练好的关键词抽取模型获取所述目标句子的词向量和句向量,并计算每个所述词向量与所述句向量的相似度;
[0028]提取模块,用于根据所述相似度的大小对所述词向量排序,并按照排序后的词向量和预设规则提取出目标词向量对应的关键词。
[0029]在一种可能的实施方式中,所述输入模块,包括:
[0030]查找单元,用于基于所述原始样本中的词,在所述反义词表中查找所述原始样本中的词的反义词;
[0031]处理单元,用于若所述反义词表中存在所述原始样本中的词的反义词,将目标反义词与所述原始样本中的目标词进行替换,得到第一负样本;若所述反义词表中不存在所述原始样本中的词的反义词,基于否定词表,对所述原始样本添加否定词,得到第二负样本。
[0032]在一种可能的实施方式中,所述提取模块,包括:
[0033]排序单元,用于按照所述相似度从大到小的顺序,对所述词向量进行排序;
[0034]提取单元,用于根据所述词向量的排序结果,从所述词向量中提取前预设数量个所述词向量作为目标词向量;
[0035]确定单元,基于提取的所述目标词向量,确定提取的所述目标词向量对应的关键词。
[0036]第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述的关键词抽取方法的步骤。
[0037]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面任一项所述的关键词抽取方法的步骤。
[0038]本申请实施例提供的关键词抽取方法具有以下有益效果:
[0039]首先获取目标业务领域中的目标句子,为了提高对所述目标句子的关键词的抽取准确度,对所述关键词抽取模型进行了训练,然后将所述目标句子输入至训练好的关键词抽取模型,其中,所述训练好的关键词抽取模型是基于所述目标业务领域中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词抽取方法,其特征在于,包括以下步骤:获取目标业务领域中的目标句子;将所述目标句子输入至训练好的关键词抽取模型;所述训练好的关键词抽取模型是基于所述目标业务领域中的句子样本训练得到的,所述句子样本包括原始样本、基于所述原始样本构建的正样本、基于所述原始样本和预先配置的反义词表与否定词表构建的负样本;通过所述训练好的关键词抽取模型获取所述目标句子的词向量和句向量,并计算每个所述词向量与所述句向量的相似度;根据所述相似度的大小对所述词向量排序,并按照排序后的词向量和预设规则提取出目标词向量对应的关键词。2.根据权利要求1所述的关键词抽取方法,其特征在于,所述关键词抽取模型的训练方法,包括:确定所述原始样本的正样本和负样本,构建包括所述原始样本、所述正样本和所述负样本的目标样本;所述负样本是基于所述原始样本和预先配置的反义词表与否定词表所构建的;将所述目标样本输入所述关键词抽取模型,获取所述原始样本、所述正样本与所述负样本的句向量;计算所述正样本的句向量和所述原始样本的句向量的第一相似度、所述负样本的句向量和所述原始样本的句向量的第二相似度,基于第一相似度、第二相似度以及所述目标样本中样本的总数量,计算损失函数值;根据计算出的损失函数值调整所述关键词抽取模型的参数,直至训练完成。3.根据权利要求1所述的关键词抽取方法,其特征在于,所述负样本的构建方法,包括:基于所述原始样本中的词,在所述反义词表中查找所述原始样本中的词的反义词;若所述反义词表中存在所述原始样本中的词的反义词,将目标反义词与所述原始样本中的目标词进行替换,得到第一负样本;若所述反义词表中不存在所述原始样本中的词的反义词,基于否定词表,对所述原始样本添加否定词,得到第二负样本。4.根据权利要求3所述的关键词抽取方法,其特征在于,所述负样本的构建方法,还包括:若所述反义词表中不存在所述原始样本中的词的反义词,且判定所述原始样本不能添加否定词,将所述原始样本中的某个名词随机替换为另一个名词,得到第三负样本。5.根据权利要求1所述的关键词抽取方法,其特征在于,所述根据所述相似度的大小对所述词向量排序,并按照排序后的词向量和预设规则提取出目标词向量对应的关键词,包括:按照所述...

【专利技术属性】
技术研发人员:詹乐孙铁
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1