一种关键词提取方法、装置、存储介质及设备制造方法及图纸

技术编号:27112906 阅读:41 留言:0更新日期:2021-01-25 19:10
本申请涉及人工智能技术领域,公开了一种关键词提取方法、装置、存储介质及设备,包括:获取目标文档的文档属性,其中,文档属性用于表征目标文档的主题和语义信息,且目标文档包括多个候选关键词;然后,利用文档属性,计算候选关键词的第一得分,其中,第一得分用于表征候选关键词与文档属性的相关度,进而可以根据各个候选关键词的第一得分,从多个候选关键词中确定出目标关键词。可见,由于本申请在提取目标文档的关键词时,考虑了目标文档中表征其主题和语义信息的文档属性,从而可以提高关键词提取结果的准确性,并且由于无需人工标注关键词的训练数据,进而也降低了关键词的提取成本,得到成本更低、准确性更高的提取结果。准确性更高的提取结果。准确性更高的提取结果。

【技术实现步骤摘要】
一种关键词提取方法、装置、存储介质及设备


[0001]本申请涉及人工智能
,尤其涉及一种关键词提取方法、装置、存储介质及设备。

技术介绍

[0002]随着移动互联网、物联网和人工智能(artificial intelligence,AI)技术的快速发展,每时每刻都在产生大量的文档信息,导致需要处理的文档信息量呈现几何级别的增长。由此,为了便于人们能够快速、准确的获取到有效的文档信息,通常会提取出文档的关键词,作为文档主要内容的提要,用以进行网页索引和为用户进行信息推荐等,以提高文档推荐结果和网页中文档检索结果的准确性。
[0003]目前,对于文档中关键词的提取方法通常有两种:一种是采用无监督的方式来提取关键词,例如,可以利用词频-逆文档频率(term frequency

inverse document frequency,TF-IDF)对预先生成的候选关键词进行打分,以根据打分结果提取出文档中的关键词。但这种提取方式需要统计大规模的语料,否则逆文档频率(IDF)的统计结果不够准确。且由于这种提取方式仅考虑了词语的统计属性,而并没有考虑对词语词义的真正理解,导致提取出的关键词的准确度不够高,不能准确地表征文档的关键内容。而另一种常用的关键词提取方法是采用有监督的方式进行提取,其核心思想是将关键词提取过程转化为一个有监督的机器学习问题,例如,可以将关键词提取转化为多标签文本分类问题,先利用双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)对文档进行编码,并利用注意力(attention)机制获取文档对于每个候选关键词的表示,然后再利用一个多层全连接神经网络对每个候选关键词的表示进行二分类,以得到每个候选关键词的置信度得分,进而可以根据该置信度得分提取出文档中的关键词。但这种提取方式需要大量高质量的关键词标注语料作为训练数据进行模型训练,否则将无法训练出高精度的神经网络模型,然而实际业务中往往缺乏关键词标注数据,需要利用人工来标注大量的关键词,主观性强、难以量化,不仅标注效率低,而且还需要花费大量的人力资源,导致获取关键词标注语料的成本较高。

技术实现思路

[0004]本申请实施例提供了一种关键词提取方法、装置、存储介质及设备,有助于克服现有关键词提取方法的缺点,提高了关键词提取结果的准确性,并降低了提取成本。
[0005]第一方面,本申请提供了一种关键词提取方法,该方法包括:在进行关键词提取时,首先获取目标文档的文档属性,其中,文档属性用于表征目标文档的主题和语义信息,且目标文档包括多个候选关键词;然后,利用文档属性,计算候选关键词的第一得分,其中,第一得分用于表征候选关键词与文档属性的相关度,进而可以根据各个候选关键词的第一得分,从多个候选关键词中确定出目标关键词。
[0006]与传统技术相比,由于本申请实施例在提取目标文档的关键词时,考虑了目标文
档中表征其主题和语义信息的文档属性,从而可以提高关键词提取结果的准确性,并且由于无需人工标注关键词的训练数据,进而也降低了关键词的提取成本,得到成本更低、准确性更高的提取结果。
[0007]一种可能的实现方式中,该方法还包括:利用无监督方法,计算候选关键词的第二得分;则根据第一得分,从多个候选关键词中确定目标关键词,包括:根据第一得分和第二得分,从多个候选关键词中确定目标关键词。这样,能够在充分考虑了利用无监督方法计算的候选关键词的得分的情况下,进一步提高关键词提取结果的准确性。
[0008]一种可能的实现方式中,利用文档属性,计算候选关键词的第一得分,包括:从预先构建的关键词-属性相关度字典中获取文档属性和候选关键词之间的相关度值,关键词-属性相关度字典中存储了关键词与文档属性之间的相关度值;根据文档属性和候选关键词之间的相关度值,计算候选关键词的第一得分。这样,能够利用预先构建的关键词-属性相关度字典,更加快速、准确的计算出候选关键词的第一得分。
[0009]一种可能的实现方式中,该方法还包括:利用预先构建的文档库和关键词词典,构建关键词-属性相关度字典;其中,文档库中存储了多个领域的多个文档、以及每个文档对应的文档属性;关键词词典中存储了多个领域的多个关键词。以保证关键词-属性相关度字典中文档属性和候选关键词之间的相关度值的准确性和完整性。
[0010]一种可能的实现方式中,利用预先构建的文档库和关键词词典,构建关键词-属性相关度字典,包括:提取文档库中各个文档的文档属性;计算关键词词典中每一关键词与文档库中每一文档属性之间的相关度;由每一关键词与每一文档属性,以及每一关键词与每一文档属性之间的相关度,形成关键词-属性相关度字典。从而能够构建一个准确性更高、覆盖范围更广的关键词-属性相关度字典。
[0011]一种可能的实现方式中,该方法还包括:对目标文档进行分词处理,得到多个分词词语,并从多个分词词语中选取满足预设条件的分词词语,作为候选关键词。这样,能够更加准确、快速的确定出目标文档包含的关键词。
[0012]一种可能的实现方式中,该方法还包括:对目标文档进行去噪预处理,得到预处理后的目标文档;则对目标文档进行分词处理,得到多个分词词语,并从多个分词词语中选取满足预设条件的分词词语,作为候选关键词,包括:对预处理后的目标文档进行分词处理,得到多个分词词语,并从多个分词词语中选取满足预设条件的分词词语,作为候选关键词。从而进一步保证了目标文档数据的准确性。
[0013]第二方面,本申请还提供了一种关键词提取装置,该装置包括:获取单元,用于获取目标文档的文档属性;其中,文档属性用于表征目标文档的主题和语义信息;目标文档包括多个候选关键词;第一计算单元,用于利用文档属性,计算候选关键词的第一得分;其中,第一得分用于表征候选关键词与文档属性的相关度;确定单元,用于根据第一得分,从多个候选关键词中确定目标关键词。
[0014]一种可能的实现方式中,该装置还包括:第二计算单元,用于利用无监督方法,计算候选关键词的第二得分;则确定单元具体用于:根据第一得分和所述第二得分,从多个候选关键词中确定目标关键词。
[0015]一种可能的实现方式中,第一计算单元具体用于:从预先构建的关键词-属性相关度字典中获取文档属性和候选关键词之间的相关度值,其中,关键词-属性相关度字典中存
储了关键词与文档属性之间的相关度值;和根据文档属性和候选关键词之间的相关度值,计算候选关键词的第一得分。
[0016]一种可能的实现方式中,该装置还包括:构建单元,用于利用预先构建的文档库和关键词词典,构建关键词-属性相关度字典;其中,文档库中存储了多个领域的多个文档、以及每个文档对应的文档属性;关键词词典中存储了多个领域的多个关键词。
[0017]一种可能的实现方式中,构建单元具体用于:提取文档库中各个文档的文档属性;计算关键词词典中每一关键词与文档库中每一文档属性之间的相关度;和由每一关键词与每一文档属性,以及每一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词提取方法,其特征在于,所述方法包括:获取目标文档的文档属性;所述文档属性用于表征所述目标文档的主题和语义信息;所述目标文档包括多个候选关键词;利用所述文档属性,计算所述候选关键词的第一得分;所述第一得分用于表征所述候选关键词与所述文档属性的相关度;根据所述第一得分,从所述多个候选关键词中确定目标关键词。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用无监督方法,计算所述候选关键词的第二得分;所述根据所述第一得分,从所述多个候选关键词中确定目标关键词,包括:根据所述第一得分和所述第二得分,从所述多个候选关键词中确定目标关键词。3.根据权利要求1或2所述的方法,其特征在于,所述利用所述文档属性,计算所述候选关键词的第一得分,包括:从预先构建的关键词-属性相关度字典中获取所述文档属性和所述候选关键词之间的相关度值,所述关键词-属性相关度字典中存储了关键词与文档属性之间的相关度值;根据所述文档属性和所述候选关键词之间的相关度值,计算所述候选关键词的第一得分。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:利用预先构建的文档库和关键词词典,构建所述关键词-属性相关度字典;其中,所述文档库中存储了多个领域的多个文档、以及每个文档对应的文档属性;所述关键词词典中存储了多个领域的多个关键词。5.根据权利要求4所述的方法,其特征在于,所述利用预先构建的文档库和关键词词典,构建所述关键词-属性相关度字典,包括:提取所述文档库中各个文档的文档属性;计算所述关键词词典中每一关键词与所述文档库中每一文档属性之间的相关度;由每一关键词与每一文档属性,以及每一关键词与每一文档属性之间的相关度,形成所述关键词-属性相关度字典。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述目标文档进行分词处理,得到多个分词词语,并从所述多个分词词语中选取满足预设条件的分词词语,作为所述候选关键词。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:对所述目标文档进行去噪预处理,得到预处理后的目标文档;所述对所述目标文档进行分词处理,得到多个分词词语,并从所述多个分词词语中选取满足预设条件的分词词语,作为候选关键词,包括:对所述预处理后的目标文档进行分词处理,得到多个分词词语,并从所述多个分词词语中选取满足预设条件的分词词语,作为所述候选关键词。8.一种关键词提取装置,其特征在于,所述装置包括:获取单元,用于获取目标文档的文档属性;所述文档属性用于表征...

【专利技术属性】
技术研发人员:崔桐肖镜辉
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利