一种政策关键词抽取方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37254904 阅读:15 留言:0更新日期:2023-04-20 23:31
本申请提供一种政策关键词抽取方法、装置、存储介质及电子设备,涉及计算机技术领域,其中方法包括:获取关键词抽取模型;获取文本数据,基于关键词抽取模型对文本数据进行关键词抽取,得到至少一个关键词;对文本数据以及至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;分别计算各关键词表示向量与文本表示向量的余弦相似度值,得到至少一个关键词的权重分;基于各权重分对关键词进行排序,将排序最高的关键词确定为文本数据对应的关键词。通过对关键词获取模型获取到的每个关键词进行向量化处理,基于每个关键词的权重分确定文本数据最准确的关键词,能够提高切分关键词的准确性,使得政策关键词的抽取更为准确。抽取更为准确。抽取更为准确。

【技术实现步骤摘要】
一种政策关键词抽取方法、装置、存储介质及电子设备


[0001]本申请涉及计算机
,具体涉及一种政策关键词抽取方法、装置、存储介质及电子设备。

技术介绍

[0002]在检索场景,用户输入检索条件,将检索条件进行切词,在语料库中对每个切分后的词进行召回,这就需要对语料库中的每条文本数据进行准确的关键词抽取。
[0003]通用的关键词抽取方法为收集大量语料文本,对语料中的每条文本数据进行分词,通过tf

idf指标计算每个词的权重得分,将权重得分最高的词作为关键词。由于政策场景语料文本数量相对较少,且进行分词时可能会出现无效切分,导致政策关键词的抽取不够准确。

技术实现思路

[0004]本申请提供一种政策关键词抽取方法、装置、存储介质及电子设备,通过对关键词获取模型获取到的每个关键词进行向量化处理,基于每个关键词的权重分确定文本数据最准确的关键词,能够在政策场景下语料文本较少时,提高切分关键词的准确性,进而使得政策关键词的抽取更为准确。
[0005]第一方面,本申请提供了一种政策关键词抽取方法,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种政策关键词抽取方法,其特征在于,所述方法包括:获取关键词抽取模型;获取文本数据,基于所述关键词抽取模型对所述文本数据进行关键词抽取,得到至少一个关键词;对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;分别计算各所述关键词表示向量与所述文本表示向量的余弦相似度值,得到所述至少一个关键词的权重分;基于各所述权重分对所述关键词进行排序,将排序最高的关键词确定为所述文本数据对应的关键词。2.根据权利要求1所述的方法,其特征在于,所述获取关键词抽取模型,包括:获取文本训练数据;对所述文本训练数据进行关键词标注,得到标注数据;基于所述标注数据训练得到关键词抽取模型。3.根据权利要求1所述的方法,其特征在于,所述获取文本数据之后,还包括:搜索并删除所述文本数据中的停用词、非法符号以及年限词。4.根据权利要求1所述的方法,其特征在于,所述对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量,包括:获取BERT预训练模型;基于所述BERT预训练模型对所述文本数据进行向量化处理,生成文本表示向量;基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量。5.根据权利要求4所述的方法,其特征在于,所述基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量,包括:基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,得到至少一个关键词预向量;分别使...

【专利技术属性】
技术研发人员:黄威威蔡子哲杨振东
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1