【技术实现步骤摘要】
一种政策关键词抽取方法、装置、存储介质及电子设备
[0001]本申请涉及计算机
,具体涉及一种政策关键词抽取方法、装置、存储介质及电子设备。
技术介绍
[0002]在检索场景,用户输入检索条件,将检索条件进行切词,在语料库中对每个切分后的词进行召回,这就需要对语料库中的每条文本数据进行准确的关键词抽取。
[0003]通用的关键词抽取方法为收集大量语料文本,对语料中的每条文本数据进行分词,通过tf
‑
idf指标计算每个词的权重得分,将权重得分最高的词作为关键词。由于政策场景语料文本数量相对较少,且进行分词时可能会出现无效切分,导致政策关键词的抽取不够准确。
技术实现思路
[0004]本申请提供一种政策关键词抽取方法、装置、存储介质及电子设备,通过对关键词获取模型获取到的每个关键词进行向量化处理,基于每个关键词的权重分确定文本数据最准确的关键词,能够在政策场景下语料文本较少时,提高切分关键词的准确性,进而使得政策关键词的抽取更为准确。
[0005]第一方面,本申请提供了一种 ...
【技术保护点】
【技术特征摘要】
1.一种政策关键词抽取方法,其特征在于,所述方法包括:获取关键词抽取模型;获取文本数据,基于所述关键词抽取模型对所述文本数据进行关键词抽取,得到至少一个关键词;对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量;分别计算各所述关键词表示向量与所述文本表示向量的余弦相似度值,得到所述至少一个关键词的权重分;基于各所述权重分对所述关键词进行排序,将排序最高的关键词确定为所述文本数据对应的关键词。2.根据权利要求1所述的方法,其特征在于,所述获取关键词抽取模型,包括:获取文本训练数据;对所述文本训练数据进行关键词标注,得到标注数据;基于所述标注数据训练得到关键词抽取模型。3.根据权利要求1所述的方法,其特征在于,所述获取文本数据之后,还包括:搜索并删除所述文本数据中的停用词、非法符号以及年限词。4.根据权利要求1所述的方法,其特征在于,所述对所述文本数据以及所述至少一个关键词进行向量化处理,得到文本表示向量与至少一个关键词表示向量,包括:获取BERT预训练模型;基于所述BERT预训练模型对所述文本数据进行向量化处理,生成文本表示向量;基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量。5.根据权利要求4所述的方法,其特征在于,所述基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,生成至少一个关键词表示向量,包括:基于所述BERT预训练模型对所述至少一个关键词进行向量化处理,得到至少一个关键词预向量;分别使...
【专利技术属性】
技术研发人员:黄威威,蔡子哲,杨振东,
申请(专利权)人:企知道网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。