关键词识别方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:39036085 阅读:11 留言:0更新日期:2023-10-10 11:49
本发明专利技术实施例公开了一种关键词识别方法、装置、电子设备和计算机可读存储介质;本发明专利技术实施例在获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本后,对待识别文本进行特征提取,得到待识别文本的文本特征,然后,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词;该方案可以提升关键词识别的准确率,本发明专利技术实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。辅助驾驶等各种场景。辅助驾驶等各种场景。

【技术实现步骤摘要】
关键词识别方法、装置、电子设备和计算机可读存储介质


[0001]本专利技术涉及通信
,具体涉及一种关键词识别方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]近年来,随着互联网技术的飞速发展,通过网络进行各种信息交互也变得日益频繁,比如,针对特定对象或物品的投诉等反馈信息。为了利用这些反馈信息维护网络安全环境,就需要在这些反馈信息中识别出关键词。现有的关键词识别方法往往都是通过人工审核的方式进行识别。
[0003]在对现有技术的研究和实践过程中,本专利技术的专利技术人发现由于反馈信息的文本数据量较大,而且数据结构也非一般结构化数据,不同的审核人员审核的结果往往也存在差异,因此,导致关键词识别的准确率较低。

技术实现思路

[0004]本专利技术实施例提供一种关键词识别方法、装置、电子设备和计算机可读存储介质,可以提高关键词识别的准确率。
[0005]一种关键词识别方法,包括:
[0006]获取针对至少一个对象的反馈信息,并在所述反馈信息中提取出待识别文本;
[0007]对所述待识别文本进行特征提取,得到所述待识别文本的文本特征;
[0008]根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,所述反馈类型用于指示所述反馈信息的类型,所述反馈参数用于指示所述待识别文本在所述反馈类型中的重要程度;
[0009]基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛选出至少一个目标文本;
[0010]对所述目标文本进行分词,并根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词,所述词属性信息用于指示所述文本词在所述目标文本中的重要程度。
[0011]相应的,本专利技术实施例提供一种关键词识别装置,包括:
[0012]获取单元,用于获取针对至少一个对象的反馈信息,并在所述反馈信息中提取出待识别文本;
[0013]提取单元,用于对所述待识别文本进行特征提取,得到所述待识别文本的文本特征;
[0014]确定单元,用于根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,所述反馈类型用于指示所述反馈信息的类型,所述反馈参数用于指示所述待识别文本在所述反馈类型中的重要程度;
[0015]筛选单元,用于基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛
选出至少一个目标文本;
[0016]识别单元,用于对所述目标文本进行分词,并根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词。
[0017]可选的,在一些实施例中,所述筛选单元,具体可以用于根据所述反馈类型,对所述待识别文本进行分类,得到每一反馈类型对应的待识别文本集合;基于所述反馈参数,对所述待识别文件集合中的待识别文本进行排序;根据排序信息,对所述待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。
[0018]可选的,在一些实施例中,所述筛选单元,具体可以用于
[0019]根据排序信息,在所述待识别文件集合中筛选出排序位置未超过预设排序位置阈值的待识别文本,得到至少一个无效待识别文本;在所述待识别文本集合中对所述无效待识别文本进行过滤,得到至少一个目标文本。
[0020]可选的,在一些实施例中,所述识别单元,具体可以用于统计所述目标文本的文本数量,得到第一文本数量;根据所述第一文本数量,确定分词后的每一文本词的词属性信息;基于所述词属性信息和所述反馈类型,在所述文本词中筛选出至少一个关键词。
[0021]可选的,在一些实施例中,所述识别单元,具体可以用于在所述目标文本中统计出包含所述文本词的文本数量,得到第二文本数量;根据所述第一文本数量和第二文本数量,计算每一所述文本词的词频和逆文档频率;将所述词频和逆文档频率进行融合,得到所述文本词的词属性信息。
[0022]可选的,在一些实施例中,所述识别单元,具体可以用于在所述目标文本中筛选出每一反馈类型对应的反馈文本,并统计所述反馈文本的文本数量,得到第三文本数量;在所述文本词中识别出文本字符,并根据所述第三文本数量和文本字符,计算每一所述文本词的后验概率,所述后验概率用于指示所述文本词出现特定反馈类型的目标文本中的概率;根据所述词属性信息和后验概率,在所述文本词中筛选出至少一个关键词。
[0023]可选的,在一些实施例中,所述识别单元,具体可以用于根据所述第三文本数量,计算所述每一文本词的分布概率,得到词分布概率;基于所述文本字符、第一文本数量和第三文本数量,计算所述文本字符的分布概率,得到字符分布概率;将所述词分布概率和字符分布概率进行融合,得到所述文本词的后验概率。
[0024]可选的,在一些实施例中,所述识别单元,具体可以用于根据所述后验概率,对所述文本词进行过滤,得到过滤后文本词;基于所述词属性信息,对所述过滤后文本词进行排序;根据排序信息,在所述过滤后文本词中筛选出至少一个关键词。
[0025]可选的,在一些实施例中,所述确定单元,具体可以用于采用训练后文本处理模型在所述文本特征中提取出反馈类型特征;根据所述反馈类型特征,确定所述待识别文本对应的反馈类型;采用所述训练后文本处理模型将所述文本特征转换为所述待识别文本的反馈有效性特征,以得到反馈参数。
[0026]可选的,在一些实施例中,所述关键词识别装置还可以训练单元,所述训练单元,具体可以用于获取至少一个样本对象的反馈文本样本集合,所述反馈文本样本集合包括至少一个标注对象类型和标注反馈类型的反馈文本样本;采用预设文本处理模型预测所述反馈文本样本的反馈类型,得到预测反馈类型;根据所述反馈文本样本,采用所述预设文本处理模型预测所述样本对象的对象类型,得到预测对象类型;根据所述标注对象类型、标注反
馈类型、预测反馈类型和预测对象类型,对所述预设文本处理模型进行收敛,得到训练后文本处理模型。
[0027]可选的,在一些实施例中,所述训练单元,具体可以用于采用所述预设文本处理模型对所述反馈文本样本进行特征提取,并将提取出的样本文本特征转换为样本反馈有效性特征;根据所述样本反馈有效性特征,确定所述反馈文本样本的样本反馈参数,并基于所述样本反馈参数,计算每一所述反馈文本样本的反馈权重;基于所述反馈权重,对所述样本文本特征进行融合,并基于融合后样本文本特征,确定所述样本对象的对象类型,得到预测对象类型。
[0028]可选的,在一些实施例中,所述训练单元,具体可以用于根据所述标注对象类型和预测对象类型,确定所述反馈文本样本的对象损失信息;基于所述标注反馈类型和预测反馈类型,确定所述反馈文本样本的反馈损失信息;获取所述反馈损失信息的融合参数,并基于所述融合参数,将所述反馈损失信息和对象损失信息进行融合;基于融合后损失信息对所述预设文本处理模型进行收敛,得到训练后文本处理模型。
[0029]可选的,在一些实施例中,所述训练单元,具体可以用于获取至少一个样本对象的原始反馈文本样本集合;当所述原始反馈文本样本集合中的反本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词识别方法,其特征在于,包括:获取针对至少一个对象的反馈信息,并在所述反馈信息中提取出待识别文本;对所述待识别文本进行特征提取,得到所述待识别文本的文本特征;根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,所述反馈类型用于指示所述反馈信息的类型,所述反馈参数用于指示所述待识别文本在所述反馈类型中的重要程度;基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛选出至少一个目标文本;对所述目标文本进行分词,并根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词,所述词属性信息用于指示所述文本词在所述目标文本中的重要程度。2.根据权利要求1所述的关键词识别方法,其特征在于,所述基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛选出至少一个目标文本,包括:根据所述反馈类型,对所述待识别文本进行分类,得到每一反馈类型对应的待识别文本集合;基于所述反馈参数,对所述待识别文件集合中的待识别文本进行排序;根据排序信息,对所述待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。3.根据权利要求2所述的关键词识别方法,其特征在于,所述根据排序信息,对所述待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本,包括:根据排序信息,在所述待识别文件集合中筛选出排序位置未超过预设排序位置阈值的待识别文本,得到至少一个无效待识别文本;在所述待识别文本集合中对所述无效待识别文本进行过滤,得到至少一个目标文本。4.根据权利要求1至3任一项所述的关键词识别方法,其特征在于,所述根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词,包括:统计所述目标文本的文本数量,得到第一文本数量;根据所述第一文本数量,确定分词后的每一文本词的词属性信息;基于所述词属性信息和所述反馈类型,在所述文本词中筛选出至少一个关键词。5.根据权利要求4所述的关键词识别方法,其特征在于,所述根据所述第一文本数量,确定分词后的每一文本词的词属性信息,包括:在所述目标文本中统计出包含所述文本词的文本数量,得到第二文本数量;根据所述第一文本数量和第二文本数量,计算每一所述文本词的词频和逆文档频率;将所述词频和逆文档频率进行融合,得到所述文本词的词属性信息。6.根据权利要求4所述的关键词识别方法,其特征在于,所述基于所述词属性信息和所述反馈类型,在所述文本词中筛选出至少一个关键词,包括:在所述目标文本中筛选出每一反馈类型对应的反馈文本,并统计所述反馈文本的文本数量,得到第三文本数量;在所述文本词中识别出文本字符,并根据所述第三文本数量和文本字符,计算每一所述文本词的后验概率,所述后验概率用于指示所述文本词出现特定反馈类型的目标文本中
的概率;根据所述词属性信息和后验概率,在所述文本词中筛选出至少一个关键词。7.根据权利要求6所述的关键词识别方法,其特征在于,所述根据所述第三文本数量和文本字符,计算每一所述文本词的后验概率,包括:根据所述第三文本数量,计算所述每一文本词的分布概率,得到词分布概率;基于所述文本字符、第一文本数量和第三文本数量,计算所述文本字符的分布概率,得到字符分布概率;将所述词分布概率和字符分布概率进行融合,得到所述文本词的后验概率。8.根据权利要求6所述的关键词识别方法,其特征在于,所述根据所述词属性信息和后验概率,在所述文本词中筛选出至少一个关键词,包括:根据所述后验概率,对所述文本词进行过滤,得到过滤后文本词;基于所述词属性信息,对所述过滤后文本词进行排序;根据排序信息,在所述过滤后文本词中筛选出至少一个关键词。9.根据权利要求1至3任一项所述的关键词识别方法,其特征在于,所述根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,包括:采用训练后文本处理模型在所述文本特征中提取出反馈类型特征;根据所述反馈类型特征,确定所述待识别文本对应的反馈类型;采用所述训练后文本处理模型将所述文本特征转换为所述待识别文本的反馈有效性特征,以得到反馈参数。10.根据权利要求9所述的关键词识别方法,其特征在于,所述采用训练后文本处理模型分别在所述文本特征中提取出反馈类型特征...

【专利技术属性】
技术研发人员:刘全赟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1