一种关键词的标注方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37536428 阅读:9 留言:0更新日期:2023-05-12 16:04
本说明书公开了一种关键词的标注方法、装置、存储介质及电子设备。该关键词的标注方法包括:获取用户的对话语句,并对对话语句进行分词处理,确定对话语句中包含的各分词,针对每个分词,根据该分词在对话语句中出现的频率,确定该分词对应的重要程度,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词,根据各重构对话语句与所述对话语句之间的语义匹配度,确定对话语句中的各关键词,并对各关键词进行标注。各关键词进行标注。各关键词进行标注。

【技术实现步骤摘要】
一种关键词的标注方法、装置、存储介质及电子设备


[0001]本说明书涉及计算机
,尤其涉及一种关键词的标注方法、装置、存储介质及电子设备。

技术介绍

[0002]科技的发展在为人们的工作和生活提供便利的同时,用户的隐私以及财产安全也面临着巨大的考验,为了保障用户的财产安全,通常需要对用户的交互数据进行分析以及评估,从而甄别出可能出现的风险并及时提醒用户,以实现对风险的有效控制。在此过程中,为了提高风险识别的效率,通常需要通过自然语言处理算法,来提取出用户的交互数据中出现的关键词,从而根据这些关键词进行进一步的风险判断。
[0003]然而,目前的关键词提取方法通常会根据不同词语在文本或对话中出现的频率来确定关键词,但是这种方法提取出的关键词并不符合原本对话的语义,无法将原本对话所要表达的意思进行准确的概括,从而导致后续风险识别的准确性较低,甚至会对风险识别的过程造成误导,导致出现错误的风险识别结果。
[0004]因此,如何准确的确定出与对话语句的语义信息相匹配,且能够准确的概括出对话内容的关键词,从而提高后续风险识别过程的准确性以及效率,是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种关键词的标注方法、装置、存储介质及电子设备。以准确的确定出与对话语句的语义信息相匹配,且能够准确的概括出对话内容的关键词。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种关键词的标注方法,包括:
[0008]获取用户的对话语句,并对所述对话语句进行分词处理,确定所述对话语句中包含的各分词;
[0009]针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度;
[0010]根据每个分词对应的重要程度,选择预设数量的分词,作为候选词;
[0011]将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词;
[0012]根据各重构对话语句与所述对话语句之间的语义匹配度,确定所述对话语句中的各关键词,并对所述各关键词进行标注。
[0013]可选地,针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度,具体包括:
[0014]针对每个分词,根据该分词在所述对话语句中出现的频率,以及该分词在预设语句库中包含的其他对话语句中出现的频率,确定该分词对应的重要程度。
[0015]可选地,所述重要程度与该分词在所述对话语句中出现的频率呈正相关,与该分
词在预设语句库中包含的其他对话语句中出现的频率呈负相关。
[0016]可选地,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词,具体包括:
[0017]将各分词按照所述重要程度由大到小的顺序进行排序,并确定位于预设位次之前的各分词;
[0018]将位于所述预设位次之前的分词进行随机删除,并将剩余的位于所述预设位次之前的各分词作为所述候选词。
[0019]可选地,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,具体包括:
[0020]针对任意一个确定出的候选词组,将该候选词组输入预先训练的语句生成模型中,以确定该候选词组对应的重构对话语句;
[0021]若该候选词组对应的重构对话语句与所述对话语句之间的匹配度大于该候选词组对应的匹配度阈值,则在该候选词组中添加候选词,得到重新确定出的候选词组,并将重新确定出的候选词组输入到所述语句生成模型,以生成重新确定出的候选词组对应的重构对话语句,其中,候选词组中包含的候选词的数量越大,该候选词组对应的匹配度阈值越大。
[0022]可选地,所述方法还包括:
[0023]根据标注出的各关键词,对所述用户执行的业务进行风险识别。
[0024]可选地,训练所述语句生成模型,具体包括:
[0025]获取历史对话语句;
[0026]对所述历史对话语句进行分词处理,确定所述历史对话语句中包含的各分词;
[0027]针对所述历史对话语句中的每个分词,根据该分词在所述历史对话语句中出现的频率,确定该分词对应的历史重要程度;
[0028]根据所述历史对话语句中的每个分词对应的历史重要程度,选择预设数量的分词,作为历史候选词;
[0029]将各历史候选词输入所述语句生成模型中,以确定历史重构语句;
[0030]以最小化所述历史对话语句和所述历史重构语句之间的偏差为优化目标,对所述语句生成模型进行训练。
[0031]本说明书提供了一种关键词的标注装置,包括:
[0032]获取模块,获取用户的对话语句,并对所述对话语句进行分词处理,确定所述对话语句中包含的各分词;
[0033]确定模块,针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度;
[0034]选择模块,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词;
[0035]输入模块,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词;
[0036]标注模块根据各重构对话语句与所述对话语句之间的语义匹配度,确定所述对话语句中的各关键词,并对所述各关键词进行标注。
[0037]可选地,所述确定模块用于,针对每个分词,根据该分词在所述对话语句中出现的
频率,以及该分词在预设语句库中包含的其他对话语句中出现的频率,确定该分词对应的重要程度。
[0038]可选地,所述重要程度与该分词在所述对话语句中出现的频率呈正相关,与该分词在预设语句库中包含的其他对话语句中出现的频率呈负相关。
[0039]可选地,所述选择模块具体用于,将各分词按照所述重要程度由大到小的顺序进行排序,并确定位于预设位次之前的各分词;将位于所述预设位次之前的分词进行随机删除,并将剩余的位于所述预设位次之前的各分词作为所述候选词。
[0040]可选地,所述输入模块具体用于,针对任意一个确定出的候选词组,将该候选词组输入预先训练的语句生成模型中,以确定该候选词组对应的重构对话语句;若该候选词组对应的重构对话语句与所述对话语句之间的匹配度大于该候选词组对应的匹配度阈值,则在该候选词组中添加候选词,得到重新确定出的候选词组,并将重新确定出的候选词组输入到所述语句生成模型,以生成重新确定出的候选词组对应的重构对话语句,其中,候选词组中包含的候选词的数量越大,该候选词组对应的匹配度阈值越大。
[0041]可选地,所述装置还包括:
[0042]训练模块,用于获取历史对话语句;对所述历史对话语句进行分词处理,确定所述历史对话语句中包含的各分词;针对所述历史对话语句中的每个分词,根据该分词在所述历史对话语句中出现的频率,确定该分词对应的历史重要程度;根据所述历史对话语句中的每个分词对应的历史本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词的标注方法,包括:获取用户的对话语句,并对所述对话语句进行分词处理,确定所述对话语句中包含的各分词;针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度;根据每个分词对应的重要程度,选择预设数量的分词,作为候选词;将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词;根据各重构对话语句与所述对话语句之间的语义匹配度,确定所述对话语句中的各关键词,并对所述各关键词进行标注。2.如权利要求1所述的方法,针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度,具体包括:针对每个分词,根据该分词在所述对话语句中出现的频率,以及该分词在预设语句库中包含的其他对话语句中出现的频率,确定该分词对应的重要程度。3.如权利要求2所述的方法,所述重要程度与该分词在所述对话语句中出现的频率呈正相关,与该分词在所述预设语句库中包含的其他对话语句中出现的频率呈负相关。4.如权利要求1所述的方法,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词,具体包括:将各分词按照所述重要程度由大到小的顺序进行排序,并确定位于预设位次之前的各分词;将位于所述预设位次之前的分词进行随机删除,并将剩余的位于所述预设位次之前的各分词作为所述候选词。5.如权利要求1所述的方法,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,具体包括:针对任意一个确定出的候选词组,将该候选词组输入预先训练的语句生成模型中,以确定该候选词组对应的重构对话语句;若该候选词组对应的重构对话语句与所述对话语句之间的匹配度大于该候选词组对应的匹配度阈值,则在该候选词组中添加候选词,得到重新确定出的候选词组,并将重新确定出的候选词组输入到所述语句生成模型,以生成重新确定出的候选词组对应的重构对话语句,其中,候选词组中包含的候选词的数量越大,该候选词组对应的匹配度阈值越大。6.如权利要求1所述的方法,所述方法还包括:根据标注出的各关键词,对所述用户执行的业务进行风险识别。7.如权利要求1所述的方法,训练所述语句生成模型,具体包括:获取历史对话语句;对所述历史对话语句进行分词处理,确定所述历史对话语句中包含的各分词;针对所述历史对话语句中的每个分词,根据该分词在所述历史对话语句中出现的频率,确定该分词对应的历史重要程度;根据所述历史对话语句中的每个分词对应的历史重要程度,选择预设数量的分词,作为历史候选词;
将各历史候选词输入所述语句生成模型中,以确定历史重构语句;以最小化所述历史对话语句和所述历史重构语句之间的偏差为优化目标,对所述语句生成模型进行训练。8.一种关键词的标...

【专利技术属性】
技术研发人员:应缜哲林金镇吴晓烽
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1