【技术实现步骤摘要】
一种关键词的标注方法、装置、存储介质及电子设备
[0001]本说明书涉及计算机
,尤其涉及一种关键词的标注方法、装置、存储介质及电子设备。
技术介绍
[0002]科技的发展在为人们的工作和生活提供便利的同时,用户的隐私以及财产安全也面临着巨大的考验,为了保障用户的财产安全,通常需要对用户的交互数据进行分析以及评估,从而甄别出可能出现的风险并及时提醒用户,以实现对风险的有效控制。在此过程中,为了提高风险识别的效率,通常需要通过自然语言处理算法,来提取出用户的交互数据中出现的关键词,从而根据这些关键词进行进一步的风险判断。
[0003]然而,目前的关键词提取方法通常会根据不同词语在文本或对话中出现的频率来确定关键词,但是这种方法提取出的关键词并不符合原本对话的语义,无法将原本对话所要表达的意思进行准确的概括,从而导致后续风险识别的准确性较低,甚至会对风险识别的过程造成误导,导致出现错误的风险识别结果。
[0004]因此,如何准确的确定出与对话语句的语义信息相匹配,且能够准确的概括出对话内容的关键词,从而提高后续风险识别过程的准确性以及效率,是一个亟待解决的问题。
技术实现思路
[0005]本说明书提供一种关键词的标注方法、装置、存储介质及电子设备。以准确的确定出与对话语句的语义信息相匹配,且能够准确的概括出对话内容的关键词。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种关键词的标注方法,包括:
[0008]获取用户的对话语句,并对所述 ...
【技术保护点】
【技术特征摘要】
1.一种关键词的标注方法,包括:获取用户的对话语句,并对所述对话语句进行分词处理,确定所述对话语句中包含的各分词;针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度;根据每个分词对应的重要程度,选择预设数量的分词,作为候选词;将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词;根据各重构对话语句与所述对话语句之间的语义匹配度,确定所述对话语句中的各关键词,并对所述各关键词进行标注。2.如权利要求1所述的方法,针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度,具体包括:针对每个分词,根据该分词在所述对话语句中出现的频率,以及该分词在预设语句库中包含的其他对话语句中出现的频率,确定该分词对应的重要程度。3.如权利要求2所述的方法,所述重要程度与该分词在所述对话语句中出现的频率呈正相关,与该分词在所述预设语句库中包含的其他对话语句中出现的频率呈负相关。4.如权利要求1所述的方法,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词,具体包括:将各分词按照所述重要程度由大到小的顺序进行排序,并确定位于预设位次之前的各分词;将位于所述预设位次之前的分词进行随机删除,并将剩余的位于所述预设位次之前的各分词作为所述候选词。5.如权利要求1所述的方法,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,具体包括:针对任意一个确定出的候选词组,将该候选词组输入预先训练的语句生成模型中,以确定该候选词组对应的重构对话语句;若该候选词组对应的重构对话语句与所述对话语句之间的匹配度大于该候选词组对应的匹配度阈值,则在该候选词组中添加候选词,得到重新确定出的候选词组,并将重新确定出的候选词组输入到所述语句生成模型,以生成重新确定出的候选词组对应的重构对话语句,其中,候选词组中包含的候选词的数量越大,该候选词组对应的匹配度阈值越大。6.如权利要求1所述的方法,所述方法还包括:根据标注出的各关键词,对所述用户执行的业务进行风险识别。7.如权利要求1所述的方法,训练所述语句生成模型,具体包括:获取历史对话语句;对所述历史对话语句进行分词处理,确定所述历史对话语句中包含的各分词;针对所述历史对话语句中的每个分词,根据该分词在所述历史对话语句中出现的频率,确定该分词对应的历史重要程度;根据所述历史对话语句中的每个分词对应的历史重要程度,选择预设数量的分词,作为历史候选词;
将各历史候选词输入所述语句生成模型中,以确定历史重构语句;以最小化所述历史对话语句和所述历史重构语句之间的偏差为优化目标,对所述语句生成模型进行训练。8.一种关键词的标...
【专利技术属性】
技术研发人员:应缜哲,林金镇,吴晓烽,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。