语义识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28150833 阅读:19 留言:0更新日期:2021-04-21 19:42
本申请提供一种语义识别方法、装置、电子设备和存储介质,本申请的语义识别方法包括:获取待处理数据;将待处理数据输入基于深度学习的语义识别模型,得到第一语义识别结果;基于预设语义逻辑和预设表达式集合,对待处理数据进行语义识别,得到第二语义识别结果;判断第二语义识别结果中是否存在预设的异常表达式;当第二语义识别结果中存在预设的异常表达式时,将第二语义识别结果作为待处理数据的最终识别结果输出;当第二语义识别结果中不存在预设的异常表达式时,将第一语义识别结果和第二语义识别结果取并集以生成最终语义识别结果,并输出最终语义识别结果。故本申请可以提高待处理数据中敏感语义识别的正确率。高待处理数据中敏感语义识别的正确率。高待处理数据中敏感语义识别的正确率。

【技术实现步骤摘要】
语义识别方法、装置、电子设备和存储介质


[0001]本申请涉及语义识别的
,具体而言,涉及一种语义识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着网上聊天的迅速普及,越来越多的网络聊天场景显现,对于网上发言的安全检测也越来越重要。在网络聊天过程中产生的聊天文字记录、语音记录等数量庞大,难以及时地靠人工进行监测和检验,因此,现有的审校方法通常是使用敏感词表扫描的方法来检查敏感词。敏感词表扫描的方法,是用一个敏感词表,检索该发言中是否包含指定敏感词,如果有,就作为风险点标示出来,这种方法简便易行,计算速度也有保障,但是正确率不高。
[0003]例如,由于自然语言并不遵循严格的形式化语言限制,同一个意思往往有多种表述形式,在词语级别会体现为大量的同义词。这些同义词几乎不可能被穷举,更不要说比喻、拟人和隐喻等修辞手法了,从而使得敏感词表本身不能包含所有的敏感词,敏感词表本身的扩展性限制,造成敏感词表扫描的方法正确率不高。
[0004]再者由于一词多义现象,同一个词在不同的上下文下往往会表现出截然不同的含义,比如:你简直就是个垃圾;随意倾倒医疗垃圾,而且屡教不改。垃圾这个词,在前一个句子中是对客户进行人身攻击,在后一个句子中是一种客观事物的描述,并没有攻击性,但是在敏感词表中由于这两个句子都包括“垃圾”,使得这两个句子都被判断为敏感文本,造成敏感词表扫描的方法判断错误。

技术实现思路

[0005]本申请实施例的目的在于提供一种语义识别方法、装置、电子设备和存储介质,用以提高待处理数据中敏感语义识别的正确率。
[0006]第一方面,本申请提供一种语义识别方法,包括:获取待处理数据;将待处理数据输入基于深度学习的语义识别模型,得到第一语义识别结果;基于预设语义逻辑和预设表达式集合,对待处理数据进行语义识别,得到第二语义识别结果;判断第二语义识别结果中是否存在预设的异常表达式;当第二语义识别结果中存在预设的异常表达式时,将第二语义识别结果作为待处理数据的最终识别结果输出;当第二语义识别结果中不存在预设的异常表达式时,将第一语义识别结果和第二语义识别结果取并集以生成最终语义识别结果,并输出最终语义识别结果。
[0007]于一实施例中,预设表达式集合中包括:多个语义表达式,每个语义表达式包括按照预设语义逻辑排布的多个词簇。
[0008]于一实施例中,基于预设语义逻辑和预设表达式集合,对待处理数据进行语义识
别,得到第二语义识别结果,包括:将待处理数据切分成多个待处理字符串,并识别多个待处理字符串的语义顺序信息;于预设表达式集合中查找同时包含多个待处理字符串的候选表达式集合;判断候选表达式集合中是否存在与多个待处理字符串的语义顺序信息相同的目标表达式;当候选表达式集合中存在与多个待处理字符串的语义顺序信息相同的目标表达式时,将目标表达式和目标表达式标记的提示标签作为第二语义识别结果。
[0009]于一实施例中,基于预设语义逻辑和预设表达式集合,对待处理数据进行语义识别,得到第二语义识别结果,还包括:当候选表达式集合中不存在与多个待处理字符串的语义顺序信息相同的目标表达式时,确定第二语义识别结果为待处理数据校验通过。
[0010]于一实施例中,在获取待处理数据之前,还包括:获取词簇生成命令,词簇生成命令中携带有种子词;在预设的同义词库中查找种子词的同义词,并记录查找到的同义词;判断同义词库中是否存在未被查找到的种子词的同义词;当同义词库中不存在未被查找到的种子词的同义词时,生成词簇。
[0011]于一实施例中,基于预设语义逻辑和预设表达式集合,对待处理数据进行语义识别,得到第二语义识别结果之前,包括:接收初始表达式;将初始表达式切分成多个规则字符串,并识别多个规则字符串的规则顺序信息;规则字符串的类型包括运算符、前括号、后括号和单词中的一个或多个;基于规则字符串和规则顺序信息,判断初始表达式的格式是否正确;当初始表达式的格式正确时,判断初始表达式的语义逻辑是否正确;当初始表达式的语义逻辑正确时,将初始表达式添加到预设表达式集合中。
[0012]于一实施例中,将待处理数据输入基于深度学习的语义识别模型,得到第一语义识别结果之前,包括:获取语言样本集合,语言样本集合标注了各个语言样本的语义识别结果;利用语言样本集合对神经网络模型进行训练,得到语义识别模型。
[0013]第二方面,本申请提供一种语义识别装置,包括:获取模块,用于获取待处理数据;第一语义识别模块,用于将待处理数据输入基于深度学习的语义识别模型,得到第一语义识别结果;第二语义识别模块,用于基于预设语义逻辑和预设表达式集合,对待处理数据进行语义识别,得到第二语义识别结果;判断模块,用于判断第二语义识别结果中是否存在预设的异常表达式;第一输出模块,用于当第二语义识别结果中存在预设的异常表达式时,将第二语义识别结果作为待处理数据的最终识别结果输出;第二输出模块,用于当第二语义识别结果中不存在预设的异常表达式时,将第一
语义识别结果和第二语义识别结果取并集以生成最终语义识别结果,并输出最终语义识别结果。
[0014]第三方面,本申请提供一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行如前述实施方式中任一项的方法。
[0015]第四方面,本申请提供一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得电子设备执行前述实施方式中任一项的方法。
[0016]本申请提供的语义识别方法、装置、电子设备和存储介质,采用预设表达式集合和基于深度学习的语义识别模型的联合作业模式来实现待处理数据中敏感语义识别,且提高了待处理数据中敏感语义识别的正确率。
附图说明
[0017]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0018]图1为本申请一实施例示出的电子设备的结构示意图。
[0019]图2为本申请一实施例的语义识别方法的流程示意图。
[0020]图3为本申请图2对应实施例中步骤130的细节流程示意图。
[0021]图4为本申请图2对应实施例中步骤120的细节流程示意图。
[0022]图5为本申请图2对应实施例中步骤110的细节流程示意图。
[0023]图6为本申请图2对应实施例中步骤130的细节流程示意图。
[0024]图7为本申请图6对应实施例中步骤1303的细节流程示意图。
[0025]图8为本申请图6对应实施例中步骤1304的细节流程示意图。
[0026]图9为本申请图2对应实施例中步骤110的细节流程示意图。
[0027]图10为本申请一实施例示出的语义识别装置的结构示意图。
[0028]图标:80

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义识别方法,其特征在于,包括:获取待处理数据;将所述待处理数据输入基于深度学习的语义识别模型,得到第一语义识别结果;基于预设语义逻辑和预设表达式集合,对所述待处理数据进行语义识别,得到第二语义识别结果;判断所述第二语义识别结果中是否存在预设的异常表达式;当所述第二语义识别结果中存在预设的异常表达式时,将所述第二语义识别结果作为所述待处理数据的最终识别结果输出;当所述第二语义识别结果中不存在预设的异常表达式时,将所述第一语义识别结果和所述第二语义识别结果取并集以生成最终语义识别结果,并输出所述最终语义识别结果。2.根据权利要求1所述的方法,其特征在于,所述预设表达式集合中包括:多个语义表达式,每个所述语义表达式包括按照所述预设语义逻辑排布的多个词簇。3.根据权利要求2所述的方法,其特征在于,所述基于预设语义逻辑和预设表达式集合,对所述待处理数据进行语义识别,得到第二语义识别结果,包括:将所述待处理数据切分成多个待处理字符串,并识别所述多个待处理字符串的语义顺序信息;于所述预设表达式集合中查找同时包含所述多个待处理字符串的候选表达式集合;判断所述候选表达式集合中是否存在与所述多个待处理字符串的语义顺序信息相同的目标表达式;当所述候选表达式集合中存在与所述多个待处理字符串的语义顺序信息相同的目标表达式时,将所述目标表达式和所述目标表达式标记的提示标签作为所述第二语义识别结果。4.根据权利要求3所述的方法,其特征在于,所述基于预设语义逻辑和预设表达式集合,对所述待处理数据进行语义识别,得到第二语义识别结果,还包括:当所述候选表达式集合中不存在与所述多个待处理字符串的语义顺序信息相同的目标表达式时,确定第二语义识别结果为所述待处理数据校验通过。5.根据权利要求1所述的方法,其特征在于,在所述获取待处理数据之前,还包括:获取词簇生成命令,所述词簇生成命令中携带有种子词;在预设的同义词库中查找所述种子词的同义词,并记录查找到的同义词;判断所述同义词库中是否存在未被查找到的所述种子词的同义词;当所述同义词库中不存在未被查...

【专利技术属性】
技术研发人员:张猛
申请(专利权)人:北京轻松筹信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1