一种语料数据处理方法、装置、电子设备及介质制造方法及图纸

技术编号:22295508 阅读:22 留言:0更新日期:2019-10-15 04:39
本发明专利技术公开了一种语料数据处理方法、装置、电子设备及介质。所述方法包括:获取目标领域的待处理语料数据;根据所述目标领域对应的知识图谱,获取所述待处理语料数据中的目标实体和目标谓词,生成对应的待匹配实体映射关系;基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,过滤所述待处理语料数据以得到具有目标意图的目标语料数据;其中,所述目标实体映射关系基于所述知识图谱设置。能够有效提高获得目标语料数据的效率。这样获得的目标语料数据具有目标意图,进而可以提高以目标语料数据为输入进行训练的模型的质量。

A corpus data processing method, device, electronic equipment and medium

【技术实现步骤摘要】
一种语料数据处理方法、装置、电子设备及介质
本专利技术涉及互联网通信
,尤其涉及一种语料数据处理方法、装置、电子设备及介质。
技术介绍
智能问答系统是一种新型的信息服务系统,可以根据用户的输入分析意图,为用户解答问题。目前,智能问答系统在智能客服、智能家电等场景得到了广泛的应用,也受到了广大用户的喜爱。对于用户输入的来自于不同领域(比如医疗、教育、法律领域等)的查询语料数据,智能问答系统作出有效的应答。现有技术中,往往以人工的方式从待处理语料数据中选择出目标语料数据,基于这些目标语料数据构建智能问答系统中对应领域的模型。然而,这样人力成本消耗大,处理效率低;同时对于对应领域,获取得到的目标语料数据针对性差、噪声大,进而影响构建的智能问答系统的质量。
技术实现思路
为了解决现有技术应用在对待处理语料数据进行处理时处理效率低、处理效果较差等问题,本专利技术提供了一种语料数据处理方法、装置、电子设备及介质:一方面,本专利技术提供了一种语料数据处理方法,所述方法包括:获取目标领域的待处理语料数据;根据所述目标领域对应的知识图谱,获取所述待处理语料数据中的目标实体和目标谓词,生成对应的待匹配实体映射关系;基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,过滤所述待处理语料数据以得到具有目标意图的目标语料数据;其中,所述目标实体映射关系基于所述知识图谱设置。另一方面提供了一种语料数据处理装置,所述装置包括:获取模块:用于获取目标领域的待处理语料数据;生成模块:用于根据所述目标领域对应的知识图谱,获取所述待处理语料数据中的目标实体和目标谓词,生成对应的待匹配实体映射关系;过滤模块:用于基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,使用布隆过滤器过滤所述待处理语料数据以得到具有目标意图的目标语料数据;其中,所述目标实体映射关系基于所述知识图谱设置。另一方面提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的语料数据处理方法。另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的语料数据处理方法。本专利技术提供的一种语料数据处理方法、装置、电子设备及介质,具有如下技术效果:本专利技术基于目标领域的知识图谱,利用SPO(SubjectPredicateObject,主谓宾)三元组中的实体和谓词关系,对待处理语料数据进行处理得到具有目标意图的目标语料数据。能够有效提高获得目标语料数据的效率。这样获得的目标语料数据具有目标意图,进而可以提高以目标语料数据为输入进行训练的模型的质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本专利技术实施例提供的一种应用环境的示意图;图2是本专利技术实施例提供的一种语料数据处理方法的流程示意图;图3是本专利技术实施例提供的根据所述目标领域对应的知识图谱,获取所述待处理语料数据中的目标实体和目标谓词,生成对应的待匹配实体映射关系的一种的流程示意图;图4是本专利技术实施例提供的根据所述知识图谱,获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词,生成对应的待匹配实体类别映射关系的一种流程示意图;图5是本专利技术实施例提供的基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,过滤所述待处理语料数据以得到目标语料数据的一种流程示意图;图6也是本专利技术实施例提供的一种语料数据处理方法的流程示意图;图7是本专利技术实施例提供的一种意图识别模型的应用场景的示意图;图8是本专利技术实施例提供的一种输入查询语料数据的应用场景的示意图;图9也是本专利技术实施例提供的一种输入查询语料数据的应用场景的示意图;图10是本专利技术实施例提供的一种语料数据处理装置的组成框图;图11是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。请参阅图1,图1是本专利技术实施例提供的一种应用环境的示意图,智能问答系统可以包括客户端01和服务器02,客户端与服务器通过网络连接。用户通过客户端将查询语料数据发送至服务器,服务器对接收到的查询语料数据作处理以识别其意图,进而得到对应的应答语料数据。需要说明的是,图1仅仅是一种示例。具体的,客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,本说明书实施例中,所述服务器02可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器02可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器02可以为上述客户端提供后台服务。在实际应用中,通过意图识别,可以以意图类型来确定查询语料数据所属的领域,比如人物、植物、动物领域等。尤其对于一些相似领域(比如小说、漫画、电影、视频等),可以基于对查询语料数据的意图识别有效的进行领域区分,进而得到更准确的应答语料数据。以下介绍本专利技术一种语料数据处理方法的具体实施例,图2是本专利技术实施例提供的一种语料数据处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:S201:获取目标领域的待处理语料数据;在本专利技术实施例中,获取目标领域的待处理语料数据的过程可以包括:首先,获取候选语料数据。所述候选语料数据可以是来自全领域的。比如目标领域为人物领域,候选语料数据可以不局限于人物领域。所述候选语料数据可以是来自某线上应用一定时间段(比如一天、一周)内的用户搜索日志。然后,选取指向所述目标领域的筛选信息。所述筛选信息包括从目标领域关键词、目标领域统一资源定位符、目标领域黑名单组成的群组中选择的至少本文档来自技高网...

【技术保护点】
1.一种语料数据处理方法,其特征在于,所述方法包括:获取目标领域的待处理语料数据;根据所述目标领域对应的知识图谱,获取所述待处理语料数据中的目标实体和目标谓词,生成对应的待匹配实体映射关系;基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,过滤所述待处理语料数据以得到具有目标意图的目标语料数据;其中,所述目标实体映射关系基于所述知识图谱设置。

【技术特征摘要】
1.一种语料数据处理方法,其特征在于,所述方法包括:获取目标领域的待处理语料数据;根据所述目标领域对应的知识图谱,获取所述待处理语料数据中的目标实体和目标谓词,生成对应的待匹配实体映射关系;基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,过滤所述待处理语料数据以得到具有目标意图的目标语料数据;其中,所述目标实体映射关系基于所述知识图谱设置。2.根据权利要求1所述的方法,其特征在于,所述基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,过滤所述待处理语料数据以得到目标语料数据,包括:基于每个所述目标实体映射关系对应的数据,分别构建对应的布隆过滤器;根据所述布隆过滤器对应的哈希函数,对所述待匹配实体映射关系对应的数据进行处理,得到待匹配位数组;根据所述布隆过滤器对应的参考位数组和所述待匹配位数组,确定所述待匹配实体映射关系与所述目标实体映射关系之间的匹配程度;其中,所述待匹配位数组和所述参考位数组的数组长度相同。3.根据权利要求1所述的方法,其特征在于,所述基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度,过滤所述待处理语料数据以得到具有目标意图的目标语料数据,包括:使用布隆过滤器过滤所述待处理语料数据,得到具有目标意图的所述目标语料数据;根据所述目标语料数据具有所述目标意图的概率与预设阈值之间的关系,或者所述目标语料数据的数量,调整所述布隆过滤器的性能参数;其中,所述性能参数包括从所述布隆过滤器对应的哈希函数的类型、哈希函数的数量、位数组的数组长度组成的群组中选择的至少一个。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标领域对应的知识图谱,获取所述待处理语料数据中的目标实体和目标谓词,生成对应的待匹配实体映射关系,包括:根据所述知识图谱,获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词,生成对应的待匹配实体类别映射关系;根据所述待匹配实体类别映射关系与目标实体类别映射关系之间的匹配程度,对所述待处理语料数据进行过滤处理,得到中间语料数据;基于所述中间语料数据,生成所述待匹配实体映射关系;其中,所述目标实体类别映射关系基于所述知识图谱设置。5.根据权利要求4所述的方法,其特征在于,所述根据所述知识图谱,获取所述待处理语料数据中的所述...

【专利技术属性】
技术研发人员:周辉阳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1