一种语料数据处理方法、装置、电子设备及介质制造方法及图纸

技术编号：22295508 阅读：22 留言：0更新日期：2019-10-15 04:39

本发明专利技术公开了一种语料数据处理方法、装置、电子设备及介质。所述方法包括：获取目标领域的待处理语料数据；根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；其中，所述目标实体映射关系基于所述知识图谱设置。能够有效提高获得目标语料数据的效率。这样获得的目标语料数据具有目标意图，进而可以提高以目标语料数据为输入进行训练的模型的质量。

A corpus data processing method, device, electronic equipment and medium

全部详细技术资料下载

【技术实现步骤摘要】
一种语料数据处理方法、装置、电子设备及介质
本专利技术涉及互联网通信
，尤其涉及一种语料数据处理方法、装置、电子设备及介质。
技术介绍
智能问答系统是一种新型的信息服务系统，可以根据用户的输入分析意图，为用户解答问题。目前，智能问答系统在智能客服、智能家电等场景得到了广泛的应用，也受到了广大用户的喜爱。对于用户输入的来自于不同领域(比如医疗、教育、法律领域等)的查询语料数据，智能问答系统作出有效的应答。现有技术中，往往以人工的方式从待处理语料数据中选择出目标语料数据，基于这些目标语料数据构建智能问答系统中对应领域的模型。然而，这样人力成本消耗大，处理效率低；同时对于对应领域，获取得到的目标语料数据针对性差、噪声大，进而影响构建的智能问答系统的质量。
技术实现思路
为了解决现有技术应用在对待处理语料数据进行处理时处理效率低、处理效果较差等问题，本专利技术提供了一种语料数据处理方法、装置、电子设备及介质：一方面，本专利技术提供了一种语料数据处理方法，所述方法包括：获取目标领域的待处理语料数据；根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；其中，所述目标实体映射关系基于所述知识图谱设置。另一方面提供了一种语料数据处理装置，所述装置包括：获取模块：用于获取目标领域的待处理语料数据；生成模块：用于根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配...

【技术保护点】
1.一种语料数据处理方法，其特征在于，所述方法包括：获取目标领域的待处理语料数据；根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；其中，所述目标实体映射关系基于所述知识图谱设置。

【技术特征摘要】
1.一种语料数据处理方法，其特征在于，所述方法包括：获取目标领域的待处理语料数据；根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系；基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据；其中，所述目标实体映射关系基于所述知识图谱设置。2.根据权利要求1所述的方法，其特征在于，所述基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到目标语料数据，包括：基于每个所述目标实体映射关系对应的数据，分别构建对应的布隆过滤器；根据所述布隆过滤器对应的哈希函数，对所述待匹配实体映射关系对应的数据进行处理，得到待匹配位数组；根据所述布隆过滤器对应的参考位数组和所述待匹配位数组，确定所述待匹配实体映射关系与所述目标实体映射关系之间的匹配程度；其中，所述待匹配位数组和所述参考位数组的数组长度相同。3.根据权利要求1所述的方法，其特征在于，所述基于所述待匹配实体映射关系与目标实体映射关系之间的匹配程度，过滤所述待处理语料数据以得到具有目标意图的目标语料数据，包括：使用布隆过滤器过滤所述待处理语料数据，得到具有目标意图的所述目标语料数据；根据所述目标语料数据具有所述目标意图的概率与预设阈值之间的关系，或者所述目标语料数据的数量，调整所述布隆过滤器的性能参数；其中，所述性能参数包括从所述布隆过滤器对应的哈希函数的类型、哈希函数的数量、位数组的数组长度组成的群组中选择的至少一个。4.根据权利要求1所述的方法，其特征在于，所述根据所述目标领域对应的知识图谱，获取所述待处理语料数据中的目标实体和目标谓词，生成对应的待匹配实体映射关系，包括：根据所述知识图谱，获取所述待处理语料数据中的所述目标实体所属的目标实体类别以及所述目标谓词，生成对应的待匹配实体类别映射关系；根据所述待匹配实体类别映射关系与目标实体类别映射关系之间的匹配程度，对所述待处理语料数据进行过滤处理，得到中间语料数据；基于所述中间语料数据，生成所述待匹配实体映射关系；其中，所述目标实体类别映射关系基于所述知识图谱设置。5.根据权利要求4所述的方法，其特征在于，所述根据所述知识图谱，获取所述待处理语料数据中的所述...

【专利技术属性】
技术研发人员：周辉阳，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人