数据处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:24331274 阅读:60 留言:0更新日期:2020-05-29 19:41
本申请提供了一种数据处理方法、装置、电子设备和计算机可读存储介质,其中,该方法包括:获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。本发明专利技术通过生成同义实体库的方式,能够解决现有技术中无法识别实体库中同义不同名的实体对象的技术问题。

Data processing method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
数据处理方法、装置、电子设备和计算机可读存储介质
本申请涉及数据处理的
,具体而言,涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。
技术介绍
目前,随着人工智能技术的快速发展,人工智能已经应用到各个领域,例如,智能医疗,智能餐厅,智能银行等等。不论是智能医疗,智能餐厅,还是智能银行,作为服务提供方,都需要为服务请求方进行人性化,智能化的服务。不论是,智能医疗,还是智能餐厅,都应该包含对应的知识库。当智能医疗或者智能餐厅获取到服务请求方输入的相关信息时,就可以从对应的知识库中查找相关内容,并输出给服务请求方。例如,以智能医疗为例。智能医疗的知识库中包含疾病和症状之间的映射关系。医疗诊断机器人可以根据患者的症状描述,向患者提问是否有其他相关症状。医疗诊断机器人有大概率会问及同义不同名症状,导致重复向患者提问,这样会使用户感觉系统笨拙。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种数据处理方法、装置、电子设备和计算机可读存储介质,通过生成同义实体库的方式,能够解决现有技术中无法识别实体库中同义不同名的实体对象的技术问题。根据本申请的一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。在本申请较佳的实施例中,在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象包括:计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。在本申请较佳的实施例中,基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象包括:若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。在本申请较佳的实施例中,实体对象为目标数据片段;计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值包括:计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度;计算所述目标实体对象与所述实体对象Ai之间的交并比;基于所述目标数值和所述交并比计算所述相似度量值。在本申请较佳的实施例中,基于所述目标数值和所述交并比计算所述相似度量值包括:计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。在本申请较佳的实施例中,计算所述目标实体对象与所述实体对象Ai之间的交并比包括:利用公式计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。在本申请较佳的实施例中,所述实体库中的实体对象为文字片段;在获取待处理的实体库之后,所述方法还包括:利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。在本申请较佳的实施例中,所述实体库中的实体对象之间包含目标符号;在获取待处理的实体库之后,所述方法还包括:利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。在本申请较佳的实施例中,所述实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体;所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中;所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。在本申请较佳的实施例中,在获取待处理的实体库之前,所述方法还包括:建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。在本申请较佳的实施例中,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系包括:在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。在本申请较佳的实施例中,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系包括:在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象所对应的特征实体,得到特征实体集合;建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。在本申请较佳的实施例中,在所述实体库中选择与目标实体对象相匹配的同类型的实体对象包括:基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。根据本申请的另一个方面,还提供一种数据处理装置,包括:获取单元,用于获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;选择和构建单元,用于在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;选择和存储单元,用于在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。在本申请较佳的实施例中,所述选择和存储单元包括:计算模块,用于计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;确定模块,用于基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。在本申请较佳的实施例中,所述确定模块用于:若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。在本申请较佳的实施例中,实体对象为目标数据片段;所述计算模块用本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;/n在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;/n在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,以及包含任意两种类型的实体对象之间的关联映射关系;
在所述实体库中选择与目标实体对象相匹配的同类型的实体对象,并基于所述相匹配的同类型的实体对象构建目标实体集合;
在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象,并将所述目标实体对象与所述同义实体对象之间的关联关系存储在同义实体库中。


2.根据权利要求1所述的方法,其特征在于,在所述目标实体集合中选择与所述目标实体对象语义相同的同义实体对象包括:
计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值,其中,i依次取1至I,I为所述目标实体集合中实体对象的数量;
基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象。


3.根据权利要求2所述的方法,其特征在于,基于所述相似度量值确定与所述目标实体对象语义相同的同义实体对象包括:
若所述相似度量值大于预设数值,则确定所述目标实体集合中的实体对象Ai为与所述目标实体对象语义相同的同义实体对象。


4.根据权利要求2所述的方法,其特征在于,实体对象为目标数据片段;
计算所述目标实体对象与所述目标实体集合中的实体对象Ai之间的相似度量值包括:
计算所述目标实体对象与所述实体对象Ai之间公共数据片段的长度与目标长度之间的比值,得到目标数值,其中,所述目标长度为所述目标实体对象和所述实体对象Ai中最长数据片段的长度;
计算所述目标实体对象与所述实体对象Ai之间的交并比;
基于所述目标数值和所述交并比计算所述相似度量值。


5.根据权利要求4所述的方法,其特征在于,基于所述目标数值和所述交并比计算所述相似度量值包括:
计算所述目标数值和所述交并比之间的均值,并将均值计算结果作为所述相似度量值。


6.根据权利要求4所述的方法,其特征在于,计算所述目标实体对象与所述实体对象Ai之间的交并比包括:
利用公式计算所述目标实体对象与所述实体对象Ai之间的交并比,所述e1表示所述目标实体对象,e2表示所述实体对象Ai,s表示所述交并比。


7.根据权利要求1所述的方法,其特征在于,所述实体库中的实体对象为文字片段;在获取待处理的实体库之后,所述方法还包括:
利用正则匹配算法删除所述实体库中除目标关键词之外其他文字信息;其中,所述目标关键词为文字片段中用于表征各个实体对象的关键词。


8.根据权利要求1或7所述的方法,其特征在于,所述实体库中的实体对象之间包含目标符号;在获取待处理的实体库之后,所述方法还包括:
利用正则匹配算法删除所述实体库中实体对象之间包含的所述目标符号。


9.根据权利要求1所述的方法,其特征在于,所述实体库中包括三元组信息,所述三元组信息包括:第一类型实体对象和用于表示第一类型实体对象的属性特征的第二类型实体对象,所述第二类型实体对象包括:第一组特征实体和/或第二组特征实体;
所述第一组特征实体和所述第一类型实体对象按照第一单向映射关系存储在所述实体库中,所述第二组特征实体和所述第一类型实体对象按照第二单向映射关系存储在所述实体库中;
所述第一单向映射关系为第一类实体对象中的各个实体对象与第一组特征实体中相对应的特征实体之间的映射关系;所述第二单向映射关系为第二组特征实体中的各个特征实体与第一类型实体对象中所属的实体对象之间的映射关系。


10.根据权利要求9所述的方法,其特征在于,在获取待处理的实体库之前,所述方法还包括:
建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系;和/或
建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。


11.根据权利要求10所述的方法,其特征在于,建立所述第一组特征实体和所述第一类型实体对象之间的反向关联关系包括:
在所述第一类型实体对象中提取所述第一组特征实体中每个特征实体所属的实体对象,得到实体对象集合;
建立所述实体对象集合中的各个实体对象与所述第一组特征实体中特征实体之间的映射关系,从而实现所述第一组特征实体和所述第一类型实体对象之间的反向关联关系。


12.根据权利要求10或11所述的方法,其特征在于,建立所述第二组特征实体和所述第一类型实体对象之间的反向关联关系包括:
在所述第二组特征实体中提取与所述第一类型实体对象中每个实体对象对应的特征实体,得到特征实体集合;
建立所述特征实体集合中的各个特征实体与所述第一类型实体对象中实体对象之间的映射关系,从而实现所述第二组特征实体和所述第一类型实体对象之间的反向关联关系。


13.根据权利要求1所述的方法,其特征在于,在所述实体库中选择与目标实体对象相匹配的同类型的实体对象包括:
基于语言模型在所述实体库中选择与每个实体对象相匹配的同类型的实体对象。


14.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待处理的实体库,其中,所述实体库中包括多种类型的实体对象,...

【专利技术属性】
技术研发人员:孙铭阳杨晓庆李奘
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1