数据处理方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:37393784 阅读:14 留言:0更新日期:2023-04-27 07:31
本申请公开了一种数据处理方法、装置、电子设备及计算机存储介质。其中,该方法包括:获取目标文本;将所述目标文本输入标注模型中进行标注得到标注结果;所述标注结果包括所述目标文本包括的实体和类型;所述类型至少包括所述实体对应的实体类型;所述标注模型基于所述目标文本所属领域的多个已知实体和类型的训练文本训练得到;判断所述标注结果是否满足更新所述目标文本所属领域的知识图谱的条件;若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,能够将文本标注和知识图谱协同起来,在对文本进行标注的同时推理出其类型等,实现文本标注的认知功能。能。能。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及计算机存储介质


[0001]本申请涉及自然语言处理和计算机信息处理
,尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]当前,人工智能正在从感知智能向认知智能前进。作为认知智能的关键环节,需要能够从文本中挖掘命名实体进行一定的关系推理决策。现有的文本标注往往只标注了命名实体识别,而不能与知识图谱对齐。而在认知智能中,仅仅进行识别命名实体并不能够在知识图谱中搜索到相应的推理路径。

技术实现思路

[0003]本申请实施例提供了一种数据处理方法、装置、电子设备及计算机存储介质,能够将文本标注和知识图谱协同起来,在对文本进行标注的同时推理出其类型等,实现文本标注的认知功能。所述技术方案如下:
[0004]第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
[0005]获取目标文本;
[0006]将所述目标文本输入标注模型中进行标注得到标注结果;所述标注结果包括所述目标文本包括的实体和类型;所述类型至少包括所述实体对应的实体类型;所述标注模型基于所述目标文本所属领域的多个已知实体和类型的训练文本训练得到;
[0007]判断所述标注结果是否满足更新所述目标文本所属领域的知识图谱的条件;
[0008]若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱。
[0009]本申请实施例中,通过标注模型标注得到目标文本包括的实体和类型,并能够将标注得到的目标文本包括的实体和类型用于实时更新知识图谱,从而将文本标注和知识图谱协同起来,在对文本进行标注的同时推理出其类型等,实现文本标注的认知功能。
[0010]在一种可能的实现方式中,所述目标文本包括N个实体和类型,N为大于或等于2的正整数;所述类型还包括所述N个实体之间对应的关系类型;
[0011]所述将所述目标文本输入标注模型中进行标注得到标注结果,包括:
[0012]将所述目标文本进行标注得到所述目标文本包括的N个实体;
[0013]将所述N个实体进行分类得到所述N个实体对应的实体类型;
[0014]根据所述N个实体对应的实体类型确定所述N个实体之间的关系类型。
[0015]本申请实施例中,通过标注模型对目标文本进行标注得到目标文本包括的N个实体,标注模型还可以将N个实体进行分类得到所述N个实体对应的实体类型,并根据所述N个实体对应的实体类型确定所述N个实体之间的关系类型,从而实现对文本中命名实体的挖掘和关系推理,更加完善了文本标注的认知功能。
[0016]在一种可能的实现方式中,所述判断所述标注结果是否满足更新所述知识图谱的
条件,包括:
[0017]判断所述N个实体和所述N个实体之间的关系类型是否均满足更新所述知识图谱的条件;
[0018]所述若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,包括:
[0019]若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱。
[0020]本申请实施例中,通过判断所述N个实体和所述N个实体之间的关系类型是否均满足更新所述知识图谱的条件决定是否需要对知识图谱进行更新,能够保证更新的内容符合知识图谱的要求,一定程度上保证了更新知识图谱的准确率。
[0021]在一种可能的实现方式中,所述标注结果还包括所述N个实体对应的实体置信度;
[0022]所述判断所述N个实体和所述N个实体之间的关系类型是否均满足更新所述知识图谱的条件之前,所述方法还包括:
[0023]判断所述N个实体对应的实体置信度是否均大于预设实体置信度阈值且小于1;
[0024]若是,则根据所述知识图谱确定所述N个实体一一对应的N个最优变换实体;所述N个最优变换实体为所述知识图谱中包括的实体;
[0025]所述若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,包括:
[0026]若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果和所述N个最优变换实体更新所述知识图谱。
[0027]本申请实施例中,通过将目标文本包括的所述N个实体全部变换为知识图谱中包括的对应的N个最优变换实体,即将命名实体标注规范化,与知识图谱对齐,拓宽了适用文本范围,实现对书面语和非书面语的解析。
[0028]在一种可能的实现方式中,所述标注结果还包括实体对之间的关系类型对应的关系类型置信度;所述关系类型置信度用于表征所述实体对之间存在关系的概率,所述N个实体包括至少一个所述实体对;
[0029]所述判断所述N个实体和所述N个实体之间的关系类型是否均满足更新所述知识图谱的条件,包括:
[0030]判断任意一个所述实体对包含的两个实体对应的实体置信度是否均大于预设实体置信度阈值且所述实体对的关系类型置信度是否大于预设关系类型置信度阈值;
[0031]所述若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,包括:若任意一个所述实体对包含的两个实体对应的置信度均大于预设实体置信度阈值且所述实体对的关系类型置信度大于预设关系类型置信度阈值,则基于所述标注结果更新所述知识图谱。
[0032]本申请实施例中,所述标注结果还包括实体对之间的关系类型对应的关系类型置信度,通过对实体置信度和关系置信度进行判断从而决定是否更新知识图谱,确保了进行更新的实体和关系的准确率,将文本标注与知识图谱构建协同起来,减少了人工工作量,实现了知识图谱的实时动态更新。
[0033]在一种可能的实现方式中,所述标注结果还包括所述实体对应的多个实体类型各
自对应的实体类型置信度;
[0034]所述将所述目标文本输入标注模型中进行标注得到标注结果之后,所述若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱之前,所述方法还包括:
[0035]判断所述多个实体类型各自对应的实体类型置信度是否满足预设实体类型置信度条件;
[0036]若所述多个实体类型各自对应的实体类型置信度满足预设实体类型置信度条件,则确定所述多个实体类型置信度中最高的实体类型置信度对应的实体类型为所述实体的最优实体类型;
[0037]所述若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,包括:
[0038]若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果和所述最优实体类型更新所述知识图谱。
[0039]本申请实施例中,通过判断所述多个实体类型各自对应的实体类型置信度从而确定所述实体的最优实体类型,确保了文本标注中标注实体类型的准确率,从而提高了更新知识图谱的准确率和文本标注的效率。
[0040]在一种可能的实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标文本;将所述目标文本输入标注模型中进行标注得到标注结果;所述标注结果包括所述目标文本包括的实体和类型;所述类型至少包括所述实体对应的实体类型;所述标注模型基于所述目标文本所属领域的多个已知实体和类型的训练文本训练得到;判断所述标注结果是否满足更新所述目标文本所属领域的知识图谱的条件;若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱。2.如权利要求1所述的方法,其特征在于,所述目标文本包括N个实体和类型,N为大于或等于2的正整数;所述类型还包括所述N个实体之间对应的关系类型;所述将所述目标文本输入标注模型中进行标注得到标注结果,包括:将所述目标文本进行标注得到所述目标文本包括的N个实体;将所述N个实体进行分类得到所述N个实体对应的实体类型;根据所述N个实体对应的实体类型确定所述N个实体之间的关系类型。3.如权利要求2所述的方法,其特征在于,所述判断所述标注结果是否满足更新所述知识图谱的条件,包括:判断所述N个实体和所述N个实体之间的关系类型是否均满足更新所述知识图谱的条件;所述若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,包括:若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱。4.如权利要求3所述的方法,其特征在于,所述标注结果还包括所述N个实体对应的实体置信度;所述判断所述N个实体和所述N个实体之间的关系类型是否均满足更新所述知识图谱的条件之前,所述方法还包括:判断所述N个实体对应的实体置信度是否均大于预设实体置信度阈值且小于1;若是,则根据所述知识图谱确定所述N个实体一一对应的N个最优变换实体;所述N个最优变换实体为所述知识图谱中包括的实体;所述若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,包括:若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果和所述N个最优变换实体更新所述知识图谱。5.如权利要求3所述的方法,其特征在于,所述标注结果还包括实体对之间的关系类型对应的关系类型置信度;所述关系类型置信度用于表征所述实体对之间存在关系的概率,所述N个实体包括至少一个所述实体对;所述判断所述N个实体和所述N个实体之间的关系类型是否均满足更新所述知识图谱的条件,包括:判断任意一个所述实体对包含的两个实体对应的实体置信度是否均大于预设实体置
信度阈值且所述实体对的关系类型置信度是否大于预设关系类型置信度阈值;所述若所述N个实体和所述N个实体之间的关系类型均满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱,包括:若任意一个所述实体对包含的两个实体对应的置信度均大于预设实体置信度阈值且所述实体对的关系类型置信度大于预设关系类型置信度阈值,则基于所述标注结果更新所述知识图谱。6.如权利要求1所述的方法,其特征在于,所述标注结果还包括所述实体对应的多个实体类型各自对应的实体类型置信度;所述将所述目标文本输入标注模型中进行标注得到标注结果之后,所述若所述标注结果满足更新所述知识图谱的条件,则基于所述标注结果更新所述知识图谱之前,所述方法还包括:判断所述多个实体类型各自对应的...

【专利技术属性】
技术研发人员:张似衡
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1