一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33711532 阅读:30 留言:0更新日期:2022-06-06 08:45
本申请提供了一种数据处理方法、装置、电子设备及存储介质,该方法包括:获得待识别文本;从标准数据库中确定与待识别文本之间的相似度满足目标条件的第一文本,标准数据库包括至少一个文本及文本对应的结构数据,第一文本属于至少一个文本,结构数据为从文本中抽取出的,用于表征文本描述的对象的至少一种属性的属性特征;确定与第一文本对应的结构数据;确定待识别文本与第一文本之间的差异部分;基于差异部分和第一文本对应的结构数据,获得待识别文本的结构数据。别文本的结构数据。别文本的结构数据。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及信息处理
,特别涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,在某些场景需要从文本中抽取结构数据,但是,如何抽取得到完整且准确的结构数据成为问题。

技术实现思路

[0003]本申请提供如下技术方案:
[0004]本申请一方面提供一种数据处理方法,包括:
[0005]获得待识别文本;
[0006]从标准数据库中确定与所述待识别文本之间的相似度满足目标条件的第一文本,所述标准数据库包括至少一个文本及所述文本对应的结构数据,所述第一文本属于所述至少一个文本,所述结构数据为从所述文本中抽取出的,用于表征所述文本描述的对象的至少一种属性的属性特征;
[0007]确定与所述第一文本对应的结构数据;
[0008]确定所述待识别文本与所述第一文本之间的差异部分;
[0009]基于所述差异部分和所述第一文本对应的结构数据,获得所述待识别文本的结构数据。
[0010]所述从标准数据库中确定与本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获得待识别文本;从标准数据库中确定与所述待识别文本之间的相似度满足目标条件的第一文本,所述标准数据库包括至少一个文本及所述文本对应的结构数据,所述第一文本属于所述至少一个文本,所述结构数据为从所述文本中抽取出的,用于表征所述文本描述的对象的至少一种属性的属性特征;确定与所述第一文本对应的结构数据;确定所述待识别文本与所述第一文本之间的差异部分;基于所述差异部分和所述第一文本对应的结构数据,获得所述待识别文本的结构数据。2.根据权利要求1所述的方法,所述从标准数据库中确定与所述待识别文本之间的相似度满足目标条件的第一文本,包括:确定标准数据库中所述文本与所述待识别文本之间的相似度;从所述待识别文本与所述至少一个文本之间的相似度中,确定最大相似度;将所述至少一个文本中所述最大相似度对应的文本确定为第一文本。3.根据权利要求1所述的方法,所述确定所述待识别文本与所述第一文本之间的差异部分,包括:从所述待识别文本中提取至少一种第一属性的第一属性特征,保存所述至少一种第一属性的第一属性特征至第一哈希映射表;从所述第一文本中提取至少一种第二属性的第二属性特征,保存所述至少一种第二属性的第二属性特征至第二哈希映射表;遍历所述第一哈希映射表中的第一键对象,在所述第二哈希映射表中不存在所述第一键对象的情况下,确定所述第一键对象对应的第一属性特征为差异部分,所述第一键对象基于所述第一属性特征得到。4.根据权利要求1

3任意一项所述的方法,所述基于所述差异部分和所述第一文本对应的结构数据,获得所述待识别文本的结构数据,包括:从所述差异部分中抽取与抽取任务相关的属性特征,所述与抽取任务相关的属性特征来自所述待识别文本;基于所述与抽取任...

【专利技术属性】
技术研发人员:程其江祁宏升屈鹏展马颖政
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1