【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质
[0001]本申请涉及信息处理
,特别涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
[0002]目前,在某些场景需要从文本中抽取结构数据,但是,如何抽取得到完整且准确的结构数据成为问题。
技术实现思路
[0003]本申请提供如下技术方案:
[0004]本申请一方面提供一种数据处理方法,包括:
[0005]获得待识别文本;
[0006]从标准数据库中确定与所述待识别文本之间的相似度满足目标条件的第一文本,所述标准数据库包括至少一个文本及所述文本对应的结构数据,所述第一文本属于所述至少一个文本,所述结构数据为从所述文本中抽取出的,用于表征所述文本描述的对象的至少一种属性的属性特征;
[0007]确定与所述第一文本对应的结构数据;
[0008]确定所述待识别文本与所述第一文本之间的差异部分;
[0009]基于所述差异部分和所述第一文本对应的结构数据,获得所述待识别文本的结构数据。
[0010]所述 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获得待识别文本;从标准数据库中确定与所述待识别文本之间的相似度满足目标条件的第一文本,所述标准数据库包括至少一个文本及所述文本对应的结构数据,所述第一文本属于所述至少一个文本,所述结构数据为从所述文本中抽取出的,用于表征所述文本描述的对象的至少一种属性的属性特征;确定与所述第一文本对应的结构数据;确定所述待识别文本与所述第一文本之间的差异部分;基于所述差异部分和所述第一文本对应的结构数据,获得所述待识别文本的结构数据。2.根据权利要求1所述的方法,所述从标准数据库中确定与所述待识别文本之间的相似度满足目标条件的第一文本,包括:确定标准数据库中所述文本与所述待识别文本之间的相似度;从所述待识别文本与所述至少一个文本之间的相似度中,确定最大相似度;将所述至少一个文本中所述最大相似度对应的文本确定为第一文本。3.根据权利要求1所述的方法,所述确定所述待识别文本与所述第一文本之间的差异部分,包括:从所述待识别文本中提取至少一种第一属性的第一属性特征,保存所述至少一种第一属性的第一属性特征至第一哈希映射表;从所述第一文本中提取至少一种第二属性的第二属性特征,保存所述至少一种第二属性的第二属性特征至第二哈希映射表;遍历所述第一哈希映射表中的第一键对象,在所述第二哈希映射表中不存在所述第一键对象的情况下,确定所述第一键对象对应的第一属性特征为差异部分,所述第一键对象基于所述第一属性特征得到。4.根据权利要求1
‑
3任意一项所述的方法,所述基于所述差异部分和所述第一文本对应的结构数据,获得所述待识别文本的结构数据,包括:从所述差异部分中抽取与抽取任务相关的属性特征,所述与抽取任务相关的属性特征来自所述待识别文本;基于所述与抽取任...
【专利技术属性】
技术研发人员:程其江,祁宏升,屈鹏展,马颖政,
申请(专利权)人:联想北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。