数据结构化方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29205800 阅读:42 留言:0更新日期:2021-07-10 00:41
本申请关于一种数据结构化方法、装置、计算机设备及存储介质,涉及数据处理技术领域。该方法包括:获取用以描述目标对象对应的指定类型事件的待处理数据;获取待处理数据中的至少两个时间节点,以及至少两个时间节点各自对应的至少一个实体;基于至少两个时间节点,以及至少两个时间节点各自对应的至少一个实体,确定至少一条实体转移路径;同一实体转移路径中的各个实体对应的时间节点不同;获取至少一条实体转移路径对应的路径概率;基于至少一条实体转移路径对应的路径概率,生成待处理数据对应的结构化文本。通过上述方法,使得在数据化结构的过程中,能够提高生成的结构化文本的准确性,通过时间维度信息的引入,提高数据结构化的可解释性。构化的可解释性。构化的可解释性。

【技术实现步骤摘要】
数据结构化方法、装置、计算机设备及存储介质


[0001]本申请涉及数据处理
,特别涉及数据结构化方法、装置、计算机设备及存储介质。

技术介绍

[0002]数据结构化是指将非结构化的文本输入,或者以及半结构化的文本输入,通过结构化后输出有利于数据分析以及挖掘的数据形式。
[0003]在相关技术中,在对非结构化或半结构化的文本进行数据结构化处理时,通常基于文本相似度的匹配方法,或者,基于现有的语言模型进行标准化表达,来达到对数据进行结构化的目的。
[0004]然而,上述进行数据结构化的方法,在进行数据结构化的过程中仅依赖于实体对应的文字内容进行相似度的匹配,数据利用率较低,各个实体之间的关系较为模糊,从而使得数据结构化的准确性较低,可解释性较差。

技术实现思路

[0005]本申请实施例提供了一种数据结构化方法、装置、计算机设备及存储介质,可以提高数据结构化的准确性以及可解释性,该技术方案如下。
[0006]一方面,提供了一种数据结构化方法,所述方法包括:获取待处理数据,所述待处理数据用以描述目标对象对应的指定类型事件;获取所述待处理数据中的至少两个时间节点,以及至少两个所述时间节点各自对应的至少一个实体;所述实体是在对应的所述时间节点上发生的所述指定类型事件的命名实体;基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,确定至少一条实体转移路径;同一所述实体转移路径中的各个所述实体对应的所述时间节点不同;获取至少一条所述实体转移路径对应的路径概率;所述路径概率用以指示所述实体转移路径中的各个所述实体对应的所述指定类型事件依次发生的概率;基于至少一条所述实体转移路径对应的路径概率,生成所述待处理数据对应的结构化文本。
[0007]另一方面,提供了一种数据结构化装置,所述装置包括:第一获取模块,用于获取待处理数据,所述待处理数据用以描述目标对象对应的指定类型事件;第二获取模块,用于获取所述待处理数据中的至少两个时间节点,以及至少两个所述时间节点各自对应的至少一个实体;所述实体是在对应的所述时间节点上发生的所述指定类型事件的命名实体;实体转移路径确定模块,用于基于至少两个所述时间节点,以及至少两个所述时
间节点各自对应的至少一个所述实体,确定至少一条实体转移路径;同一所述实体转移路径中的各个所述实体对应的所述时间节点不同;路径概率获取模块,用于获取至少一条所述实体转移路径对应的路径概率;所述路径概率用以指示所述实体转移路径中的各个所述实体对应的所述指定类型事件依次发生的概率;结构化文本生成模块,用于基于至少一条所述实体转移路径对应的路径概率,生成所述待处理数据对应的结构化文本。
[0008]在一种可能的实现方式中,所述实体转移路径确定模块,包括:时间序列建立子模块,用于基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,建立时间序列;所述时间序列用以记录各个所述时间节点对应的所述实体;实体转移路径确定子模块,用于基于所述时间序列,确定至少一条所述实体转移路径。
[0009]在一种可能的实现方式中,所述实体转移路径确定子模块,包括:目标实体获取单元,用于从至少两个所述时间节点各自对应的至少一个实体中,分别获取一个目标实体;目标实体转移路径构建单元,用于基于至少两个所述时间节点各自对应的所述目标实体,构建目标实体转移路径,所述目标实体转移路径是至少一条所述实体转移路径中的任意一条。
[0010]在一种可能的实现方式中,所述时间序列建立子模块,包括:术语标准化单元,用于对至少一个所述实体进行术语标准化处理,获得至少一个术语标准化后的所述实体;时间节点转化单元,用于将至少一个所述实体对应的所述时间节点转化为时序时间节点;时间序列建立单元,用于基于至少一个术语标准化后的所述实体,以及至少一个所述实体对应的所述时序时间节点,建立所述时间序列。
[0011]在一种可能的实现方式中,所述时间节点转化单元,用于获取所述时间节点的记载形式;对应于所述记载形式,将至少一个所述实体对应的所述时间节点转化为所述时序时间节点。
[0012]在一种可能的实现方式中,响应于所述记载形式为时间戳形式,所述时间节点转化单元,用于基于至少一个所述实体对应的所述时间节点进行绝对化时间标记,获得所述时序时间节点。
[0013]在一种可能的实现方式中,响应于所述记载形式为非时间戳形式,所述时间节点转化单元,用于获取至少一个所述时间节点中的一个时间节点为参考时间节点;基于所述参考时间节点,以及其他时间节点与所述参考时间节点之间的时间差,对至少一个所述实体对应的所述时间信息进行相对数字化标记,获得所述时序时间,所述其他时间节点为至少一个所述时间节点中除所述参考时间节点之外的节点。
[0014]在一种可能的实现方式中,所述参考时间节点是至少一个所述时间节点中与当前
时间节点之间的时间差最长的时间节点;或者,所述参考时间节点是至少一个所述时间节点中与当前时间节点的时间差最短的时间节点。
[0015]在一种可能的实现方式中,所述装置还包括:时间区间获取模块,用于响应于所述待处理数据中未记载第一实体对应的时间节点,获取对应于所述第一实体的所述指定类型事件所处的时间区间;时间节点获取模块,用于以实体均匀分布为标准,基于所述时间区间,获取所述第一实体对应的时间节点。
[0016]在一种可能的实现方式中,所述时间节点获取模块,包括:生成顺序获取子模块,用于获取所述第一实体在所述时间区间中的生成顺序;时间节点获取子模块,用于以实体均匀分布为标准,基于所述时间区间以及所述生成顺序,获取所述第一实体对应的时间节点。
[0017]在一种可能的实现方式中,所述路径概率获取模块,包括:转移概率获取子模块,用于基于目标时间节点之间的时间间隔,获取所述目标实体转移路径中,每m个连续的所述目标实体之间的转移概率;所述转移概率用以指示在m个连续的所述目标实体中,前m

1个目标实体存在的前提下,第m个目标实体对应的所述指定类型事件发生的概率;m为正整数,且m≥2;所述目标时间节点是组成所述目标实体转移路径的所述目标实体对应的所述时间节点;路径概率获取子模块,用于基于所述转移概率,获取所述目标实体转移路径对应的所述路径概率。
[0018]在一种可能的实现方式中,路径概率获取子模块,包括:出现概率计算单元,用于以所述目标实体转移路径中,已出现前n

1个目标实体为条件,基于所述转移概率,计算第n个目标实体的出现概率;所述出现概率用以指示第n个目标实体对应的所述指定类型事件发生的概率;路径概率获取单元,用于响应于第n个目标实体为所述目标实体转移路径中最后一个目标实体,将第n个目标实体的所述出现概率,获取为所述目标实体转移路径对应的所述路径概率,n为正整数,且n≥2。
[0019]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储由至少一条指令、至少一段程序、代码集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据结构化方法,其特征在于,所述方法包括:获取待处理数据,所述待处理数据用以描述目标对象对应的指定类型事件;获取所述待处理数据中的至少两个时间节点,以及至少两个所述时间节点各自对应的至少一个实体;所述实体是在对应的所述时间节点上发生的所述指定类型事件的命名实体;基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,确定至少一条实体转移路径;同一所述实体转移路径中的各个所述实体对应的所述时间节点不同;获取至少一条所述实体转移路径对应的路径概率;所述路径概率用以指示所述实体转移路径中的各个所述实体对应的所述指定类型事件依次发生的概率;基于至少一条所述实体转移路径对应的路径概率,生成所述待处理数据对应的结构化文本。2.根据权利要求1所述的方法,其特征在于,所述基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,确定至少一条实体转移路径,包括:基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,建立时间序列;所述时间序列用以记录各个所述时间节点对应的所述实体;基于所述时间序列,确定至少一条所述实体转移路径。3.根据权利要求2所述的方法,其特征在于,所述基于所述时间序列,确定至少一条所述实体转移路径,包括:从至少两个所述时间节点各自对应的至少一个实体中,分别获取一个目标实体;基于至少两个所述时间节点各自对应的所述目标实体,构建目标实体转移路径,所述目标实体转移路径是至少一条所述实体转移路径中的任意一条。4.根据权利要求2所述的方法,其特征在于,所述基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,建立时间序列,包括:对至少一个所述实体进行术语标准化处理,获得至少一个术语标准化后的所述实体;将至少一个所述实体对应的所述时间节点转化为时序时间节点;基于至少一个术语标准化后的所述实体,以及至少一个所述实体对应的所述时序时间节点,建立所述时间序列。5.根据权利要求4所述的方法,其特征在于,所述将至少一个所述实体对应的时间节点转化为时序时间节点,包括:获取所述时间节点的记载形式;对应于所述记载形式,将至少一个所述实体对应的所述时间节点转化为所述时序时间节点。6.根据权利要求5所述的方法,其特征在于,响应于所述记载形式为时间戳形式,所述基于所述记载形式,将至少一个所述实体对应的所述时间节点转化为所述时序时间节点,包括:基于至少一个所述实体对应的所述时间节点进行绝对化时间标记,获得所述时序时间节点。7.根据权利要求5所述的方法,其特征在于,响应于所述记载形式为非时间戳形式,所
述基于所述记载形式,将至少一个所述实体对应的所述时间节点转化为所述时序时间节点,包括:获取至少一个所述时间节点中的一个时间节点为参考时间节点;基于所述参考时间节点,以及其他时间节点与所述参考时间节点之间的时间差,对至少一个所述实体对应的所述时间信息进行相对数字化标记,获得所述时序时间,所述其他时间节点为至少一个所述时间节点中除所述参考时间节点之外的节点。8.根据权利要求7所述的方法,其特征在于,所述参考时间节点是至少一个所述时间节点中与当前时间节点之间的时间差最长的时间节点;或者,所述参考时间节点是至少一个所述时间节点中与当...

【专利技术属性】
技术研发人员:向玥佳林镇溪陈曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1