【技术实现步骤摘要】
数据结构化方法、装置、计算机设备及存储介质
[0001]本申请涉及数据处理
,特别涉及数据结构化方法、装置、计算机设备及存储介质。
技术介绍
[0002]数据结构化是指将非结构化的文本输入,或者以及半结构化的文本输入,通过结构化后输出有利于数据分析以及挖掘的数据形式。
[0003]在相关技术中,在对非结构化或半结构化的文本进行数据结构化处理时,通常基于文本相似度的匹配方法,或者,基于现有的语言模型进行标准化表达,来达到对数据进行结构化的目的。
[0004]然而,上述进行数据结构化的方法,在进行数据结构化的过程中仅依赖于实体对应的文字内容进行相似度的匹配,数据利用率较低,各个实体之间的关系较为模糊,从而使得数据结构化的准确性较低,可解释性较差。
技术实现思路
[0005]本申请实施例提供了一种数据结构化方法、装置、计算机设备及存储介质,可以提高数据结构化的准确性以及可解释性,该技术方案如下。
[0006]一方面,提供了一种数据结构化方法,所述方法包括:获取待处理数据,所述待处理数据用以描述目标对象对应的指定类型事件;获取所述待处理数据中的至少两个时间节点,以及至少两个所述时间节点各自对应的至少一个实体;所述实体是在对应的所述时间节点上发生的所述指定类型事件的命名实体;基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,确定至少一条实体转移路径;同一所述实体转移路径中的各个所述实体对应的所述时间节点不同;获取至少一条所述实体转移路径对应的路径概率;所 ...
【技术保护点】
【技术特征摘要】
1.一种数据结构化方法,其特征在于,所述方法包括:获取待处理数据,所述待处理数据用以描述目标对象对应的指定类型事件;获取所述待处理数据中的至少两个时间节点,以及至少两个所述时间节点各自对应的至少一个实体;所述实体是在对应的所述时间节点上发生的所述指定类型事件的命名实体;基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,确定至少一条实体转移路径;同一所述实体转移路径中的各个所述实体对应的所述时间节点不同;获取至少一条所述实体转移路径对应的路径概率;所述路径概率用以指示所述实体转移路径中的各个所述实体对应的所述指定类型事件依次发生的概率;基于至少一条所述实体转移路径对应的路径概率,生成所述待处理数据对应的结构化文本。2.根据权利要求1所述的方法,其特征在于,所述基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,确定至少一条实体转移路径,包括:基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,建立时间序列;所述时间序列用以记录各个所述时间节点对应的所述实体;基于所述时间序列,确定至少一条所述实体转移路径。3.根据权利要求2所述的方法,其特征在于,所述基于所述时间序列,确定至少一条所述实体转移路径,包括:从至少两个所述时间节点各自对应的至少一个实体中,分别获取一个目标实体;基于至少两个所述时间节点各自对应的所述目标实体,构建目标实体转移路径,所述目标实体转移路径是至少一条所述实体转移路径中的任意一条。4.根据权利要求2所述的方法,其特征在于,所述基于至少两个所述时间节点,以及至少两个所述时间节点各自对应的至少一个所述实体,建立时间序列,包括:对至少一个所述实体进行术语标准化处理,获得至少一个术语标准化后的所述实体;将至少一个所述实体对应的所述时间节点转化为时序时间节点;基于至少一个术语标准化后的所述实体,以及至少一个所述实体对应的所述时序时间节点,建立所述时间序列。5.根据权利要求4所述的方法,其特征在于,所述将至少一个所述实体对应的时间节点转化为时序时间节点,包括:获取所述时间节点的记载形式;对应于所述记载形式,将至少一个所述实体对应的所述时间节点转化为所述时序时间节点。6.根据权利要求5所述的方法,其特征在于,响应于所述记载形式为时间戳形式,所述基于所述记载形式,将至少一个所述实体对应的所述时间节点转化为所述时序时间节点,包括:基于至少一个所述实体对应的所述时间节点进行绝对化时间标记,获得所述时序时间节点。7.根据权利要求5所述的方法,其特征在于,响应于所述记载形式为非时间戳形式,所
述基于所述记载形式,将至少一个所述实体对应的所述时间节点转化为所述时序时间节点,包括:获取至少一个所述时间节点中的一个时间节点为参考时间节点;基于所述参考时间节点,以及其他时间节点与所述参考时间节点之间的时间差,对至少一个所述实体对应的所述时间信息进行相对数字化标记,获得所述时序时间,所述其他时间节点为至少一个所述时间节点中除所述参考时间节点之外的节点。8.根据权利要求7所述的方法,其特征在于,所述参考时间节点是至少一个所述时间节点中与当前时间节点之间的时间差最长的时间节点;或者,所述参考时间节点是至少一个所述时间节点中与当...
【专利技术属性】
技术研发人员:向玥佳,林镇溪,陈曦,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。