【技术实现步骤摘要】
一种变更数据的结构化处理方法和装置
本专利技术涉及计算机
,尤其涉及一种变更数据的结构化处理方法和装置。
技术介绍
在比对非结构化数据时,很难快速获得有用信息,例如在比对公司变更信息时,会涉及将高管、经理等非结构化数据分析后转化为结构化数据,然后进行信息提取。其中,结构化数据也被称为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号等。在项目中,保存和管理这些的数据的一般为关系数据库。当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。例如将非结构化数据“副总经理:廖某陈某;董事:陈某;董事:周某;董事:林某;董事长:梁某;总经理:梁某;董事:黄某;董事:李某”,可处理得到结构化数据“姓名:周某;职位:董事;姓名:黄某;职位:董事;姓名:林某;职位:董事;等”,结构化数据更能较好的为下游业务服务。但是,由于不同地区、不同职位的非结构化数据较为复杂,导致现有技术中没有一种较好的方法对该类数据进行结构化。
技术实现思路
有鉴于此,本专利技术实施例提供一种变更数据的结构化处理方法和装 ...
【技术保护点】
1.一种变更数据的结构化处理方法,其特征在于,包括:/n获取当前变更数据组,所述当前变更数据组中包括变更前数据和变更后数据;/n分别提取所述变更前数据和变更后数据的特征信息,以得到变更前格式化数据和变更后格式化数据;/n将所述变更前格式化数据和变更后格式化数据进行比对,以及根据比对结果对所述当前变更数据组进行标记。/n
【技术特征摘要】
1.一种变更数据的结构化处理方法,其特征在于,包括:
获取当前变更数据组,所述当前变更数据组中包括变更前数据和变更后数据;
分别提取所述变更前数据和变更后数据的特征信息,以得到变更前格式化数据和变更后格式化数据;
将所述变更前格式化数据和变更后格式化数据进行比对,以及根据比对结果对所述当前变更数据组进行标记。
2.根据权利要求1所述的方法,其特征在于,分别提取所述变更前数据和变更后数据的特征信息,以得到变更前格式化数据和变更后格式化数据的步骤包括:
识别所述变更前数据和所述变更后数据的类别;
在预设的类别与目标提取策略的对应关系中,根据识别的类别确定对应的目标提取策略,以及根据所述目标提取策略分别提取所述变更前数据和变更后数据的特征信息;
根据预设格式和所述特征信息,得到所述变更前格式化数据和变更后格式化数据。
3.根据权利要求2所述的方法,其特征在于,识别所述变更前数据和所述变更后数据的类别的步骤包括:
对所述变更前数据和所述变更后数据进行解析,确定所述变更前数据和所述变更后数据的类别信息,所述类别信息中至少包括以下一种:语序、标点符号、语义信息;
根据所述类别信息,从配置类别中确定出所述变更前数据和所述变更后数据的类别;其中,所述配置类别存储有对应提取策略。
4.根据权利要求2所述的方法,其特征在于,在预设的类别与目标提取策略的对应关系中根据识别的类别确定对应的目标提取策略,以及根据所述目标提取策略分别提取所述变更前数据和变更后数据的特征信息的步骤包括:
根据识别的结果判断是否存在对应的提取方法;
如果存在对应的提取方法,则将所述对应的提取方法确定为目标提取策略,以及根据所述目标提取策略分别提取所述变更前数据和变更后数据的特征信息;如果不存在对应的提取方法,则将所述变更数据组标注为无效变更数据。
5.根据权利要求1所述的方法,其特征在于,在将所述变更前格式化数据和变更后格式化数据进行比对,以及根据比对结果对所述当前变更数据组进行标记之前,还包括:
确定所述当前变更数据组的变更时间...
【专利技术属性】
技术研发人员:揭勇俊,柳超,
申请(专利权)人:北京金堤征信服务有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。