一种基于随机森林改进的实体解析方法技术

技术编号:28623418 阅读:18 留言:0更新日期:2021-05-28 16:19
本发明专利技术提供了一种基于随机森林改进的实体解析方法,包括以下步骤:S1:提供一个包括k个决策树的随机森林F,提供若干个字符串B

【技术实现步骤摘要】
一种基于随机森林改进的实体解析方法
本专利技术涉及数据处理
,尤其是涉及一种基于随机森林改进的实体解析方法。
技术介绍
在数据集中,数据所指向的现实世界中的对象,一般称之为实体。对于同一实体,在不同甚至同一数据集中,可能存在多种不同的表现或描述形式,当将多个不同来源的数据集进行合并以分析处理时,这些对于同一实体的描述则会混杂在一起,造成一定程度的重复现象。实体解析,就是对数据集中的多种不同的描述进行识别、连接,确定哪些描述映射于现实世界中的同一实体的过程。实体解析是数据预处理过程中的一个重要步骤,主要用于解决数据的重复冗余等质量问题。目前的实体解析是指不同的数据对同一个事物即实体可能会有不同的描述(这里的描述包括数据格式、表示方法等),但它们通常在描述存储的过程中可能会出现排版或者错别字等错误,增加我们数据处理解析的时间并且容易造成匹配的冗余无法精准的得到我们想要的数据集。
技术实现思路
本专利技术的目的在于提供一种基于随机森林改进的实体解析方法,能够通过随机森林对字符串与实体的匹配进行相似度的连接,提高对数据本文档来自技高网...

【技术保护点】
1.一种基于随机森林改进的实体解析方法,其特征在于,包括以下步骤:/nS1:提供一个包括k个决策树的随机森林F,其中k=1,2,,,N;提供若干个字符串B

【技术特征摘要】
1.一种基于随机森林改进的实体解析方法,其特征在于,包括以下步骤:
S1:提供一个包括k个决策树的随机森林F,其中k=1,2,,,N;提供若干个字符串Bi,其中i=1,2,,,N;
S2:执行修剪步骤,所述修剪步骤包括:
S2.1:从所述k个决策树中提取m个决策树T1,T2,,,Tm,分别使用所述T1,T2,,,Tm执行每一个所述字符串Bi,得到输出C1,C2,,,Cm;
S2.2:建立集合I=C1∩C2∩,,,∩Cm;
S3:执行验证步骤,所述验证步骤包括:
S3.1:建立集合J=(C1∪C2∪,,,∪Cm)\(C1∩C2∩,,,∩Cm);
S3.2:从所述随机森林F中提取n个决策树R1,R2,,,Rn,使用所述R1,R2,,,Rn执行所述集合J,以生成集合K1,K2,,,Kn,且其中



S4:所述随机森林F输出实体解析结果为I∪K1∪K2∪,,,∪Kn。


2.根据权利要求1所述的一种基于随机森林改进的实体解析方法,其特征在于,S1包括以下训练步骤:
S1.1:给定若干个样本数据表Ai,其中i=1,2,,,N;
S1.2:从Ap表中随机选择一组...

【专利技术属性】
技术研发人员:巩建光刘凌灼黄若文吴昊王福焱
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1