【技术实现步骤摘要】
一种用于实体匹配的词向量训练方法与系统
本专利技术涉及数据分析
,尤其涉及一种用于实体匹配的词向量训练方法与系统。
技术介绍
目前,各种各样的领域都在产生着大量的数据,例如电商、社交、出行、餐饮等等。这些数据中包含着大量有价值的信息,这些信息可以帮助企业提升运行效率、改善用户体验。但是,在大数据时代如何更好的利用这些数据面临着一个巨大的挑战,那就是多源数据集成。由于各个企业,甚至是同一企业的各个部门均会按照自己的需求来建立独立的数据库,而这些数据库之间很可能会存在冗余的信息。因此,将多个不同来源、不同形式的数据库集成在一起,提供统一的数据视图有着重要的价值。在数据集成的领域中存在着一个重要的问题,称为实体匹配(EntityMatching)或者实体消解(EntityResolution)。实体匹配的目标是确定数据库中的两个实体是否指向现实世界中的同一实体。例如:给定两个实体,分别为实体1(姓名:张三,年龄:30,住址:北京市朝阳区,职业:程序员)、实体2(姓名:张三,年龄:31,住址:北京市海淀区,职业:程序员 ...
【技术保护点】
1.一种用于实体匹配的词向量训练方法,其特征在于,包括:/n属性类型划分步骤:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;/n数值型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;/n类别型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;/n文本型样本生成步骤:将所述第一实体集合和所述第二实 ...
【技术特征摘要】 【专利技术属性】
1.一种用于实体匹配的词向量训练方法,其特征在于,包括:
属性类型划分步骤:将第一实体集合、第二实体集合中的所有相同属性划分为数值型、类别型和文本型,并将相同类型的属性加入到同一集合中,生成数值型属性集合、类别型属性集合和文本型属性集合;
数值型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并、去重、排序和采样,并将采样的结果加入到训练样本集合中;
类别型样本生成步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并、计数和采样,并将采样的结果加入到所述训练样本集合中;
文本型样本生成步骤:将所述第一实体集合和所述第二实体集合中所有文本属性的属性值作为单独的样本加入到所述训练样本集合中;
实体样本生成步骤:将所述第一实体集合和所述第二实体集合中每个实体的所有属性值拼接起来作为单独的样本加入到所述训练样本集合中;
词向量训练步骤:通过所述训练样本集合训练词向量。
2.根据权利要求1所述的用于实体匹配的词向量训练方法,其特征在于,所述数值型样本生成步骤包括:
数值型属性合并步骤:将所述第一实体集合和所述第二实体集合中相同数值型属性的值进行合并;
序列生成步骤:对合并后的所述数值型属性的值进行去重和排序,得到若干个有序的序列;
序列采样步骤:对所有的所述序列分别进行一种基于滑动窗口的采样;
序列添加步骤:将对所有的所述序列进行采样的结果加入到所述训练样本集合中。
3.根据权利要求2所述的用于实体匹配的词向量训练方法,其特征在于,所述序列采样步骤中还包括:所述滑动窗口从所述序列的前端开始移动,直至移动到整个所述序列的末尾结束。
4.根据权利要求1所述的用于实体匹配的词向量训练方法,其特征在于,所述类别型样本生成步骤包括:
类别型属性合并步骤:将所述第一实体集合和所述第二实体集合中相同类别型属性的值进行合并;
计数步骤:对合并后的所述类别型属性的值进行计数,统计各个类别出现的次数;
类别采样步骤:将类别出现的次数作为权重进行不放回采样,获得若干个类别组成的集合;
文本添加步骤:将所述集合转换为文本并加入所述训练样本集合中。
5.根据权利要求4所述的用于实体匹配的词向量训练方法,其特征在于,所述类别型样本生成步骤还包括:若样本数没有达到用户指定值,则返回所述类别采样步骤,直至样本数达到用户指定值。
技术研发人员:白强伟,黄艳香,
申请(专利权)人:上海明略人工智能集团有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。