一种通用的基于异构信息网络的相似度计算方法与系统技术方案

技术编号:11907685 阅读:63 留言:0更新日期:2015-08-19 22:39
本发明专利技术公开了一种通用的基于异构信息网络的相似度计算方法,包括:步骤1,对输入数据集进行预处理,保证输入数据的有效性;步骤2,进行元数据提取,提取出输入数据的描述信息,并将描述信息存放到元数据库中;步骤3,通过用户交互建立异构信息网络模式,并存储网络模式;步骤4,采用异构信息网络中基于元路径的相似度计算方法进行相似度计算;步骤5,相似度后处理,形成一个总的相似度,作为最后输出。本发明专利技术的有益效果:采用异构信息网络建模,提出了一种通用的相似度计算方法;能处理不同类型的数据集;能满足多种相似度计算需求;用户可指定多种计算方法和结果后处理方式,选择自由度高,提高了计算准确度和效率,较好地解决了信息过载问题。

【技术实现步骤摘要】

本专利技术涉及信息技术和互联网
,具体而言,涉及一种通用的基于异构信 息网络的相似度计算方法与系统。
技术介绍
随着信息技术和互联网的发展,人们逐渐从早期的数据匮乏进入到了信息过载的 年代。特别是在当前的大数据时代,如何解决信息过载问题,并从海量的数据中提炼出有价 值的信息是目前人们迫切需要解决的一个关键问题。不管是在各种信息检索系统还是在各 种个性化推荐系统与应用中,信息的相似度计算都是这些系统和应用中的关键技术,通常 对相关系统和应用的处理精度起着决定性作用。 异构信息网络是随着社会网络的发展而出现的一个较新的研宄领域,也称为异构 社会网络或者多关系社会网络。异构信息网络通过网络模式指定了对象集合上的类型约 束和对象间的关系约束。这些约束使得异构信息网络是半结构化的,从而指导人们更好地 去探索网络语义。异构信息网络可以从许多互联的社会的、科学的、工程的到商业应用的 大规模数据集上进行构建,也可以在电子商务上比如Amazon和eBay,在线电影数据库如 IMDb(InternetMovieDatabase),和各种数据库上进行应用。 异构信息网络作为一种通用的大数据挖掘工具,对于处理数据之间的关系与结构 特征有着很好的表现力,通过异构信息网络对现实世界中的关系进行建模,可以有效地对 现实世界中信息之间的相似度进行计算。 目前一些比较传统的在计算现实世界实体之间的相似度计算方法方面通常只是 针对特定数据,方法简单固定,不能很好地体现现实世界实体之间的丰富关系,缺少一种通 用的计算方法和框架,通常利用一些简单的相似度计算方法,并且在计算过程中只考虑数 据与数据之间的较少的相对固定的属性,在考虑不同类型的数据以及数据的不同属性的情 况下,必须重新考虑计算方法,并且需要对系统进行重新修改,导致通用性较差,计算效率 不高以及结果的准确度低,完全不能适应当今的大数据时代的要求。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种可以根据用户需求选定相应数据属 性及计算方法的通用的相似度计算方法与系统。 本专利技术提供了一种通用的基于异构信息网络的相似度计算方法,包括: 步骤1,对输入数据集进行预处理,保证输入数据的有效性; 步骤2,进行元数据提取,提取出所述输入数据的描述信息,并将所述描述信息存 放在元数据库中,其中,所述描述信息包括所述输入数据集整体情况的全局信息、每条记录 的局部信息以及数据属性的标识符与内部表示的转换和对应信息; 步骤3,用户选取参与相似度计算的实体和数据属性,查询对应的元数据,显示每 个元数据的数据类型、取值范围,并提示用户根据预先设定好的处理库选取所述元数据的 处理方法,以所述实体为中心结点,各实体按照语义关系进行链接,各属性连接到相应实 体,生成异构信息网络模式,并存储所述异构信息网络模式; 步骤4,在所述异构信息网络模式中,用户指定数据属性和元路径后,根据所选的 处理方法进行相似度计算; 步骤5,根据所选数据属性的权重,将步骤4计算得到的多个相似度结果进行融 合,得到统一的相似度结果,并将统一的相似度结果进行格式转换,输出给用户。 作为本专利技术进一步的改进,步骤1中,对输入数据集的预处理包括数据清理和数 据集成; 其中, 数据清理是进行格式转换、消除噪声、删除不一致数据,对所述输入数据集进行数 据清理,去除无用的噪声数据,并进行相应的格式转换; 数据集成是组合多个数据源数据。 作为本专利技术进一步的改进,步骤4具体包括: 步骤401,用户指定数据属性,并选择元路径,如果涉及到多个数据属性,用户指定 多个数据属性的链接顺序,构成元路径; 步骤402,在用户指定单个数据属性之后,调取对应数据属性中的数据,并将这些 数据构建成为邻接矩阵,如果用户指定一个元路径,则将这个元路径上的所有关系构建所 述邻接矩阵,之后对所述邻接矩阵进行标准化处理; 步骤403,在所述邻接矩阵规范化之后,利用矩阵运算,得到对应属性的相似度结 果矩阵。 作为本专利技术进一步的改进,步骤1中的所述输入数据集的格式包括关系数据库形 式、NOSQL数据库形式、ARFF文件、CSV文件以及文本文件和excel电子表格。 作为本专利技术进一步的改进,步骤2中,所述全局信息包括所述输入数据集的记录 条数以及每条记录中的数据属性个数,所述局部信息包括每个数据属性的标识符、数据类 型和取值范围。 本专利技术还提供了一种通用的基于异构信息网络的相似度计算系统,包括: 处理模块,对输入数据集进行预处理,保证输入数据的有效性; 提取模块,进行元数据提取,提取出所述输入数据的描述信息,并将所述描述信息 存放在元数据库中,其中,所述描述信息包括所述输入数据集整体情况的全局信息、每条记 录的局部信息以及数据属性的标识符与内部表示的转换和对应信息; 建模模块,用户选取参与相似度计算的实体和数据属性,查询对应的元数据,显示 每个元数据的数据类型、取值范围,并提示用户根据预先设定好的处理库选取所述元数据 的处理方法,以所述实体为中心结点,各实体按照语义关系进行链接,各属性连接到相应实 体,生成异构信息网络模式,并存储所述异构信息网络模式; 计算模块,在所述异构信息网络模式中,用户指定数据属性和元路径后,根据所选 的处理方法进行相似度计算; 后处理模块,根据所选数据属性的权重,将步骤4计算得到的多个相似度结果进 行融合,得到统一的相似度结果,并将统一的相似度结果进行格式转换,输出给用户。 作为本专利技术进一步的改进,所述处理模块对输入数据集的预处理包括数据清理和 数据集成;其中, 数据清理是进行格式转换、消除噪声、删除不一致数据,对所述输入数据集进行数 据清理,去除无用的噪声数据,并进行相应的格式转换; 数据集成是组合多个数据源数据。 作为本专利技术进一步的改进,所述计算模块包括: 指定模块,用户指定数据属性,并选择元路径,如果涉及到多个数据属性,用户指 定多个数据属性的链接顺序,构成元路径; 构建模块,在用户指定单个数据属性之后,调取对应数据属性中的数据,并将这些 数据构建成为邻接矩阵,如果用户指定一个元路径,则将这个元路径上的所有关系构建所 述邻接矩阵,之后对所述邻接矩阵进行标准化处理; 运算模块,在所述邻接矩阵规范化之后,利用矩阵运算,得到对应属性的相似度结 果矩阵。 作为本专利技术进一步的改进,所述处理模块中的所述输入数据集的格式包括关系数 据库形式、NOSQL数据库形式、ARFF文件、CSV文件以及文本文件和excel电子表格。 作为本专利技术进一步的改进,所述提取模块中,所述全局信息包括所述输入数据集 的记录条数以及每条记录中的数据属性个数,所述局部信息包括每个数据属性的标识符、 数据类型和取值范围。 本专利技术的有益效果为: 1、采用异构信息网络建模,较好地解决了在当前越来越重要的相似度计算问题, 具有广阔的应用前景和使用价值; 2、具有良好的通用性与兼容性,能够处理不同类型的数据集; 3、能够满足用户对数据对象多种相似度计算的需求,既可用于计算同类型对象之 间的相似度,也可以计算不同对象间的相似度,适用于多种领域的实际应用与系统中。如推 荐系统中最经常使用的计算用户与用户之间,物品与物品之间的相似度,以及计算用户和 物品之间的相似度,也可以本文档来自技高网
...

【技术保护点】
一种通用的基于异构信息网络的相似度计算方法,其特征在于,包括:步骤1,对输入数据集进行预处理,保证输入数据的有效性;步骤2,进行元数据提取,提取出所述输入数据的描述信息,并将所述描述信息存放在元数据库中,其中,所述描述信息包括所述输入数据集整体情况的全局信息、每条记录的局部信息以及数据属性的标识符与内部表示的转换和对应信息;步骤3,用户选取参与相似度计算的实体和数据属性,查询对应的元数据,显示每个元数据的数据类型、取值范围,并提示用户根据预先设定好的处理库选取所述元数据的处理方法,以所述实体为中心结点,各实体按照语义关系进行链接,各属性连接到相应实体,生成异构信息网络模式,并存储所述异构信息网络模式;步骤4,在所述异构信息网络模式中,用户指定数据属性和元路径后,根据所选的处理方法进行相似度计算;步骤5,根据所选数据属性的权重,将步骤4计算得到的多个相似度结果进行融合,得到统一的相似度结果,并将统一的相似度结果进行格式转换,输出给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:张邦佐汤树林尹宗铭徐桂萍蔡永健徐坤
申请(专利权)人:东北师范大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1