一种通用的基于异构信息网络的相似度计算方法与系统技术方案

技术编号：11907685 阅读：63 留言：0更新日期：2015-08-19 22:39

本发明专利技术公开了一种通用的基于异构信息网络的相似度计算方法，包括：步骤1，对输入数据集进行预处理，保证输入数据的有效性；步骤2，进行元数据提取，提取出输入数据的描述信息，并将描述信息存放到元数据库中；步骤3，通过用户交互建立异构信息网络模式，并存储网络模式；步骤4，采用异构信息网络中基于元路径的相似度计算方法进行相似度计算；步骤5，相似度后处理，形成一个总的相似度，作为最后输出。本发明专利技术的有益效果：采用异构信息网络建模，提出了一种通用的相似度计算方法；能处理不同类型的数据集；能满足多种相似度计算需求；用户可指定多种计算方法和结果后处理方式，选择自由度高，提高了计算准确度和效率，较好地解决了信息过载问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息技术和互联网
，具体而言，涉及一种通用的基于异构信息网络的相似度计算方法与系统。
技术介绍
随着信息技术和互联网的发展，人们逐渐从早期的数据匮乏进入到了信息过载的年代。特别是在当前的大数据时代，如何解决信息过载问题，并从海量的数据中提炼出有价值的信息是目前人们迫切需要解决的一个关键问题。不管是在各种信息检索系统还是在各种个性化推荐系统与应用中，信息的相似度计算都是这些系统和应用中的关键技术，通常对相关系统和应用的处理精度起着决定性作用。异构信息网络是随着社会网络的发展而出现的一个较新的研宄领域，也称为异构社会网络或者多关系社会网络。异构信息网络通过网络模式指定了对象集合上的类型约束和对象间的关系约束。这些约束使得异构信息网络是半结构化的，从而指导人们更好地去探索网络语义。异构信息网络可以从许多互联的社会的、科学的、工程的到商业应用的大规模数据集上进行构建，也可以在电子商务上比如Amazon和eBay，在线电影数据库如 IMDb(InternetMovieDatabase)，和各种数据库上进行应用。异构信息网络作为一种通用的大数据挖掘工具，对于处理数据之间的关系与结构特征有着很好的表现力，通过异构信息网络对现实世界中的关系进行建模，可以有效地对现实世界中信息之间的相似度进行计算。目前一些比较传统的在计算现实世界实体之间的相似度计算方法方面通常只是针对特定数据，方法简单固定，不能很好地体现现实世界实体之间的丰富关系，缺少一种通用的计算方法和框架，通常利用一些简单的相似度计算方法，并且在计算过...

【技术保护点】
一种通用的基于异构信息网络的相似度计算方法，其特征在于，包括：步骤1，对输入数据集进行预处理，保证输入数据的有效性；步骤2，进行元数据提取，提取出所述输入数据的描述信息，并将所述描述信息存放在元数据库中，其中，所述描述信息包括所述输入数据集整体情况的全局信息、每条记录的局部信息以及数据属性的标识符与内部表示的转换和对应信息；步骤3，用户选取参与相似度计算的实体和数据属性，查询对应的元数据，显示每个元数据的数据类型、取值范围，并提示用户根据预先设定好的处理库选取所述元数据的处理方法，以所述实体为中心结点，各实体按照语义关系进行链接，各属性连接到相应实体，生成异构信息网络模式，并存储所述异构信息网络模式；步骤4，在所述异构信息网络模式中，用户指定数据属性和元路径后，根据所选的处理方法进行相似度计算；步骤5，根据所选数据属性的权重，将步骤4计算得到的多个相似度结果进行融合，得到统一的相似度结果，并将统一的相似度结果进行格式转换，输出给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员：张邦佐，汤树林，尹宗铭，徐桂萍，蔡永健，徐坤，
申请(专利权)人：东北师范大学，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人