当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于高频刷卡数据的朋友关系识别方法技术

技术编号:15895426 阅读:42 留言:0更新日期:2017-07-28 19:52
本发明专利技术是一种基于高频刷卡数据的朋友关系识别方法,主要包括数据预处理、相似行为矩阵的生成、相似行为阈值的确定和朋友关系的识别;1)数据预处理;获取当前所有用户的高频刷卡数据,提取数据中有效信息,存入统一的数据仓库中;2)相似行为矩阵的生成;3)相似行为阈值的确定;提取相似行为矩阵对角线上方的所有元素,生成帕累托图,取累计百分比首次超过α,0<α<100%所对应的相似行为的次数作为相似行为阈值,α通常取90%;4)朋友关系的识别;找出所有相似行为超过相似行为阈值的用户对,将他们确认为朋友关系,同时输出所有的朋友对。本发明专利技术能够利用用户产生的高频刷卡数据有效识别用户在现实生活中的朋友关系。

A method of friend relation recognition based on high frequency credit card data

The invention is a kind of high frequency data card identification method based on relationships, including data preprocessing, similarity matrix and similar behavior to determine the threshold of the relationship between friends and behavior recognition; 1) data preprocessing; high frequency data acquisition card of all current users, the effective information extraction of data, stored in the unified data warehouse in the 2 generation); similar behavior matrix; 3) to determine the similarity threshold behavior; extracting all the elements above the diagonal matrix of similar behavior, generating the Pareto diagram, the cumulative percentage for the first time in more than a, number of similar behavior corresponding to 0 < < 100% alpha as the similarity threshold behavior, alpha usually take 90%; 4) recognition friends; find all similar behavior over similar behavioral threshold for users, they will be recognized as friends, and friends of all output. The invention can effectively identify the friend relationship of the user in real life by utilizing the high-frequency card data generated by the user.

【技术实现步骤摘要】
一种基于高频刷卡数据的朋友关系识别方法
本专利技术属于信息处理和特征识别领域,涉及到一种基于高频刷卡数据的朋友关系识别方法。
技术介绍
现在如果我们假设你从一个集体到了另一个新的集体中,那么你会有多大的可能性和你周围的某个人成为朋友呢?又从社会学的方面而言,在一个群体中,两两之间的朋友关系又能占到多大比例呢?要回答这些问题,首先就要建立一种稳定、高效同时具有大规模性质的朋友识别方法。另一方面,从商业角度来说,个人社会朋友关系的识别对一些企业或公司拓展新用户,以及对老用户开展个性化服务都具有十分重要的意义。近年来,随着互联网的普及和发展,越来越多的专家学者乐于用一些社交软件,网络平台,虚拟游戏设备来识别朋友关系。虽然这些方法对社会研究,企业发展能产生一定的指导性意义,但是基于这些方法,认真分析可发现三点明显的不足:一是用户在填写注册信息时往往会存在虚假成分,不能真实反映自身的信息;二是用户的网上行为并不能真实的反映人们现实世界的朋友关系,比如银行、超市、健身房等服务性场所,却只有现实世界的朋友关系才能帮助它们有效拓展客户源;三是在网络虚拟平台上得到的某些朋友关系及其薄弱,或者地域上相差及远,很明显这些所谓的朋友关系或者不存在,或者不处在一个特定的群体里,对我们的研究而言没有太大的实际意义。当前的朋友识别系统通常是基于用户的注册信息,以及用户的上网行为来挖掘用户之间的朋友关系,对互联网技术有了应用却又恰恰忽略了现实社会,人们真实生活记录的重要性,反倒显得得不偿失。经过认真分析研究发现随着现代信息技术的快速发展和网络技术的不断成熟,以及近些年来大数据的分析应用技术已经进入人们生活的方方面面,记录人们日常真实行为一卡通作为信息技术的产物,对于改进人们生活的便捷程度和推动数字化管理起到了巨大的作用。由一卡通产生的反映人们行为的高频数据能够有效识别人与人之间关系,那些在大量的数据中拥有着相似刷卡行为的个体亲密度更高,更有可能是朋友关系。由此,产生了一种基于高频刷卡数据的朋友关系识别方法。日常生活中,高频刷卡数据的来源极其广泛。例如,高校学生一日三餐的刷卡数据,以及进出校门,宿舍,图书馆借书、自习,超市购物等数据都可以作为很好的研究样本。并且这种大数据的特点从一定程度上保证了研究结果的稳定性和可靠性。另一方面,这些大数据可以利用先进的计算机技术进行分析处理,很好的保证了研究的准确性和高效性。运用这些高频刷卡数据和先进的应用软件以及计算分析技术真正实现了从真实的日常生活中来识别朋友关系。从研究者的角度来说,朋友是从各种各样的生活数据中得来,它的真实性和可靠性无须赘述,对进一步的社会关系的发展和演变的研究,以及其规律的探寻有着不可代替的重要作用。
技术实现思路
针对当前朋友关系识别方法中存在的仅仅依靠用户注册信息和用户上网行为进行朋友关系识别的不足,本专利技术提出了一种基本高频刷卡数据的朋友关系识别方法。以满足商家有效挖掘新用户和对老用户进行个性化服务的需求。本专利技术采用的技术方案是:一种基于高频刷卡数据的朋友关系识别方法,主要包括数据预处理、相似行为矩阵的生成、相似行为阈值的确定和朋友关系的识别;1)数据预处理;获取当前所有用户的高频刷卡数据,提取数据中有效信息,包括用户的ID,刷卡的地点,刷卡的时间,刷卡操作的类型,删除数据中所有的标点,仅保留数字信息,并对数据进行统一的命名,存入统一的数据仓库中;2)相似行为矩阵的生成;(a)对于数据仓库中的数据而言,当任意两个用户的刷卡记录的地点一致,同时刷卡时间间隔不超过t秒时,则称这两个用户之间存在一次相似行为;(b)设定时间区间T,提取数据仓库中在时间区间T范围内的数据;在时间区间T范围内,用户m和用户n的相似行为次数就构成了相似行为矩阵的一个元素am,n;相似行为矩阵为主对角元素均为0的对称矩阵;3)相似行为阈值的确定;提取相似行为矩阵对角线上方的所有元素,生成帕累托图,取累计百分比首次超过α,0<α<100%所对应的相似行为的次数作为相似行为阈值,α通常取90%;4)朋友关系的识别;找出所有相似行为超过相似行为阈值的用户对,将他们确认为朋友关系,同时输出所有的朋友对。本专利技术优点是:能够利用用户产生的高频刷卡数据有效识别用户在现实生活中的朋友关系。附图说明图1是一卡通数据样例图。图2是数据清理图。图3是进入图书馆数据图。图4是离开图书馆数据图。图5是图书馆数据排序结果图。图6是相似行为节点对图。图7是相似行为矩阵图。图8是帕累托图。具体实施方式下面结合说明书附图1-8及实施例对本专利技术进一步详细说明。一种基于高频刷卡数据的朋友关系识别方法,主要包括数据预处理、相似行为矩阵的生成、相似行为阈值的确定和朋友关系的识别;1)数据预处理;获取当前所有用户的高频刷卡数据,提取数据中有效信息,包括用户的ID,刷卡的地点,刷卡的时间,刷卡操作的类型,删除数据中所有的标点,仅保留数字信息,并对数据进行统一的命名,存入统一的数据仓库中;2)相似行为矩阵的生成;(a)对于数据仓库中的数据而言,当任意两个用户的刷卡记录的地点一致,同时刷卡时间间隔不超过t秒时,则称这两个用户之间存在一次相似行为;(b)设定时间区间T,提取数据仓库中在时间区间T范围内的数据;在时间区间T范围内,用户m和用户n的相似行为次数就构成了相似行为矩阵的一个元素am,n;相似行为矩阵为主对角元素均为0的对称矩阵;3)相似行为阈值的确定;提取相似行为矩阵对角线上方的所有元素,生成帕累托图,取累计百分比首次超过α,0<α<100%所对应的相似行为的次数作为相似行为阈值,α通常取90%;4)朋友关系的识别;找出所有相似行为超过相似行为阈值的用户对,将他们确认为朋友关系,同时输出所有的朋友对。实施例1、数据预处理(1)数据清理从学校教务处获取的一卡通数据如图1所示,每一行代表一个刷卡记录,分别为学生的id,学生的刷卡操作,学生刷卡的时间。以10条数据为例,对数据进行清理。数据清理的内容包括删除不完整的数据,删除每一条数据中刷卡操作记录中的引号、刷卡时间记录中的引号和斜线号,经处理后得到结果如图2。将处理后的数据保存到数据仓库中。(2)数据分类在每一条数据中,不仅记录了刷卡的时间,还记录了刷卡者是进入还是离开图书馆。由于两个用户如果存在朋友关系,通常都是同时进入图书馆或者同时离开。因此,我们假定只有两个用户同时进入或离开才称作一次相似行为。基于此种假定,我们将进入和离开的数据进行分类,建立两个txt文档,分别命名为“library_in”和“library_out”。“library_in”和“Library_out”中的数据分别如图3和图4所示。(3)数据整理以“library_in”为例,使用C++sort排序方法将文本中的数据按时间排序,得到结果如图5所示。2、相似行为矩阵的建立我们假定当两名用户刷卡地点一致,并且刷卡时间间隔不超过30秒时,则称两者存在一次相似行为。下面具体阐述相似行为矩阵的生成方法:首先建立一个空的队列,之后按行遍历文本。如果队列为空,将读取到的当前行的时间信息排入队列;如果队列中存在信息,则将该行时间信息与队首的时间信息进行比较。若时间间隔小于30秒,则视为一次相似性为,输出到“friend”文本中,并继本文档来自技高网
...
一种基于高频刷卡数据的朋友关系识别方法

【技术保护点】
一种基于高频刷卡数据的朋友关系识别方法,其特征在于:主要包括数据预处理、相似行为矩阵的生成、相似行为阈值的确定和朋友关系的识别;1)数据预处理;获取当前所有用户的高频刷卡数据,提取数据中有效信息,包括用户的ID,刷卡的地点,刷卡的时间,刷卡操作的类型,删除数据中所有的标点,仅保留数字信息,并对数据进行统一的命名,存入统一的数据仓库中;2)相似行为矩阵的生成;(a)对于数据仓库中的数据而言,当任意两个用户的刷卡记录的地点一致,同时刷卡时间间隔不超过t秒时,则称这两个用户之间存在一次相似行为;(b)设定时间区间T,提取数据仓库中在时间区间T范围内的数据;在时间区间T范围内,用户m和用户n的相似行为次数就构成了相似行为矩阵的一个元素am,n;相似行为矩阵为主对角元素均为0的对称矩阵;3)相似行为阈值的确定;提取相似行为矩阵对角线上方的所有元素,生成帕累托图,取累计百分比首次超过α,0<α<100%所对应的相似行为的次数作为相似行为阈值,α通常取90%;4)朋友关系的识别;找出所有相似行为超过相似行为阈值的用户对,将他们确认为朋友关系,同时输出所有的朋友对。

【技术特征摘要】
1.一种基于高频刷卡数据的朋友关系识别方法,其特征在于:主要包括数据预处理、相似行为矩阵的生成、相似行为阈值的确定和朋友关系的识别;1)数据预处理;获取当前所有用户的高频刷卡数据,提取数据中有效信息,包括用户的ID,刷卡的地点,刷卡的时间,刷卡操作的类型,删除数据中所有的标点,仅保留数字信息,并对数据进行统一的命名,存入统一的数据仓库中;2)相似行为矩阵的生成;(a)对于数据仓库中的数据而言,当任意两个用户的刷卡记录的地点一致,同时刷卡时间间隔不超过t秒时,则称这两个用户之间存在一次相似行为;(b)设定时间区间T,提取数据仓库中在时间区间T范围内的数据;在时间区间T范围内,用户m和用户n的相似行为次数就构成了相似行为矩阵的一个元素am,n;相似行为矩阵为主对角元素均为0的对称矩阵;3)相似行为阈值的确定;提取相似行为矩阵对角线上方的所有元素,生成帕累托图,取累计百分比首次超过α,0<α<100%所对应的相似行为的次数作为相似行为阈值,α通常取90%;4)朋友关系的识别;找出所有相似行为超过相似行为阈值的用户对,将他们确认为朋友关系,同时输出所有的朋友对。2.根据权利要求1所述的一种基于高频刷卡数据的朋友关系识别方法,其特征在于:所述数据预处理如下;(1)数据清理;从学校教务处获取的一卡通数据,每一行代表一个刷卡记录,分别为学生的id,学生的刷卡操作,学生刷卡的时间;以10条数据为例,对数据进行清理;数据清理的内容包括删除不完整的数据,删除每一条数据中刷卡操作记录中的引号、刷卡时间记录中的引号和斜线号,将处理后的数据保存到数据仓库中;(2)数据分类;在每一条数据中,不仅记录了刷卡的时间,还记录了刷卡者是进入还是离开图书馆;由于两个用户如果存在朋友关系,通常都是同时进入图书馆或者同时离开;因此,我们假定只有两个用户同时进入或离开才称作一次相似行为;基于此种假定,我...

【专利技术属性】
技术研发人员:张杰李永立吴伯庸陈英豪
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1