当前位置: 首页 > 专利查询>清华大学专利>正文

基于人名的邮箱地址推荐方法及系统技术方案

技术编号:14028033 阅读:36 留言:0更新日期:2016-11-19 13:06
本发明专利技术提出一种基于人名的邮箱地址推荐方法及系统,该方法包括:以待搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于待搜索人的搜索结果页面;对搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为待搜索人的候选邮箱地址;对待搜索人的候选邮箱地址进行格式规范,并去除其中的无效地址;以及对待搜索人的候选邮箱地址中剩余的邮箱地址进行特征抽取以得到特征向量,并将特征向量输入预先构造的SVM分类模型中进行分类鉴别,并将被判定为正例的邮箱地址作为待搜索人的邮箱地址推荐给用户。本发明专利技术能够根据待搜索人的信息向用户推荐待搜索人的邮箱,具有效率高、准确度高的优点。

【技术实现步骤摘要】

本专利技术涉及网络信息
,特别涉及一种基于人名的邮箱地址推荐方法及系统
技术介绍
随着互联网的发展,用户的联系方式已经不再局限于电话号码、传真地址、通信地址等等。电子邮箱作为新兴的一种联系方式,承担着信息沟通的重要作用。大部分企业以及个人都会使用电子邮箱进行沟通和业务往来。在CNNIC(China Internet Network Information Center,中国互联网络信息中心)发布的一系列关于全国互联网发展的统计报告中指出,截至2015年12月在接入互联网的企业中89.0%在过去一年使用过互联网收发电子邮件,而普通用户则中有2.45亿使用电子邮件。因此准确高效的获得用户的邮箱地址,将具有广泛的应用价值。特别是在学术研究领域,由于研究者中电子邮件的使用率更高,因此在进行专家推荐、专家联系等方面更有价值。电子邮箱地址的提取是信息抽取方向的一个着眼点,是数据挖掘研究的基础问题。目前已有一些邮箱地址搜索系统能够使用,其基本原理都是通过网络爬虫进行多层搜索,将获取到的疑似邮箱地址直接返回给用户交给用户判断,如Email Hunter,EmailBreaker,Volia Norbert等等。这类方法得到的结果充斥着大量无关、错误的信息,且运行时间很长,效率低下,准确率和搜索速度都难以满足实际需求。另外,Tang等人在2010年提出了先找个人主页再利用机器学习方法提取邮箱地址,这种方法也存在两个缺点:一是查找主页可能存在误差进而导致邮箱地址的不正确;二是主页中也可能包含其他混淆的邮箱地址或者不包含地址。
技术实现思路
本专利技术旨在至少在一定程度上解决上述相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于人名的邮箱地址推荐方法,该方法能够根据待搜索人的信息向用户推荐待搜索人的邮箱,具有效率高、准确度高的优点。本专利技术的另一个目的在于提出一种基于人名的邮箱地址推荐系统。为了实现上述目的,本专利技术第一方面的实施例提出了一种基于人名的邮箱地址推荐方法,包括:以待搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于待搜索人的搜索结果页面;对所述对应于待搜索人的搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为待搜索人的候选邮箱地址;对所述待搜索人的候选邮箱地址进行格式规范,并去除所述待搜索人的候选邮箱地址中的无效地址;以及对所述待搜索人的候选邮箱地址中剩余的邮箱地址进行特征抽取以得到特征向量,并将所述特征向量输入预先构造的SVM分类模型中进行分类鉴别,并将被判定为正例的邮箱地址作为待搜索人的邮箱地址推荐给用户。根据本专利技术实施例的基于人名的邮箱地址推荐方法,基于搜索引擎得到的搜索结果页面,通过减少搜索深度大大提高了运行速度,同时结合待搜索人的关键特征及搜索中获取的其他信息对候选邮箱地址以特定方法进行评估和判断,筛选出匹配待搜索人的邮箱地址,并推荐给用户。即该方法能够根据待搜索人的信息向用户推荐待搜索人的邮箱,具有效率高、准确度高的优点。另外,根据本专利技术上述实施例的基于人名的邮箱地址推荐方法还可以具有如下附加的技术特征:在一些示例中,所述SVM分类模型的构造方法包括以下步骤:以搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于搜索人的搜索结果页面;对所述对应于搜索人的搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为搜索人的候选邮箱地址;对所述搜索人的候选邮箱地址进行特征抽取,并根据得到的特征数据及预设的训练数据集进行SVM训练,以得到SVM分类模型,其中,所述预设的训练数据集中包括已经标注过真伪的邮箱地址。在一些示例中,所述特征数据包括:1)所述搜索人的last name占地址前缀的比例;2)除所述last name外的搜索人的姓名占地址前缀的比例;3)所述搜索人的姓名的各部分首字母占候选地址前缀的比例;4)当前地址在所述搜索人的候选邮箱地址中出现的次数占所述搜索人的候选邮箱地址总数的比例;5)当前地址的域名在所述搜索人的候选邮箱地址域名集合中出现的次数占所述搜索人的候选邮箱地址域名总数的比例;6)所述搜索人的last name是否包含于相关搜索条目的标题中;7)所述搜索人的last name是否包含于相关搜索条目的摘要中;8)所述搜索人所在的机构名称是否包含于相关搜索条目的标题中;9)所述搜索人所在的机构名称是否包含于相关搜索条目的摘要中。在一些示例中,所述待搜索人的信息包括:待搜索人的姓名和/或待搜索人所在的机构名称。在一些示例中,所述搜索人的信息包括:搜索人的姓名和/或搜索人所在的机构名称。为了实现上述目的,本专利技术第二方面的实施例还提出了一种基于人名的邮箱地址推荐系统,包括:搜索模块,所述搜索模块用于将待搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于待搜索人的搜索结果页面;分析模块,所述分析模块用于对所述对应于待搜索人的搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为待搜索人的候选邮箱地址;预处理模块,所述预处理模块用于对所述待搜索人的候选邮箱地址进行格式规范,并去除所述待搜索人的候选邮箱地址中的无效地址;以及推荐模块,所述推荐模块用于对所述待搜索人的候选邮箱地址中剩余的邮箱地址进行特征抽取以得到特征向量,并将所述特征向量输入预先构造的SVM分类模型中进行分类鉴别,并将被判定为正例的邮箱地址作为待搜索人的邮箱地址推荐给用户。根据本专利技术实施例的基于人名的邮箱地址推荐系统,基于搜索引擎得到的搜索结果页面,通过减少搜索深度大大提高了运行速度,同时结合待搜索人的关键特征及搜索中获取的其他信息对候选邮箱地址以特定方法进行评估和判断,筛选出匹配待搜索人的邮箱地址,并推荐给用户。即该系统能够根据待搜索人的信息向用户推荐待搜索人的邮箱,具有效率高、准确度高的优点。另外,根据本专利技术上述实施例的基于人名的邮箱地址推荐系统还可以具有如下附加的技术特征:在一些示例中,所述SVM分类模型的构造过程包括:以搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于搜索人的搜索结果页面;对所述对应于搜索人的搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为搜索人的候选邮箱地址;对所述搜索人的候选邮箱地址进行特征抽取,并根据得到的特征数据及预设的训练数据集进行SVM训练,以得到SVM分类模型,其中,所述预设的训练数据集中包括已经标注过真伪的邮箱地址。在一些示例中,所述特征数据包括:1)所述搜索人的last name占地址前缀的比例;2)除所述last name外的搜索人的姓名占地址前缀的比例;3)所述搜索人的姓名的各部分首字母占候选地址前缀的比例;4)当前地址在所述搜索人的候选邮箱地址中出现的次数占所述搜索人的候选邮箱地址总数的比例;5)当前地址的域名在所述搜索人的候选邮箱地址域名集合中出现的次数占所述搜索人的候选邮箱地址域名总数的比例;6)所述搜索人的last name是否包含于相关搜索条目的标题中;7)所述搜索人的last name是否包含于相关搜索条目的摘要中;8)所述搜索人所在的机构名称是否包含于相关搜索条目的标题中;9)所述搜索人所在的机构名称是否包含于相关搜索条目的摘要中。在一些示例中,所述待搜索人本文档来自技高网...
基于人名的邮箱地址推荐方法及系统

【技术保护点】
一种基于人名的邮箱地址推荐方法,其特征在于,包括:以待搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于待搜索人的搜索结果页面;对所述对应于待搜索人的搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为待搜索人的候选邮箱地址;对所述待搜索人的候选邮箱地址进行格式规范,并去除所述待搜索人的候选邮箱地址中的无效地址;以及对所述待搜索人的候选邮箱地址中剩余的邮箱地址进行特征抽取以得到特征向量,并将所述特征向量输入预先构造的SVM分类模型中进行分类鉴别,并将被判定为正例的邮箱地址作为待搜索人的邮箱地址推荐给用户。

【技术特征摘要】
1.一种基于人名的邮箱地址推荐方法,其特征在于,包括:以待搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于待搜索人的搜索结果页面;对所述对应于待搜索人的搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为待搜索人的候选邮箱地址;对所述待搜索人的候选邮箱地址进行格式规范,并去除所述待搜索人的候选邮箱地址中的无效地址;以及对所述待搜索人的候选邮箱地址中剩余的邮箱地址进行特征抽取以得到特征向量,并将所述特征向量输入预先构造的SVM分类模型中进行分类鉴别,并将被判定为正例的邮箱地址作为待搜索人的邮箱地址推荐给用户。2.根据权利要求1所述的基于人名的邮箱地址推荐方法,其特征在于,所述SVM分类模型的构造方法包括以下步骤:以搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于搜索人的搜索结果页面;对所述对应于搜索人的搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为搜索人的候选邮箱地址;对所述搜索人的候选邮箱地址进行特征抽取,并根据得到的特征数据及预设的训练数据集进行SVM训练,以得到SVM分类模型,其中,所述预设的训练数据集中包括已经标注过真伪的邮箱地址。3.根据权利要求2所述的基于人名的邮箱地址推荐方法,其特征在于,所述特征数据包括:1)所述搜索人的last name占地址前缀的比例;2)除所述last name外的搜索人的姓名占地址前缀的比例;3)所述搜索人的姓名的各部分首字母占候选地址前缀的比例;4)当前地址在所述搜索人的候选邮箱地址中出现的次数占所述搜索人的候选邮箱地址总数的比例;5)当前地址的域名在所述搜索人的候选邮箱地址域名集合中出现的次数占所述搜索人的候选邮箱地址域名总数的比例;6)所述搜索人的last name是否包含于相关搜索条目的标题中;7)所述搜索人的last name是否包含于相关搜索条目的摘要中;8)所述搜索人所在的机构名称是否包含于相关搜索条目的标题中;9)所述搜索人所在的机构名称是否包含于相关搜索条目的摘要中。4.根据权利要求1所述的基于人名的邮箱地址推荐方法,其特征在于,所述待搜索人的信息包括:待搜索人的姓名和/或待搜索人所在的机构名称。5.根据权利要求3所述的基于人名的邮箱地址推荐方法,其特征在于,所述搜索人的信息包括:搜索人的姓名和/或搜索人所在的机构名称。6.一种基于人名的邮箱地址推荐系统,其特征在于,包...

【专利技术属性】
技术研发人员:唐杰顾晓韬刘德兵杨宏
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1