一种个人通讯录信息的提取方法技术

技术编号:7809433 阅读:388 留言:0更新日期:2012-09-27 08:21
本发明专利技术涉及一种个人通讯录信息的提取方法,其特征是:通过移动智能设备从物理和虚拟世界自动提取联系人信息,形成电子通讯录联系人档案,以供用户日后查询和浏览。该联系人信息包括网络挖掘得到的联系人丰富档案信息以及通过物理感知得到的联系人基本信息和与联系人交互历史信息。本发明专利技术提出的一种个人通讯录信息的提取方法,将网络挖掘和移动感知技术应用到个人电子通讯录中,可自动提取丰富的联系人信息,大大减少了用户在联系人信息采集方面的工作,也为进一步的查询工作提供了便利。

【技术实现步骤摘要】

本专利技术涉及,对电子通讯录中的社会联系人信息实现自动化提取。
技术介绍
科学技术的飞速发展,尤其是交通、信息和通信等领域的技术革新,极大地改变了人们的生活和交际方式,人与人组成的社交网络也因此得到了极大的扩展。随着人们社交网络的急剧膨胀,社会联系人信息的有效存储和快速检索也愈发成为ー个不容忽视的问题。曾经单纯依靠记忆的联系人管理方式早已不再可靠,纸质通讯录则具有易损坏、易遗失、不易更新等弊端。近年来,信息和通信技术的启航为人们带来了基于个人计算机、移动电话的电子通讯录。它弥补了记忆的不可靠性,克服了纸质通讯录的缺点。然而随着人们 生活节奏的不断加快及社交网络的持续扩大,联系人信息的采集渐渐成为了ー种负担,而不完整的联系人信息则会为人们的日常工作和社会活动带来影响。电子通讯录中的联系人信息包括多个方面,包括联系人的基本信息(比如姓名,电话,邮件,地址等)、档案信息(如兴趣爱好、教育背景、工作信息、社会关系等)。此外还有的支持对以往会面交互的情境(会面的时间、地点、天气,以及谈论的话题)进行记录。这些丰富的联系人信息为用户日后工作和生活需要提供了极大便利,为更有效的查找联系人信息提供了支持。在此背景下,如何获取联系人的丰富信息就显得非常重要。目前电子通讯录已经支持添加丰富的联系人信息,可是主要采取人工采集输入的方法。这在联系人数量大的情况下会极大的増加用户负担。在此情况下,ー种自动化提取联系人信息的方法就显得很有必要。在网络信息量呈指数增长的今天,互联网特别是在线社交网及日益普及的个人主页中积聚和共享了丰富的个人信息,带感知功能的智能手机的广泛使用则可以随时随地的感知用户的物理活动情境。这些物理和虚拟信息源为自动获取联系人丰富信息提供了可倉^:。专利200610156612. 5提出了ー种手机通讯录自动更新的方法,其着眼于基于手机短信息,通过短消息识别模块判断该条短消息是否为请求更新通讯录中某一条记录的短消息,从而启动手机的自动添加电话号码的功能。该专利技术局限于联系人已经存在于手机中,而且仅仅解决了更新联系人电话号码的功能。专利200710125417. O侧重于解决不同通讯录中联系人信息的复制,通过一系列通信协议进行通讯录中联系人信息的发送和获取,避免了用户自己手工输入。但是该专利技术局限于联系人信息已经存在的情况下进行通讯录复制同步,不能解决联系人信息的自动获取。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术提出,能够自动通过移动感知(Mobile Sensing)和网络挖掘(Web Mining)从物理和虚拟世界提取和存储丰富的联系人信息。技术方案,其特征在于步骤如下步骤I :通过名片扫描仪或基于智能手机的名片扫描软件得到联系人信息;所述联系人基本信息BI包括姓名、电话、邮件,地址和工作单位;步骤2 :将联系人基本信息BI的不同组合形成关键字对,采用Google SearchAPI捜索与其相关的网页,形成四个网页捜索结果集PKS1-4;所述不同组合为 1(1=姓名+电子邮件地址、PK2=姓名+所在国家、PK3=姓名+所在城市或PK4=姓名+工作单位;步骤3 :将PKS1-4进行合并形成PKS,根据每个网页在PKS中出现次数计算其重现频率得分OccScore,并对每个网页按预设定的主页判断规则计算其规则得分RuleScore, 将两部分分数求和后对网页进行排序,选最高得分者识别为个人主页;步骤4 :从识别出的个人主面用条件随机场CRF, Conditional Random Field自然语言处理方法提取联系人档案信息PI,包括兴趣爱好、教育背景、工作经历、社会关系步骤5 :通过智能手机自动采集两人会面时交互场景的情境信息EI :当用户在记录联系人时,智能手机可记录当前的时间T ;通过GPS连接获得当前地点的经纬度坐标,进而使用Google Geocoding API进行查询转换,获得当前地址信息Addr ;通过查询Yahoo天气Web服务获取当前地点的天气状况息Wadd,, τ ;智能手机把获取的全部情境信息即EI (Τ,Add, Waddr,τ)做为与联系人交互事件进行存储;所述历史交互情境信息ΕΙ,包括时间、地点和天气;步骤6 :将所有联系人信息储存到关系数据库中,用户可手工对提取的信息进行修改或完善。有益效果本专利技术提出的,将网络挖掘和移动感知技术应用到个人电子通讯录中,可自动提取丰富的联系人信息,大大減少了用户在联系人信息采集方面的工作,也为进一歩的查询工作提供了便利。附图说明图I是本专利技术方法的流程图;图2是本专利技术的联系人主页发现流程图;图3是本专利技术的联系人主页信息提取流程具体实施例方式现结合实施例、附图对本专利技术作进ー步描述联系人信息包括联系人基本信息(BI, Basic Information ;姓名、电话、邮件,地址、工作单位等)、和联系人档案信息(PI, Profile Information ;兴趣爱好、教育背景、工作经历、社会关系)、历史交互情境信息(El, Environment Information ;时间,地点,天气)具体的方法流程如图I所示。联系人信息自动提取主要分为三个部分,分别是联系人基本信息BI获取,联系人档案信息PI提取,交互情境信息EI感知。具体实施步骤如下步骤一联系人基本信息BI可以通过名片扫描仪IRISCard (http: //www.irislink. com)或基于智能手机的名片扫描软件等方式获取。联系人的档案信息PI是在步骤ー获取的基本信息BI的基础上通过互联网自动提取得到,实现步骤如下2-4所示步骤ニ 基于联系人基本信息,在互联网上自动识别该联系人的个人主页。联系人个人主页的发现流程如图2所示。基于联系人基本信息,提取关键字并生成四组关键字集合(PK, Pair of Keywords)a)PKl=姓名+电子邮件地址;b) PK2=姓名+所在国家;c) PK3=姓名+所在城市;d)PK4=姓名+工作単位。然后使用这四组关键字对通过Google Search API (http://code, google, com/apis/ajaxsearch/)自动查找,形成四个网页搜索结果集PKS1-4。步骤三将PKS1-4进行合并,形成PKS,根据每个网页在PKS中出现次数计算其重现频率(OccurrenceTime)得分OccScore,计算方式如下0ccScore=2 X OccurrenceT ime并对PKS中每个网页结果Wi,按预设定的主页判断规则计算其规则得分RuleScore,具体计算方法如下所示a)如果网页URL出现在N个组合结果中,RuleScore加2*N ;b)如果网页URL中包含作者全名拼音,RuleScore加2 ;c)如果网页URL中包含字符‘ ’,RuleScore加I ;d)如果网页标题中包含作者全名,RuleScore加2 ;e)如果网页标题中包含主页、Website、Homepage等关键字,RuleScore加2。针对PKS中每个网页结果Wi,将两部分分数求和,算出总得分RankScore RankScore (Wi) =OccScore (Wi) +RuleScore (Wi)对PKS中所有网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1. 一种个人通讯录信息的提取方法,其特征在于步骤如下 步骤I:通过名片扫描仪或基于智能手机的名片扫描软件得到联系人信息;所述联系人基本信息BI包括姓名、电话、邮件,地址和工作单位; 步骤2 :将联系人基本信息BI的不同组合形成关键字对,采用Google SearchAPI搜索与其相关的网页,形成四个网页捜索结果集PKS1-4 ;所述不同组合为PK1=姓名+电子邮件地址、ΡΚ2=姓名+所在国家、ΡΚ3=姓名+所在城市或ΡΚ4=姓名+工作单位; 步骤3 :将PKS1-4进行合并形成PKS,根据每个网页在PKS中出现次数计算其重现频率得分OccScore,并对每个网页按预设定的主页判断规则计算其规则得分RuleScore,将两部分分数求和后对网页进行排序,选最高得分者识别为个人主页; 步骤4 :从识...

【专利技术属性】
技术研发人员:郭斌张大庆於志文杨丁奇周兴社
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1