邮箱作者对应方法和装置及计算机可读存储介质制造方法及图纸

技术编号:16873828 阅读:26 留言:0更新日期:2017-12-23 11:46
本发明专利技术公开了邮箱作者对应方法和装置及计算机可读存储介质,该邮箱作者对应方法包括:邮箱查找步骤,在包含已知作者的作品的文件中查找邮箱;作者和邮箱共同出现量统计步骤,统计在包含已知作者的作品的文件中,已知作者与邮箱共同出现的文件的数量,即作者和邮箱共同出现量;合作者获取步骤,针对已知作者与所述邮箱共同出现的文件中包含的作品,获得已知作者的各合作者;合作者和邮箱共同出现量统计步骤,统计在包含已知作者的作品的文件中,各合作者与邮箱共同出现的数量,即合作者和邮箱共同出现量;邮箱关联步骤,在作者和邮箱共同出现量与各合作者和邮箱共同出现量之差均大于预定阈值时,将邮箱与已知作者相关联。

Mailbox authors' corresponding methods and devices and computer readable storage media

The invention discloses a method and a device for the corresponding author e-mail and computer readable storage medium, including the corresponding method of the email Author: mailbox search procedure to find the author's works contain known file and email mailbox; the author appeared statistics statistics in steps, including known authors in the file, the number of known author and the common mailbox file, and email the author together; cooperation acquisition steps, to include known author to the mailbox files appear together in the works, the author get known of the author; collaborators appear together and mailbox statistics statistics in steps, including known authors file the number of collaborators, and common mailbox appears, which means that the author and the mailbox appear together; the process of association between the authors and the mailbox, the mailbox in common The mailbox is associated with the known author when the difference in the amount of occurrence and the common occurrence of the co authors and mailboxes is greater than the predetermined threshold.

【技术实现步骤摘要】
邮箱作者对应方法和装置及计算机可读存储介质
本专利技术涉及信息检索,尤其涉及作者信息的检索。
技术介绍
当检索出文章之后,可能需要和作者进行联系,这种联系可能需要邮箱、电话等方式。有的文章或许会列明一些电话和邮箱,但是通常并不指明是哪个作者的电话和邮箱,还是编辑部门的邮箱,如果检索出来的文章很多的情况,例如需要确定各个作者的邮箱供第三方使用时,更需要更准确的判断作者和邮箱的对应关系,提高对应的准确度。目前的现有技术还没有指示出这种需求,也没有提供相应的解决方案。
技术实现思路
本专利技术鉴于以上情况,提出用于缓解或消除现有技术中存在的一项或更多的缺点,至少提供一种有益的选择。为实现以上目的,根据本专利技术的一个方面,公开了一种邮箱作者对应方法,包括:邮箱查找步骤,在包含已知作者的作品的文件中查找邮箱;作者和邮箱共同出现量统计步骤,统计在包含所述已知作者的作品的文件中,所述已知作者与所述邮箱共同出现的文件的数量,即作者和邮箱共同出现量;合作者获取步骤,针对所述已知作者与所述邮箱共同出现的文件中包含的作品,获得所述已知作者的各合作者;合作者和邮箱共同出现量统计步骤,统计在包含所述已知作者的作品的文件中,各合作者与所述邮箱共同出现的数量,即合作者和邮箱共同出现量;邮箱关联步骤,在所述作者和邮箱共同出现量与各合作者和邮箱共同出现量之差均大于预定阈值时,将所述邮箱与所述已知作者相关联。根据一种实施方式,所述方法还包括:作者和邮箱共同出现率统计步骤,统计所述已知作者与所述邮箱共同出现的文件在包含已知作者的作品的文件中所占的比率,即作者和邮箱共同出现率;合作者和邮箱共同出现率统计步骤,统计各所述合作者与所述邮箱共同出现的文件在包含各合作者的作品的文件中所占的比率,即合作者和邮箱共同出现率;在所述作者和邮箱共同出现量与所述合作者和邮箱共同出现量之差小于预定阈值时,如果所述作者和邮箱共同出现率与各所述合作者和邮箱共同出现率之差均大于预定阈值,则所述邮箱关联步骤将所述邮箱与所述已知作者相关联。根据一种实施方式,当所述作者和邮箱共同出现率低于预定阈值时,所述邮箱关联步骤不将所述邮箱与所述已知作者相关联。根据一种实施方式,在所述合作者和邮箱共同出现率统计步骤中,在包含各合作者的作品的文件中去除包含已知作者和所述合作者两者的合作作品的文件。根据本专利技术的另一方面,提供了一种邮箱作者对应装置,包括:邮箱查找单元,在包含已知作者的作品的文件中查找邮箱;作者和邮箱共同出现量统计单元,统计在包含已知作者的作品的文件中所述已知作者与所述邮箱共同出现的文件的数量,即作者和邮箱共同出现量;合作者获取单元,针对所述已知作者与所述邮箱共同出现的文件中包含的作品,获得所述已知作者的各合作者;合作者和邮箱共同出现量统计单元,统计在包含已知作者的作品的文件中,各合作者与所述邮箱共同出现的数量,即合作者和邮箱共同出现量;邮箱关联单元,在所述作者和邮箱共同出现量与各合作者和邮箱共同出现量之差均大于预定阈值时,将所述邮箱与所述已知作者相关联。。根据本专利技术的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以上各方面的方法的步骤。根据本专利技术,可以容易并准确地将作者和邮箱关联起来。附图说明结合附图,可以更好地理解本专利技术。但是附图仅仅是示例性的,不是对本专利技术的保护范围的限制。图1示出了依据本专利技术一种实施方式的作者和邮箱对应方法的示意性流程图;图2示出了依据本专利技术一种实施方式的作者和邮箱对应装置的示意性方框图。具体实施方式下面结合附图,对本专利技术的具体实施例作进一步详述,但不构成对本专利技术的任何限制。图1示出了依据本专利技术一种实施方式的作者和邮箱对应方法的示意性流程图。如图1所示,依据本专利技术的一种实施方式,首先在步骤101在所查找出的包括已知作者的作品的文件中寻找邮箱。包括已知作者的作品的文件例如为word文件、网页、PDF文件等,这些文件中除了包括已知作者的作品的正文之外,还包括一些题注、脚注等信息,这些信息中通常包括作者的信息,例如姓名、工作单位、简要介绍等,当然也可能包括其联系方式,例如邮箱的信息。已知作者可以是预先知道的要获得其邮箱的作者,也可以是在检索特定主题文件等所获得的检索结果中,获得的作者,而现在需要获得其邮箱。从文件中提取邮箱地址有各种方法,例如针对word文件,可以利用word本身提供的查找功能,针对txt文件可以使用EasyEmailExtractor软件、针对PDF文件的FileEmailExtractor等等,也有人提供一些简单的JAVA程序来实现这个功能。受益于本专利技术的本领域技术人员可以采用任何现在已知的或未来知道的方法来实现从文件中提取邮箱地址,本文不再赘述。当找到多个邮箱时可以逐个邮箱进行后续的步骤,也可以每找到一个邮箱就进行后续的步骤。接着,在步骤102,在包括已知作者的作品的文件中统计该已知作者和该邮箱共同出现的文件的数量,即作者和邮箱共同出现量。然后,在步骤103中,获得所述已知作者与所述邮箱共同出现的文件中,所述已知作者的合作者。例如假定所知的已知作者是赵大,并具有100件包括其作品的文件的情况下,要寻找他的邮箱的情况下,在步骤101中找到了邮箱fineart2017@163.com,并且找到了含有该邮箱的包含作者赵大的作品的文件共计95件。这95件作品中,可能有50件是赵大独立完成的,有45件是与人合作完成的。那么逐个文件地查找合作者(合作作者),例如可以找到钱二、张三、李四、周五、吴陆、郑奇、王久、程石等(纯粹出于方便理解本专利技术的目的,不暗示或说明真有合作作品)等和赵大一起合作的合作作者,可以将这些人形成列表或存入数据库中,在后续的操作中针对这些合作者逐一进行操作。然后在步骤104中,统计在包含已知作者的作品的文件中,各合作者与所述邮箱共同出现的数量,即合作者和邮箱共同出现量。即在100件的包括已知作者赵大的作品的文件中,查找各合作者与该邮箱共同出现的数量。例如可能的结果是钱二和该邮箱fineart2017@163.com共同出现10次,张三的为4次、李四的为6次、周五的为3次、吴陆的为7次、郑奇的为5次、王久的为5次、程石的为5次。然后在步骤105确定所述作者和邮箱共同出现量与合作者和邮箱共同出现量之间的差。假定阈值为作者和邮箱共同出现量的80%,即95*80%=76次,则对于各合作者,所述作者和邮箱共同出现量与合作者和邮箱共同出现量之间的差均大于该阈值,因而在步骤106中,将邮箱fineart2017@163.com与该已知作者赵大相关联。在一种实施方式中,可以将该阈值设置为1,即只要所有的其他作者与该邮箱的共同出现率均小于该合作者,就可以将该邮箱和该已知作者关联起来。如果该差小于零,即出现了某合作者与该邮箱共同出现的次数大于该已知作者与该邮箱共同出现的次数,则可以认为该邮箱不与该已知作者相关联,并开始针对下一邮箱的操作。另一方面,根据本专利技术的一种实施方式,如果在步骤104中,某一合作者与所述邮箱fineart2017@163.com共同出现的数量较大,例如出现了钱二与所述邮箱fineart2017@163.com共同出现的数量为80的情况,则步骤105中判断为所述作者和邮箱共同本文档来自技高网...
邮箱作者对应方法和装置及计算机可读存储介质

【技术保护点】
一种邮箱作者对应方法,包括:邮箱查找步骤,在包含已知作者的作品的文件中查找邮箱;作者和邮箱共同出现量统计步骤,统计在包含所述已知作者的作品的文件中,所述已知作者与所述邮箱共同出现的文件的数量,即作者和邮箱共同出现量;合作者获取步骤,针对所述已知作者与所述邮箱共同出现的文件中包含的作品,获得所述已知作者的各合作者;合作者和邮箱共同出现量统计步骤,统计在包含所述已知作者的作品的文件中,各合作者与所述邮箱共同出现的数量,即合作者和邮箱共同出现量;邮箱关联步骤,在所述作者和邮箱共同出现量与各合作者和邮箱共同出现量之差均大于预定阈值时,将所述邮箱与所述已知作者相关联。

【技术特征摘要】
1.一种邮箱作者对应方法,包括:邮箱查找步骤,在包含已知作者的作品的文件中查找邮箱;作者和邮箱共同出现量统计步骤,统计在包含所述已知作者的作品的文件中,所述已知作者与所述邮箱共同出现的文件的数量,即作者和邮箱共同出现量;合作者获取步骤,针对所述已知作者与所述邮箱共同出现的文件中包含的作品,获得所述已知作者的各合作者;合作者和邮箱共同出现量统计步骤,统计在包含所述已知作者的作品的文件中,各合作者与所述邮箱共同出现的数量,即合作者和邮箱共同出现量;邮箱关联步骤,在所述作者和邮箱共同出现量与各合作者和邮箱共同出现量之差均大于预定阈值时,将所述邮箱与所述已知作者相关联。2.根据权利要求1所述的邮箱作者对应方法,其特征在于,所述方法还包括:作者和邮箱共同出现率统计步骤,统计所述已知作者与所述邮箱共同出现的文件在包含已知作者的作品的文件中所占的比率,即作者和邮箱共同出现率;合作者和邮箱共同出现率统计步骤,统计各所述合作者与所述邮箱共同出现的文件在包含各合作者的作品的文件中所占的比率,即合作者和邮箱共同出现率;在所述作者和邮箱共同出现量与所述合作者和邮箱共同出现量之差小于预定阈值时,如果所述作者和邮箱共同出现率与各所述合作者和邮箱共同出现率之差均大于预定阈值,则所述邮箱关联步骤将所述邮箱与所述已知作者相关联。3.根据权利要求2所述的邮箱作者对应方法,其特征在于,当所述作者和邮箱共同出现率低于预定阈值时,所述邮箱关联步骤不将所述邮箱与所述已知作者相关联。4.根据权利要求2所述的邮箱作者对应方法,其特征在于,在所述合作者和邮箱共同出现率统计步骤中,在包含各合作者的作品的文件中去除包含已知作者和所述合作者两者的合作作品的文件。5.根据权利要求2所述的邮箱作者对应方法,其特征在于,所述方法还包括:距离计算单元,计算在包括所述已知作者和所述合作者的合作作品的文件中,所述邮箱地址和所述已知作者之间的距离以及所述邮箱地址和所述合作者之间的距离;距离远近概率计算单元,确定所述邮箱地址和所述已知作者之间的距离小于所述邮箱地址和所述合作者之间的距离的概率;当所述邮箱地址和所述已知作者之间的距离小于所述邮箱地址和所述合作者之间的距离的概率大于预定阈值时,所述邮箱关联步骤将所述邮箱和所述已知作者相关联。6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述...

【专利技术属性】
技术研发人员:霍东云
申请(专利权)人:北京赛时科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1