确定电子邮件线程的话题相关性制造技术

技术编号:12888234 阅读:78 留言:0更新日期:2016-02-17 22:11
说明了一种用于用电子设备确定电子邮件线程的话题相关性的方法。该方法包括从电子邮件线程中的电子邮件消息去除冗余,将多个电子邮件线程分组到多个电子邮件群中,为每一个电子邮件群识别高信息增益词,依据高信息增益词为每一个电子邮件群识别话题词,以及基于用于电子邮件群的话题词和电子邮件线程中阈值数量的电子邮件消息确定电子邮件群中多个电子邮件线程的相关性。

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍
电子邮件通常用于电子通信和信息储存。电子邮件实施于大型且复杂的组织结构和不同组织中增多的交互中。这些电子邮件可以包含至关重要的信息,组织在稍后的时间可能需要该信息。因此,组织可以在储存库中存储电子邮件消息以便保存记录和稍后取回及使用。
技术实现思路
【附图说明】附图示出了本文所述原理的各种示例并作为说明书的一部分。所示示例并非限定权利要求的范围。图1是根据本文所述原理的一个示例的用于确定电子邮件线程的话题相关性的系统的图。图2是根据本文所述原理的一个示例的电子邮件线程的图。图3是根据本文所述原理的另一个示例的用于确定电子邮件线程话题相关性的方法的流程图。图4是根据本文所述原理的再另一个示例的用于确定电子邮件线程话题相关性的方法的流程图。图5是根据本文所述原理的一个示例的管理设备的图。图6是根据本文所述原理的另一个示例的管理设备的图。在全部附图中,相同的附图标记标明相似但不一定相同的要素。【具体实施方式】电子邮件提供了有用的工具来增强组织的通信基础结构。另外,电子邮件可以允许不同组织彼此通信。在组织的用户之间或不同组织的用户之间共享的电子邮件消息可以包括有价值的信息,组织可能希望存储该信息以便保存记录并在稍后的点取回。因此,组织可以实施电子邮件储存库,其存储电子邮件消息的主体。然后可以在稍后的点访问电子邮件消息或电子邮件语料库以取回包含在电子邮件消息中的信息。电子邮件消息可以包括至少两类信息。话题信息可以与电子邮件消息的话题实质相关,并且语境信息可以不直接与电子邮件线程的话题相关。语境信息的示例除其他语境要素外包括与人、地点和时间相关的信息。以下给出示例。电子邮件消息可以介绍主题并提议在特定会议室中与主题相关的会议。在这个电子邮件消息中,对主题的介绍可以是话题信息,以及会议和建议的会议室可以是语境信息。在这个示例中,话题信息可以确定特定电子邮件消息或电子邮件线程是否相关。因此,在随后搜索中,可以识别话题信息并确定电子邮件消息或电子邮件线程的相关性。但用于确定电子邮件消息或电子邮件线程的相关性的当前方法可能是低效率的。例如,大型电子邮件语料库(其可以不以线程形式存储)可以“被挖掘”或使信息从其被提取。标准方法是分组类似的电子邮件消息,并个别地确定电子邮件线程的每一个电子邮件消息是否包含按照用户确定的有价值的信息。这个过程可以是麻烦的,因为可能要个别地挖掘每一组中的每一个消息。另外,电子邮件消息包括引用文本、转发文本、签名模板和样板文件(boiler plate)的性质可以致使当前文本挖掘过程对于电子邮件消息无效。由于这些特性,确定组中每一个电子邮件消息是否包含有价值的信息可能是冗长的,可以产生不准确或不相关的结果,并可能使用有价值的处理时间。本公开内容说明了一种用于用电子设备确定电子邮件线程的话题相关性的方法。该方法可以包括从电子邮件线程中的电子邮件消息去除冗余。该方法还可以包括将多个电子邮件线程分组到多个电子邮件群中。该方法可以进一步包括为每一个电子邮件群识别高信息增益词。该方法可以进一步包括依据高信息增益词为每一个电子邮件群识别话题词。最后,该方法可以包括基于用于电子邮件群的话题词和电子邮件线程中阈值数量的电子邮件消息确定电子邮件群中多个电子邮件线程的相关性。本公开内容还说明了一种用于确定电子邮件线程的话题相关性的系统。系统可以包括去除引擎,其从电子邮件线程中的电子邮件消息去重引用文本。群集引擎可以将多个电子邮件线程群集到电子邮件群中。词引擎可以为每一个电子邮件群识别多个话题词。相关性引擎可以基于多个话题词和每一个电子邮件线程中阈值数量的电子邮件消息确定电子邮件群中多个电子邮件线程的相关性。本公开内容还说明了一种用于确定电子邮件线程的话题相关性的计算机程序产品。该计算机程序产品可以包括计算机可读储存介质,其包括以此包含的计算机可使用程序代码。计算机可使用程序代码可以包括计算机可使用程序代码,其在由处理器执行时,从电子邮件线程中的第二数量的电子邮件消息去除第一数量的电子邮件消息的引用。计算机可使用程序代码还可以包括计算机可使用程序代码,其在由处理器执行时,将多个电子邮件线程群集到多个电子邮件群中。计算机可使用程序代码还可以包括计算机可使用程序代码,其在由处理器执行时,确定电子邮件群中的多个高信息增益词。计算机可使用程序代码还可以包括计算机可使用程序代码,其在由处理器执行时,依据多个高信息增益词确定多个话题词。计算机可使用程序代码还可以包括计算机可使用程序代码,其在由处理器执行时,基于话题词确定每一个电子邮件群内多个电子邮件线程的相关性。本文所述的系统和方法的益处可能在于通过分析最可能包括与特定话题有关的实质性信息的那些电子邮件消息来迅速识别相关电子邮件线程。因此,本文所述的方法和系统通过迅速识别电子邮件语料库的有可能包含与确定话题相关的信息的部分,加速了在电子邮件语料库中的各种知识收集和文本挖掘任务。本说明书和所附权利要求书中使用的术语“电子邮件线程”可以是共享共同的特性的电子邮件消息的分组。例如,电子邮件线程中的电子邮件消息可以是对另一个电子邮件消息的回复、转发或以其他方式与之相关联。此外,本说明书和所附权利要求书中使用的术语“前导电子邮件消息”可以是电子邮件线程中的前几个电子邮件消息。例如,前导电子邮件消息可以是电子邮件线程中的前两个电子邮件消息。在另一个示例中,前导电子邮件消息可以是电子邮件线程中的前三个电子邮件消息。再进一步地,本说明书和所附权利要求书中使用的术语“起源消息”可以是作为电子邮件线程中的第一个电子邮件消息的电子邮件消息。如下所述,可以通过确定电子邮件消息是否引用在前的电子邮件消息来如此识别起源消息。再进一步地,本说明书和所附权利要求书中使用的术语“相关的”可以指代与电子邮件群的话题相关的电子邮件线程。如下所述,可以基于电子邮件线程中的话题信息和来自电子邮件群的话题词确定电子邮件线程是否相关。再进一步地,本说明书和所附权利要求书中使用的术语“群”可以指代在某种方式上彼此比其他群中的电子邮件消息更相似的电子邮件消息的组。最后,本说明书和所附权利要求书中使用的术语“多个”或类似语言可以包括任意正数,其包括1到无限大;零不是一个数量,而是不存在数量。在以下说明中,为了解释的目的阐述了多个特定细节以便提供对本系统和方法的透彻理解。但对于本领域技术人员将显然的是,可以在没有这些特定细节的情况下来实践本装置、系统和方法。说明书中对“一个示例”或类似语言的提及表示所述的特定特征、结构或特性包括在至少所述一个示例中,但不必然在其他示例中。现在参考附图,图1是根据本文所述原理的一个示例的用于确定电子邮件线程的话题相关性的系统(100)的图。系统(100)可以包括多个用户设备(101)。在一个示例中,用户使用用户设备(101)来访问网络(102)。用户设备(101)的示例除其他电子设备外包括台式计算机、笔记本计算机、智能电话、个人数字助理(PDA)和平板电脑。换句话说,用户设备(101)可以是任何电子设备,其允许用户以另一个电子设备通信。用户可以经由网络(102)彼此通信。网络(102)可以是论坛(forum),其便于许多用户彼此通信。在一些示例中,网络(102)可以本文档来自技高网...

【技术保护点】
一种用于用电子设备确定电子邮件线程的话题相关性的方法,包括:从电子邮件线程中的电子邮件消息去除冗余;将多个电子邮件线程分组到多个电子邮件群中;为每一个电子邮件群识别高信息增益词;依据高信息增益词为每一个电子邮件群识别话题词;及基于用于电子邮件群的话题词和电子邮件线程中阈值数量的电子邮件消息确定电子邮件群中多个电子邮件线程的相关性。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:V·德奥拉里卡H·拉夫菲特
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1