在电子邮件流中发现用户兴趣并据此有效推送文档的方法技术

技术编号:2861252 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及计算机技术领域,特别是在电子邮件流中发现用户兴趣并据此有效推送文档的方法。同一科研团队的成员由于其研究领域存在交叉,所以经常重复搜索和下载相同的文档,本发明专利技术的目的是实现科研团队成员间的科技文档共享,从成员间的电子邮件流中提取成员兴趣,当成员所关注的问题改变时其兴趣会随其收发的电子邮件得到及时更新,根据成员兴趣总能将正确的文档推送给成员;对团队文档数据库中的文档进行语义分析,根据分析结果为成员推送与其兴趣一致的文档,从语义上保证了推送给用户的文档正是用户所需的,准确、有效;成员只需将文档上载到团队的文档数据库就可由程序完成该文档的分析和推送,实现该文档在成员间的共享,简单、易行。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及语义理解、文本分类、文档共享和电子邮件流的。
技术介绍
一个科研团队的不同成员的研究领域通常存在交叉,一方面,他们常常为了获得相同文档而重复着搜索和下载操作,造成人力和财力的浪费;另一方面,他们常通过电子邮件交流信息,有时也将有价值的文档作为附件发送给其他成员,这可以在一定程度上实现成员间的文档共享,但仍存在以下问题首先,无法保证每个成员都愿意向其他成员发送对方需要的文档,因此不可能从根本上避免团队成员为获得相同文档所做的重复操作。其次,即使每个成员都愿意向其他成员发送对方需要的文档,仍然会有如下情况发生某个成员的兴趣经常会随时间而改变,其他成员可能在未察觉此变化的情况下,继续给他发送现在已不再需要的文档,而不给他发送新需要的文档;一个成员很难准确把握其他所有成员的兴趣,因而无法将文档推送给所有需要该文档的成员,也就无法实现文档的充分共享。为了在团队中实现科技文档的充分共享,本专利技术首先提取每个团队成员科研工作方面的兴趣,然后根据成员兴趣定期为团队成员推送相关文档。准确提取团队成员的兴趣是充分实现团队成员之间科技文档共享的基础。在发送和接收电子邮件的过程中团队成员之间形成了电子邮件流,同时每个成员所关注的问题往往能通过其收发的电子邮件反映出来,因此可以从电子邮件流中提取团队成员的兴趣。本专利技术以现有的电子邮件功能为基础,从团队成员之间的电子邮件流中提取用户兴趣,确保了文档在团队成员之间充分共享的前提。基本思想是成员所收发的电子邮件集中的地方正是成员研究工作集中的地方首先,将成员之间的电子邮件保存到数据库中,该过程消除了垃圾邮件的干扰;接着,利用自然语言学习的方法得到能为描述用户兴趣提供有用信息的有效电子邮件;然后,将与团队相关的研究领域划分为更小的子领域,在此基础上对有效电子邮件进行分类;最后,根据有效电子邮件在各子领域中的分布情况,用成员所关注子领域的集合来表示用户兴趣。考虑到用户兴趣可能在一段较长时间之后发生变化,将时间因素引入兴趣提取过程,用户兴趣会随着新邮件的产生和时间的推移得到及时更新,根据用户兴趣推送文档确保总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发。本专利技术以描述子领域语义的兴趣点集为模板,将文档划分到与其语义相近的子领域中,文档推送程序以此为基础,将文档推送给关注此子领域的用户,确保了所推送的文档在语义上是用户所需要的,准确、有效。如果团队成员想与其他成员共享某篇文档,只需将该文档上载到团队的文档数据库中,就可实现该文档的理解和推送,多数团队成员能接受简单的上载操作,很大程度实现了团队成员之间的文档共享,避免了他们繁杂的重复操作。
技术实现思路
本专利技术的目的在于提供,从而有效利用团队资源,充分实现团队成员之间的科技文档共享。本方法步骤如下首先,将团队成员之间的电子邮件存入数据库;然后,从团队成员之间的电子邮件流中提取用户兴趣,当成员所关注的问题改变时其兴趣会随其收发的电子邮件得到及时更新,根据成员兴趣总能将正确的文档推送给成员;并对团队文档数据库中的文档进行语义分析;最后,在文档语义分析的基础上,将与用户兴趣一致的文档推送给团队成员。本方法主要包括以下几点通过电子邮件服务器程序提供的功能将团队成员之间的电子邮件转发到某个固定账户,定期执行邮件收集程序,该程序解码固定账户中的电子邮件并将解码结果保存到电子邮件数据库中,完成电子邮件的自动存库,多数垃圾邮件都来源于陌生的电子邮件地址,本专利技术只保存成员之间的电子邮件,也就消除了提取用户兴趣时垃圾邮件的干扰;只考虑团队成员科研工作方面的兴趣,利用自然语言学习的方法将成员之间的电子邮件划分为有效电子邮件和无效电子邮件,得到能为描述用户兴趣提供有用信息的有效电子邮件,以此为基础提取用户兴趣,确保了用户兴趣的准确性;将与团队相关的各研究领域细分为子领域,通过子领域的先验知识集和兴趣点集表示子领域的背景知识和语义;通过有效电子邮件与先验知识集的相似度计算实现有效电子邮件的分类,用户有效电子邮件集中的子领域正是其研究工作集中的子领域,因此根据用户有效电子邮件分布于各子领域的情况提取用户兴趣,用户兴趣表示为其所关注子领域的集合;用户兴趣可能会随时间的推移而发生改变,电子邮件对用户兴趣的描述能力也应随其存在时间的增长而降低,将时间引入用户兴趣的提取过程,当用户工作重点转移时,其兴趣也得到及时调整,因而总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发,确保了团队成员间充分共享科技文档的前提;以描述子领域语义的兴趣点集为模板,根据文档与各子领域在语义上的相似度将文档划分到不同子领域,以此为基础,将文档推送给所关注子领域集合包含文档所属子领域的用户,从语义上确保了所推送的文档是用户所需要的,准确、有效。团队成员只需将文档上载到团队的文档数据库中,就可实现该文档的理解和推送,多数团队成员能接受简单的上载操作,使团队成员之间的文档共享简单、易行。技术方案本专利技术是。本方法首先,将与团队相关的各研究领域细分为子领域,构建表示子领域背景知识的先验知识集和描述子领域语义的兴趣点集;定期运行电子邮件收集程序将团队成员之间的电子邮件存入电子邮件数据库中,并从中提取能提供有用信息来描述用户兴趣的有效电子邮件,团队成员也可将有价值的科技文档上载到文档数据库中。然后,将有效电子邮件划分到先验知识集与其相似度最高的子领域中,根据有效电子邮件在各子领域的分布情况提取用户兴趣,以子领域的兴趣点集为模板对文档数据库中的文档进行语义分析和分类。最后,由文档推送程序根据用户兴趣和文档分类的结果,将与用户兴趣一致的文档推送给团队成员。本方案主要包括以下几个技术指标1.团队成员之间的电子邮件自动存库首先,构建电子邮件数据库,数据库的每条记录存储一封电子邮件,并通过电子邮件服务器程序将团队成员之间的电子邮件自动转发给某个固定账户;然后,定期运行邮件收集程序,该程序解码固定账户中的电子邮件,并将解码结果存入电子邮件数据库中,实现电子邮件的自动存库。垃圾邮件通常来源于陌生的电子邮件地址,因为只有成员之间的电子邮件被保存下来,电子邮件的自动存库过程本身就实现了垃圾邮件的过滤。2.提取有效电子邮件本专利技术只关心用户在科研工作方面的兴趣,因此只有涉及科研工作内容的电子邮件才是有效的,通过自然语言的学习方法从电子邮件数据库中提取能为描述用户兴趣提供有用信息的有效电子邮件。3.细化科研领域划分,建立子领域的先验知识集和兴趣点集对本团队研究领域进行细分,得到与团队相关的子领域集合。为各子领域建立先验知识集和兴趣点集,分别表示子领域的背景知识和语义。先验知识集的元素由表示子领域主要内容的关键词和关键词对子领域的影响因子(描述能力)两部分构成。兴趣点集由与子领域所包含兴趣点相对应的语义链网构成,一个语义链网描述一个兴趣点的语义信息。建立子领域的先验知识集表示其背景知识,通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣。构建描述子领域语义的兴趣点集,以此为模板将文档划分到与其语义相近的子领域中,由文档推送程序将文档推送给关注此文档所属子领域的成员,从语义本文档来自技高网
...

【技术保护点】
在电子邮件流中发现用户兴趣并据此有效推送文档的方法,首先,将团队成员之间的电子邮件存入电子邮件数据库并从中提取有效电子邮件;然后,根据有效电子邮件的分布规律提取用户兴趣,通过语义分析实现团队文档数据库中文档的分类;最后,根据用户兴趣和文档分类的结果,将与成员兴趣一致的文档通过电子邮件推送给团队成员。

【技术特征摘要】
1.在电子邮件流中发现用户兴趣并据此有效推送文档的方法,首先,将团队成员之间的电子邮件存入电子邮件数据库并从中提取有效电子邮件;然后,根据有效电子邮件的分布规律提取用户兴趣,通过语义分析实现团队文档数据库中文档的分类;最后,根据用户兴趣和文档分类的结果,将与成员兴趣一致的文档通过电子邮件推送给团队成员。2.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,通过电子邮件收集程序解码团队成员间的电子邮件并将解码后的内容存入电子邮件数据库,通过定期运行电子邮件收集程序,实现电子邮件的自动存库,垃圾邮件大多来源于陌生的电子邮件地址,该过程只考虑成员之间的电子邮件,也就消除了提取用户兴趣时垃圾邮件的干扰。3.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,只考虑团队成员科研工作方面的兴趣,利用自然语言学习的方法得到能为描述用户兴趣提供有用信息的有效电子邮件,确保了以此为基础所提取的用户兴趣的准确性。4.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,将与团队相关的研究领域细划为子领域,建立子领域的先验知识集表示其背景知识,通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣。5.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,考虑到用户兴趣可能在一段较长时间之后发生变化,将时间因素引入兴趣提取过程,用户兴趣会随新邮件的产生和时间的推移得到及时更新,根据用户兴趣为用户推送文档确保总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发。6.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,构建描述子领域语义的兴趣点集,以此为模板将文档划分到与其语义相近的子领域中,由文档推送程序将文档推送给关注此文档所属子领域的成员,从语义上保证了推送给用户的文档正是用户所需的,团队成员只需将文档上载到团队的文档数据库中,就可由程序完成该文档的推送,简单、易行。7.一种在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,主要包括以下四部分一、电子邮件自动存库,提取有效电子邮件,其中,1.建立电子邮件数据库团队成员使用统一的电子邮件服务器和服务器程序,在电子邮件服务器的某个目录下建立数据库文件来保存团队成员之间的电子邮件信息;2.电子邮件自动存库首先,由邮件服务器程序将团队成员之间所有的电子邮件自动转发到一个固定帐户,该账户的邮件保存在邮件服务器的某个固定目录中;然后,定期运行所编写的邮件收集程序以实现电子邮件的自动存库,该程序解码电子邮件并将解码结果保存到电子邮件数据库的相应字段中;3.提取有效电子邮件本发明只考虑用户在科研工作方面的兴趣,通过自然语言学习的方法提取能为描述用户兴趣提供有用信息的有效电子邮件;二、有效电子邮件分类和用户兴趣提取将与团队相关的各个研究领域划分为更小的子领域,并通过子领域ndi的先验知识集Ki表示其背景知识,Ki是(nk,ak)的集合,nk是能共同反映ndi主要内容的一组关键词中的一个,ak是nk的权重,表示nk对ndi的描述能力,ak越高,nk的描述能力就越强;通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣;三、文档理解及分类一个基本的概念、观点或方法称为一个兴趣点,一个语义链网(SG)表示一个兴趣点的语义信息,SG=(N,R),其中,N是节点的集合,包括一个兴趣点N1和一组共同表示兴趣点N1语义的关键词{N2,N3,...,Nm};R是有向弧的集合,表示节点之间的因果关系,子领域ndi的兴趣点集SG-seti描述ndi所蕴涵的全部语义信息,它的元素是与ndi所包含兴趣点对应的语义链网,以子领域的兴趣点集为模板将文档划分到与其语义相近的子领域中;四、根据用户兴趣有效推送文档编写文档推送程序,该程序以电子邮件附件的形式将文档推送给所关注子领域集合包括该文档所属子领域的用户,每篇文档都有“已发送人员”和“上传人员”两个列表,文档推送程序只将文档推送给未出现在这两个列表中的团队成员,避免了重复发送,成员只需将文档上载到团队文档数据库就可实现该文档在所有需要该文档的成员之间的共享,简单、有效。8.根据权利要求7的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征在于,一、电子邮件自动存库,提取有效电子邮件,其中,3.提取有效电子邮件首先,选择一定数量的有效电子邮件和无效电子邮件分别作为有效电子邮件的训练集合C1和无效电子邮件的训练集合C2,并通过以下公式得到有效电子邮件和无效电子邮件的标准向量 和 表示c→1=161|C1|&Sigm...

【专利技术属性】
技术研发人员:诸葛海丁连红
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1