【技术实现步骤摘要】
本专利技术涉及计算机
,特别涉及语义理解、文本分类、文档共享和电子邮件流的。
技术介绍
一个科研团队的不同成员的研究领域通常存在交叉,一方面,他们常常为了获得相同文档而重复着搜索和下载操作,造成人力和财力的浪费;另一方面,他们常通过电子邮件交流信息,有时也将有价值的文档作为附件发送给其他成员,这可以在一定程度上实现成员间的文档共享,但仍存在以下问题首先,无法保证每个成员都愿意向其他成员发送对方需要的文档,因此不可能从根本上避免团队成员为获得相同文档所做的重复操作。其次,即使每个成员都愿意向其他成员发送对方需要的文档,仍然会有如下情况发生某个成员的兴趣经常会随时间而改变,其他成员可能在未察觉此变化的情况下,继续给他发送现在已不再需要的文档,而不给他发送新需要的文档;一个成员很难准确把握其他所有成员的兴趣,因而无法将文档推送给所有需要该文档的成员,也就无法实现文档的充分共享。为了在团队中实现科技文档的充分共享,本专利技术首先提取每个团队成员科研工作方面的兴趣,然后根据成员兴趣定期为团队成员推送相关文档。准确提取团队成员的兴趣是充分实现团队成员之间科技文档共享的基础。在发送和接收电子邮件的过程中团队成员之间形成了电子邮件流,同时每个成员所关注的问题往往能通过其收发的电子邮件反映出来,因此可以从电子邮件流中提取团队成员的兴趣。本专利技术以现有的电子邮件功能为基础,从团队成员之间的电子邮件流中提取用户兴趣,确保了文档在团队成员之间充分共享的前提。基本思想是成员所收发的电子邮件集中的地方正是成员研究工作集中的地方首先,将成员之间的电子邮件保存到数据库中,该过程 ...
【技术保护点】
在电子邮件流中发现用户兴趣并据此有效推送文档的方法,首先,将团队成员之间的电子邮件存入电子邮件数据库并从中提取有效电子邮件;然后,根据有效电子邮件的分布规律提取用户兴趣,通过语义分析实现团队文档数据库中文档的分类;最后,根据用户兴趣和文档分类的结果,将与成员兴趣一致的文档通过电子邮件推送给团队成员。
【技术特征摘要】
1.在电子邮件流中发现用户兴趣并据此有效推送文档的方法,首先,将团队成员之间的电子邮件存入电子邮件数据库并从中提取有效电子邮件;然后,根据有效电子邮件的分布规律提取用户兴趣,通过语义分析实现团队文档数据库中文档的分类;最后,根据用户兴趣和文档分类的结果,将与成员兴趣一致的文档通过电子邮件推送给团队成员。2.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,通过电子邮件收集程序解码团队成员间的电子邮件并将解码后的内容存入电子邮件数据库,通过定期运行电子邮件收集程序,实现电子邮件的自动存库,垃圾邮件大多来源于陌生的电子邮件地址,该过程只考虑成员之间的电子邮件,也就消除了提取用户兴趣时垃圾邮件的干扰。3.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,只考虑团队成员科研工作方面的兴趣,利用自然语言学习的方法得到能为描述用户兴趣提供有用信息的有效电子邮件,确保了以此为基础所提取的用户兴趣的准确性。4.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,将与团队相关的研究领域细划为子领域,建立子领域的先验知识集表示其背景知识,通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣。5.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,考虑到用户兴趣可能在一段较长时间之后发生变化,将时间因素引入兴趣提取过程,用户兴趣会随新邮件的产生和时间的推移得到及时更新,根据用户兴趣为用户推送文档确保总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发。6.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,构建描述子领域语义的兴趣点集,以此为模板将文档划分到与其语义相近的子领域中,由文档推送程序将文档推送给关注此文档所属子领域的成员,从语义上保证了推送给用户的文档正是用户所需的,团队成员只需将文档上载到团队的文档数据库中,就可由程序完成该文档的推送,简单、易行。7.一种在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,主要包括以下四部分一、电子邮件自动存库,提取有效电子邮件,其中,1.建立电子邮件数据库团队成员使用统一的电子邮件服务器和服务器程序,在电子邮件服务器的某个目录下建立数据库文件来保存团队成员之间的电子邮件信息;2.电子邮件自动存库首先,由邮件服务器程序将团队成员之间所有的电子邮件自动转发到一个固定帐户,该账户的邮件保存在邮件服务器的某个固定目录中;然后,定期运行所编写的邮件收集程序以实现电子邮件的自动存库,该程序解码电子邮件并将解码结果保存到电子邮件数据库的相应字段中;3.提取有效电子邮件本发明只考虑用户在科研工作方面的兴趣,通过自然语言学习的方法提取能为描述用户兴趣提供有用信息的有效电子邮件;二、有效电子邮件分类和用户兴趣提取将与团队相关的各个研究领域划分为更小的子领域,并通过子领域ndi的先验知识集Ki表示其背景知识,Ki是(nk,ak)的集合,nk是能共同反映ndi主要内容的一组关键词中的一个,ak是nk的权重,表示nk对ndi的描述能力,ak越高,nk的描述能力就越强;通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣;三、文档理解及分类一个基本的概念、观点或方法称为一个兴趣点,一个语义链网(SG)表示一个兴趣点的语义信息,SG=(N,R),其中,N是节点的集合,包括一个兴趣点N1和一组共同表示兴趣点N1语义的关键词{N2,N3,...,Nm};R是有向弧的集合,表示节点之间的因果关系,子领域ndi的兴趣点集SG-seti描述ndi所蕴涵的全部语义信息,它的元素是与ndi所包含兴趣点对应的语义链网,以子领域的兴趣点集为模板将文档划分到与其语义相近的子领域中;四、根据用户兴趣有效推送文档编写文档推送程序,该程序以电子邮件附件的形式将文档推送给所关注子领域集合包括该文档所属子领域的用户,每篇文档都有“已发送人员”和“上传人员”两个列表,文档推送程序只将文档推送给未出现在这两个列表中的团队成员,避免了重复发送,成员只需将文档上载到团队文档数据库就可实现该文档在所有需要该文档的成员之间的共享,简单、有效。8.根据权利要求7的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征在于,一、电子邮件自动存库,提取有效电子邮件,其中,3.提取有效电子邮件首先,选择一定数量的有效电子邮件和无效电子邮件分别作为有效电子邮件的训练集合C1和无效电子邮件的训练集合C2,并通过以下公式得到有效电子邮件和无效电子邮件的标准向量 和 表示c→1=161|C1|&Sigm...
【专利技术属性】
技术研发人员:诸葛海,丁连红,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。