当前位置: 首页 > 专利查询>上海大学专利>正文

一种文本集合中事件的重要度的计算方法技术

技术编号:4179878 阅读:249 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种计算文本集合中事件的重要度的方法,该方法其特征在于首先从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度。该方法构造了事件间的影响因子矩阵来描述文本集合中事件间的关联强弱,依据事件间影响因子具有双向和不对称的特征,提出了一种综合考虑了事件的Authorities值和Hubs值的链接分析算法,显著地提高了文本集合中事件的重要度计算的准确率。该方法在事件识别规则的基础上,可以自动的实现文本集合中事件的重要度的计算。

【技术实现步骤摘要】

本专利技术属于语言文字信息处理领域,具体地说是涉及。
技术介绍
大量研究成果表明,事件在许多文本中是客观存在的,事件之间有着紧密的联系,不同的事件在文本中有不同的重要度。计算文本集合中的事件重要度,是文本信息处理的基础工作。基于文本中的重要事件,在自动问答领域,可以有针对性的抽取一些重要事件作为问题的答案;在自动文摘领域可以选择包含重要事件的句子作为文摘的单位;在信息检索领域,可以根据事件重要度的不同选择一些事件作为查询扩展的对象,事件重要度也可以作为扩展对象的权重设置的参考;在本体领域,可以为领域本体的构建推荐重要的事件,可以为领域本体的评价提供标准,等等。 计算文本集合中事件重要度的研究主要应用在自动文摘领域。普遍认为事件之间的关系是通过事件的要素而直接关联的,表现在文本中就是事件的同一要素出现在不同的事件中。例如有文章报道,其题目为Extractive summarization using inter-and intra-eventrelevance(该文作者是W.J.Li,M.L.Wu,and Q.Lu,发表于2006年出版的期刊Proceedings of the 21st International Conference on Computational Linguistics andthe 44th annual meeting of the ACL)和文章Event-centric summary generation(该文作者是L.Vanderwende,M.Banko,and A.Menezes,发表于2004年出版的期刊Proceedingsof the DUC-2004 Workshop),该文公开了通过事件要素的关联,建立事件关系图,进而采用经典的PageRank算法计算事件的重要度的方法。已有方法存在的不足(1)对每个事件提取其要素是一件非常困难的工作,目前的提取效果还是非常不理想的;(2)在很多情况下,事件间的关系并不是直接通过事件要素而关联的;(3)使用经典的PageRank算法计算事件的重要度并不是很合适的选择。因此,已有方法在文本集合中计算事件的重要度时难以自动实现,且准确率低。
技术实现思路
鉴于以上所述现有技术存在的问题和不足,本专利技术要解决的技术问题是提供,该方法可以自动实现、能够提高文本集合中事件的重要度计算的准确率。 为了解决上述问题,本专利技术采用下述技术方案 ,其特征在于利用事件间相互的影响关系计算文本集合中事件的重要度,首先输入文本集合,从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度,具体步骤如下 A、输入文本集合,从文本集合中识别出事件集合E; B、计算事件集合E中的事件间的影响因子; C、构造事件影响因子矩阵; D、计算事件集合E中每个事件的重要度。 上述步骤A中所述的从文本集合中得到事件集合E,其操作步骤如下 A1、将文本集合经ICTCLAS分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1; A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词,得到候选事件集合E2; A3、从候选事件集合E2中删除一部分抽象意义高的动词,并将与其一起出现的名词(n)添加到候选事件集合E2,最后得到的候选事件集合E3,即为所述文本集合的事件集合E。 上述步骤B中所述的计算事件集合E中的事件间的影响因子,其事件ei对事件ej的影响因子的计算公式为 其中,wij是事件ei对事件ej的影响因子; M是所述的文本集合, d是所述的文本集合M中的任意一篇文档, Ndei表示事件ei在文档d中出现的次数, Fd(ei,ej)表示事件ei出现的文档d,事件ej也同时在其中出现的次数, 如果wij>1,则令wij=1。 上述步骤C中所述的构造事件影响因子矩阵,其事件影响因子矩阵为 W=(wij)n×n 其中,n为事件集合E中事件的个数,1≤i,j≤n,wij表示事件ei对ej的影响因子。 上述步骤D中所述的计算事件集合E中每个事件的重要度,其操作步骤如下 D1、初始化事件集合E中每个事件的重要度; D2、初始化每个事件的Authorities值和Hubs值均为0; D3、计算每个事件的Authorities值; D4、计算每个事件的Hubs值; D5、依据事件的Authorities值和Hubs值计算每个事件的重要度; D6、规范化每个事件的重要度; D7、判断每个事件的重要度是否满足迭代收敛的精度,如果是,则执行完毕,否则,转步骤D2,如此循环直到满足迭代收敛的精度ε,计算事件重要度结束。 本专利技术的与现有技术相比较,具有以下效果该方法构造了事件影响因子矩阵来描述文本集合中事件的关联强弱,依据事件间的影响因子具有双向和不对称的特征,提出了一种综合考虑了事件的Authorities值和Hubs值的链接分析算法,显著地提高了文本集合中事件的重要度计算的准确率;该方法在事件识别规则的基础上,可以自动的实现文本集合中事件的重要度的计算。 附图说明 图1是本专利技术的的流程图; 图2是图1中步骤104所述的事件集合E中计算每个事件的重要度的流程图。 具体实施例方式 下面结合附图和具体实施方式对本专利技术作进一步详细的描述。 参照图1,本专利技术的包括如下步骤 步骤101、输入文本集合,从文本集合中得到所有事件,由该所有事件组成事件集合E,其具体如下 A1、将文本集合经ICTCLAS分词后,依据《汉语文本词性标注标记集》选取所有的动词(v)、名动词(vn)构成候选事件集合E1; A2、从候选事件集合E1中删除主观感知、猜想、阐述等类似动词,得到候选事件集合E2。例如,句子“我认为应该进行比赛”、“人们猜想这是不对的”和“有人说,还是回去吧”,句中的“认为”、“猜想”、“说”等词,均不属于事件,而句中的“比赛”、“回去”则属于事件; A3、从候选事件集合E2中删除一部分抽象意义高的动词,并将与其一起出现的名词添加到候选事件集合E2。例如,句子“汶川发生地震了”、“我们开始座谈”、“大家准备开会”,句中的动词“发生”、“开始”、“准备”的抽象意义较高,不作为事件,句中的名词“地震”、“座谈”、“开会”分别作为事件,最后得到的候选事件集合E3,即为所述文本集合的事件集合E; 步骤102、计算事件集合E中的事件间的影响因子。 事件间的影响因子α是指事件ei的发生导致事件ej发生的概率大小。事件间的影响因子α的大小是指 (1)影响因子越大表示一个事件发生后,另一个事件发生的概率越大,0≤α≤1,根据影响因子的大小,可以人为的为事件间的关系赋予名称,比如因果关系、跟随关系等; (2)两个事件间的影响因子的大小常常是不对称的。比如,“地震”对“死亡”的影响就应该很大,而“死亡”对“地震”的影响相对较小。 事件ei对事件本文档来自技高网
...

【技术保护点】
一种文本集合中事件的重要度的计算方法,其特征在于首先输入文本集合,从文本集合中识别出所有的事件,由该所有事件组成事件集合E;其次根据一个事件的发生导致另一个事件发生的概率计算两事件间的影响因子;接着依据两两事件间的影响因子构造事件影响因子矩阵;最后利用链接分析算法迭代计算事件影响因子矩阵中每个事件的重要度,具体步骤如下:A、输入文本集合,从文本集合中识别出事件集合E;B、计算事件集合E中的事件间的影响因子;C、构造事件影响因子矩阵;D、计算事件集合E中每个事件的重要度。

【技术特征摘要】

【专利技术属性】
技术研发人员:仲兆满刘宗田周文刘炜付剑锋
申请(专利权)人:上海大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1