当前位置: 首页 > 专利查询>淮海工学院专利>正文

一种基于事件分析的Web新闻检索方法技术

技术编号:8453104 阅读:219 留言:0更新日期:2013-03-21 17:37
本发明专利技术是一种基于事件分析的Web新闻检索方法,其步骤如下:设置事件项Qe和约束项Qc两类输入框,得到查询项Q={Qe,Qc};选取Web新闻di的标题(T)、首段(FP)和末段(LP)三个部分表示di,di={T,FP,LP};计算di={T,FP,LP}中各个部分特征项的权重;设置查询项Q中特征项的权重为1;计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果。该方法区分了查询内容中不同项的作用,结合事件的动作要素、web新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与Web新闻相关度的计算方法,能显著地提高事件类Web新闻检索的准确率。

【技术实现步骤摘要】

本专利技术属于信息检索领域,具体地说是涉及。
技术介绍
由于现实中的事件在互联网上都有明显的反映,互联网上存在着大量的面向事件的Web新闻报道。借助搜索引擎从互联网上获取事件相关信息已经是用户的迫切需求。但由于互联网上的信息急剧膨胀,通用搜索引擎返回的结果往往是信息量大、查询不准确。用户在输入某个关键字后,搜索到的有用信息并不多,对事件类信息的检索更是如此。事件检索指针对用户输入的事件查询关键字,获取相关信息或者精准的答案。TDT与事件检索有着一定的联系,其主旨是基于事件对信息流进行组织和利用。其研究方向主要是未知话题的识别及已知话题的跟踪,话题跟踪经常提供若干篇新闻报道为种子,利用相关算法自动将后续相关新闻报道检测加入到已知话题中。国内外关于事件检索的研究成果不多,与事件检索密切相关的工作主要有在2012年加拿大出版的会议论文集2012年北美计算语言学-人类语言技术会议(Proceedings of 2012Conference of the North American Chapterof the Associationfor Computational Linguistics Human LanguageTechnologies),题目为微博信息的结构化事件检索(Structured eventretrieval over microblog archives),作者是D. Metzler, C. X. Cai, andE. Hovy,该文提出了微博上的结构事件检索方法,对于一个事件查询,返回的结果是历史事件的摘要排序,主要包括查询扩展及摘要生成两个核心步骤。在2010年德国出版的期刊软计算(Soft Computing),题目为面向历史事件检索的Web模糊时间信息推理(Reasoning about fuzzy temporal information from the web towardsretrieval of historical events),作者是S. Steven, D. C. Martine, and E.K.Etienn,该文针对历史事件检索的时间约束,使用了简单的启发式技术支持从Web文档中获取事件的时间信息,提出使用模糊时间推理算法改善抽取时间的可靠性。在2003年中国出版的期刊中文信息学报,题目为基于事件框架的事件相关文档的智能检索研究,作者是吴平博,陈群秀,马亮,该文以某事件的几篇报道为检索条件,在聚类的基础上手工对事件框架的侧面词进行整理,并将事件框架的知识用到事件相关文档的检索中。在2011年中国出版的期刊华南理工大学学报(自然科学版),题目为融合事件信息的复杂问句分析方法,作者是刘小明,樊孝忠,刘里,该文提出一种融合事件信息的复杂问句分析方法,将事件视为由多个要素构成的复杂数据对象,利用事件抽取技术获取复杂问句中若干事件,用多个事件语义模型实例表征整个复杂问句的语义信息。但已有的Web新闻检索方法没有分析查询内容中不同的查询项的作用,没能使用Web新闻的结构特征,没有考虑查询项之间的距离,因此,对一些事件类信息的检索结果的准确率不高,不能满足实际应用的需求。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术存在的问题和不足,提供一种方法设计更为合理、可以有效地提高Web新闻检索的准确率的基于事件分析的Web新闻检索方法。本专利技术所要解决的技术问题是通过以下的技术方案来实现的。本专利技术是,其具体步骤如下A.在查询框中输入事件项Qe和约束项Q。两部分,得到查询项Q = {Qe, QcI ;B.选取一篇Web新闻Cli的标题T、首段FP和末段LP三个部分表示屯,(Ii = {T,FP, LP},其具体步骤如下B1.提取Web新闻HTML源码中的〈title〉和〈/title〉两标签的中间部分作为Cli的标题T ;B2.提取Web新闻正文部分的第一段作为(Ii的首段FP ;B3.提取Web新闻正文部分的最后一段作为(Ii的末段LP,得到Web新闻的三个部分 Cli = {T,FP, LP};C.计算(Ii = {T, FP, LP}中各个部分特征项的权重,其具体步骤如下Cl.假设事件项Qe = {a2},a2表示事件的动作要素,约束项Q。= {t,1,o, aj,t,1,0,B1分别表示事件的时间、地点、对象及动作要素,它们在新闻Cli的T,FP, LP各个部分出现的次数记为一个矩阵,TF(a1;T)表示&1在T中出现的次数,其他类推,得到结果为 权利要求1.,其特征在于,具体步骤如下 A.在查询框中输入事件项Qe和约束项Q。两部分,得到查询项Q= {Qe, QcI ; B.选取一篇Web新闻Cli的标题T、首段FP和末段LP三个部分表示屯,Cli= {T,FP,LP},其具体步骤如下 BI.提取Web新闻HTML源码中的〈title〉和〈/title〉两标签的中间部分作为(Ii的标题T ; B2.提取Web新闻正文部分的第一段作为Cli的首段FP ; B3.提取Web新闻正文部分的最后一段作为Cli的末段LP,得到Web新闻的三个部分(Ii={T,FP, LP}; C.计算Cli={T,FP,LP}中各个部分特征项的权重,其具体步骤如下 Cl.假设事件项Qe = {a2}, a2表示事件的动作要素,约束项Q。= {t, I, o, aj,t, I, o,B1分别表示事件的时间、地点、对象及动作要素,它们在新闻Cli的T,FP,LP各个部分出现的次数记为一个矩阵,TF( , T)表示在T中出现的次数,其他类推,得到结果为~全文摘要本专利技术是,其步骤如下设置事件项Qe和约束项Qc两类输入框,得到查询项Q={Qe,Qc};选取Web新闻di的标题(T)、首段(FP)和末段(LP)三个部分表示di,di={T,FP,LP};计算di={T,FP,LP}中各个部分特征项的权重;设置查询项Q中特征项的权重为1;计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果。该方法区分了查询内容中不同项的作用,结合事件的动作要素、web新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与Web新闻相关度的计算方法,能显著地提高事件类Web新闻检索的准确率。文档编号G06F17/30GK102982163SQ20121051960公开日2013年3月20日 申请日期2012年11月29日 优先权日2012年11月29日专利技术者仲兆满, 李存华, 管燕 申请人:淮海工学院本文档来自技高网
...

【技术保护点】
一种基于事件分析的Web新闻检索方法,其特征在于,具体步骤如下:A.在查询框中输入事件项Qe和约束项Qc两部分,得到查询项Q={Qe,Qc};B.选取一篇Web新闻di的标题T、首段FP和末段LP三个部分表示di,di={T,FP,LP},其具体步骤如下:B1.提取Web新闻HTML源码中的和两标签的中间部分作为di的标题T;B2.提取Web新闻正文部分的第一段作为di的首段FP;B3.提取Web新闻正文部分的最后一段作为di的末段LP,得到Web新闻的三个部分di={T,FP,LP};C.计算di={T,FP,LP}中各个部分特征项的权重,其具体步骤如下:C1.假设事件项Qe={a2},a2表示事件的动作要素,约束项Qc={t,l,o,a1},t,l,o,a1分别表示事件的时间、地点、对象及动作要素,它们在新闻di的T,FP,LP各个部分出现的次数记为一个矩阵,TF(a1,T)表示a1在T中出现的次数,其他类推,得到结果为:TF(a1,T)TF(a1,FP)TF(a1,LP)TF(a2,T)TF(a2,FP)TF(a2,LP)TF(t,T)TF(t,FP)TF(t,LP)TF(o,T)TF(o,FP)TF(o,LP)TF(l,T)TF(l,FP)TF(l,LP)C2.在事件的四要素中,动作要素是必不可少的,其他几个要素因不同的事件而有不同的差异,给事件动作要素赋以更高的权重,得到结果为:[α,α,1,1,1]×TF(a1,T)TF(a1,FP)TF(a1,LP)TF(a2,T)TF(a2,FP)TF(a2,LP)TF(t,T)TF(t,FP)TF(t,LP)TF(o,T)TF(o,FP)TF(o,LP)TF(l,T)TF(l,FP)TF(l,LP)其中,α>1,α表示权重系数;C3.在新闻di的T,FP,LP三个项中,标题T中的特征项最为重要,FP,LP两项中的特征项的重要性认为相同;给标题T中出现的特征词赋以更高的权重,得到结果为:[α,α,1,1,1]×TF(a1,T)TF(a1,FP)TF(a1,LP)TF(a2,T)TF(a2,FP)TF(a2,LP)TF(t,T)TF(t,FP)TF(t,LP)TF(o,T)TF(o,FP)TF(o,LP)TF(l,T)TF(l,FP)TF(l,LP)×β11其中,β>1,β表示权重系数;D.设置查询项Q中特征项的权重为1;E.计算查询项Q和新闻di的相关度为R(Q,di),依据相关度R(Q,di)的大小降序排列输出检索结果,其具体步骤如下:E1.计算事件查询项间的距离,以Web新闻di的FP项为例,将FP分词后,Qc={t,l,o,a1}和Qe={a2}在FP中出现的位置依次记为pos(t,FP)、pos(l,FP)、pos(o,FP)、pos(a1,FP)和pos(a2,FP);t与a1之间的距离记为dis(t,a1)=|pos(t,FP)?pos(a1,FP)|,t,l,o与a1的距离之和为Σx∈{t,l,o}|pos(x,FP)-pos(a1,FP)|,a1与a2的距离为:dis(a1,a2)=|pos(a1,FP)?pos(a2,FP)|,那么FP中,t,l,o,a1与a2的距离之为:Dis(FP)=Σx∈{t,l,o}|pos(x,FP)-pos(a1,FP)|+|pos(a1,FP)-pos(a2,FP)|E2.如果同一个事件动作要素a在文本中多次出现,其他要素与其距离取最小值;E3.Web新闻di的T,FP,LP三个部分中,事件查询项的距离之和为:Dis(di)=Dis(T)+Dis(FP)+Dis(LP)E4.由步骤C3可知,初始的查询项Q与文档di的相关度计算方法如下:R′(Q,di)=TF(a1,T)×α×β+TF(a2,T)×α×β+TF(t,T)+TF(o,T)+TF(l,T)+TF(a1,FP)×α+TF(a2,FP)×α+TF(t,FP)+TF(o,FP)+TF(l,FP)+TF(a1,LP)×α+TF(a2,LP)×α+TF(t,LP)+TF(o,LP)+TF(l,LP)E5.考虑到相关度与事件查询项之间的距离成反比,得到最终的查询项Q与文档di的相关度为:R(Q,di)=R′(Q,di)×1log2Dis(di)E6.按照相似度R(Q,di)的大小降序排列输出检索结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:仲兆满李存华管燕
申请(专利权)人:淮海工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1