当前位置: 首页 > 专利查询>清华大学专利>正文

基于新闻事件的关系分析方法及装置制造方法及图纸

技术编号:29402807 阅读:23 留言:0更新日期:2021-07-23 22:40
本发明专利技术提供一种基于新闻事件的关系分析方法及装置,其中方法包括:获取多篇新闻文本;对多篇新闻文本进行聚类,得到聚类后的多个新闻事件;对多个新闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取、实体与事件关系抽取,根据实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果、实体与事件关系抽取结果进行关联分析得到分析结果。本发明专利技术通过原始新闻文本聚类实现新闻事件级别分析,得到多个事件,再通过对事件文本抽取实体、实体关系、事件关系、事件与实体的关系。进而通过实体链接,将实体背景知识进行补充,实现对事件的深层次挖掘,从而使读者能够获得更全面和深入的信息。

【技术实现步骤摘要】
基于新闻事件的关系分析方法及装置
本专利技术涉及计算机
,尤其涉及一种基于新闻事件的关系分析方法及装置。
技术介绍
随着互联网普及率的上升和信息公开化程度的提高,网络已经成为新闻事件报道和传播的重要平台。互联网上新闻网页的数量急剧增长,新闻量和冗余信息的增加,给阅读和信息分析带来了新的挑战。而由于互联网的开放性特征,发布在网站上的新闻信息可能会繁杂无序,描述同一新闻事件的新闻信息可能会分散在不同的网站上,不利于用户的深入了解。当用户要想了解与这个新闻事件的来龙去脉时,需要一次一次的输入去做查找,非常耗时。而现有的技术为了对新闻事件进行分析主要是对新闻正文进行简单分类或者基于新闻内容提取相应的关键词,并不能全面体现一则新闻的所包含的信息。或者仅仅对新闻事件进行聚类,将相同事件进行集中展现,是读者获取更多相应信息,但是这种方式并不能对不同种类的新闻进行聚合,不能对信息进行跨类别的融合,不能体现出新闻中不包含的背景知识,不能使读者获取更为深入或者全面的信息,从而加深对新闻的理解。
技术实现思路
专利技术提供一种基于本文档来自技高网...

【技术保护点】
1.一种基于新闻事件的关系分析方法,其特征在于,包括:/n获取多篇新闻文本;/n对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件;/n对所述多个新闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取以及实体与事件关系抽取,得到实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果,以及实体与事件关系抽取结果;/n根据所述实体链接结果、所述实体抽取结果、所述实体关系抽取结果、所述事件关系抽取结果,以及所述实体与事件关系抽取结果进行关联分析得到分析结果。/n

【技术特征摘要】
1.一种基于新闻事件的关系分析方法,其特征在于,包括:
获取多篇新闻文本;
对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件;
对所述多个新闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取以及实体与事件关系抽取,得到实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果,以及实体与事件关系抽取结果;
根据所述实体链接结果、所述实体抽取结果、所述实体关系抽取结果、所述事件关系抽取结果,以及所述实体与事件关系抽取结果进行关联分析得到分析结果。


2.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多篇新闻文本进行聚类,得到聚类后的多个新闻事件,包括:
对所述多篇新闻文本进行K均值聚类、基于密度的聚类、均值漂移聚类或层次聚类,得到多个新闻事件。


3.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多个新闻事件进行实体关系抽取,包括下述中的一种或多种:
对所述多个新闻事件进行语料级的实体关系抽取;
对所述多个新闻事件进行句子级的实体关系抽取;
对所述多个新闻事件从实体链接得到的实体链接结果进行实体关系扩展。


4.根据权利要求1~3任一项所述的新闻事件的关系分析方法,其特征在于,在对所述多个新闻事件进行实体关系抽取时,采用开放域关系抽取;其中,所述开放域关系抽取是指基于实体对和上下文中的连接词描述实体之间的关系。


5.根据权利要求1所述的新闻事件的关系分析方法,其特征在于,对所述多个新闻事件进行事件关系抽取,包括下述中的一种或多种:
对所述多个新闻事件进行因果事件关系抽取;
对所述多个新闻事件进行子事件关系抽取;
对所...

【专利技术属性】
技术研发人员:侯磊刘丁枭吴茜凤李涓子张鹏唐杰许斌
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1