当前位置: 首页 > 专利查询>清华大学专利>正文

新闻事件内实体关系抽取方法及装置制造方法及图纸

技术编号:24996887 阅读:75 留言:0更新日期:2020-07-24 17:59
本发明专利技术实施例提供一种新闻事件内实体关系抽取方法及装置,所述方法包括:提取目标新闻事件中与实体相关的语句,并确定目标实体对,提取所述目标实体对出现语句,生成实体对语句集合;分析实体对语句集合中各语句的语义特征,提取用以表示目标实体对关系的多个关键词;根据多个关键词在实体对语句集合中的TF‑IDF值进行排序,选取前N个关键词作为表征目标实体对关系的关系词。本发明专利技术不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。

【技术实现步骤摘要】
新闻事件内实体关系抽取方法及装置
本专利技术实施例涉及自然语言处理
,更具体地,涉及一种新闻事件内实体关系抽取方法及装置。
技术介绍
近年来随着互联网的飞速发展,互联网承载的信息也越来越丰富,互联网以其丰富便捷实时的特点受到了人们的青睐,同时也改变了以往人们从传统媒体获取信息的习惯,成为人们获取信息的主要的途径。然而随着互联网的飞速发展,互联网新闻量也呈现爆炸式的增长。海量的新闻容易给用户造成信息过载,人们无法从海量的新闻中快速准确地获取该事件的概况。同时,随着事件的深入发展,人们不仅仅只关注于事件概况,而是更期望深入了解事件更多的信息,比如在该事件内实体之间的关系以及实体与事件的关系。面对海量的网络新闻数据量,对新闻事件进行深入挖掘,分析具体的事件内实体之间的关系非常有必要。目前实体关系抽取工作主要有面向特定领域关系抽取和开放领域关系抽取。特定领域的关系抽取,需要预先定义实体关系类型,利用人工标注的训练语料使用模式匹配及机器学习等方法抽取实体之间的关系。然而,利用人工对海量的网络新闻数据进行标注需要耗费大量的人力,是不现本文档来自技高网...

【技术保护点】
1.一种新闻事件内实体关系抽取方法,其特征在于,包括:/n基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;/n分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;/n计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;/n其中,N为大于等于1的自然数。/n

【技术特征摘要】
1.一种新闻事件内实体关系抽取方法,其特征在于,包括:
基于目标新闻事件对应的新闻文档,提取所述目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合;
分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词;
计算所述多个关健词在所述实体对语句集合中的TF-IDF值,并根据所述TF-IDF值对所述多个关键词进行排序,根据排序结果选取前N个关键词作为最能表征所述目标实体对中两个实体之间关系的关系词;
其中,N为大于等于1的自然数。


2.根据权利要求1所述的方法,其特征在于,所述提取目标新闻事件中与实体相关的语句,并确定目标实体对,从所述与实体相关的语句中提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合的步骤,具体为:
将目标新闻事件对应的新闻文档进行以句子为单位的切分,生成所述目标新闻事件对应的句子集合;
对所述句子集合中的每个句子进行词性标注,根据词性标注的结果,提取所述句子集合中与实体相关的语句,并根据实体与句子的对应关系,生成每个实体对应的语句集合;
确定目标实体对,并基于所述目标实体对中的两个实体各自对应的语句集合,提取所述目标实体对中的两个实体共同出现的语句,生成实体对语句集合。


3.根据权利要求1所述的方法,其特征在于,所述分析所述实体对语句集合中各语句的语义特征,提取用以表示所述目标实体对中两个实体之间关系的多个关键词的步骤,具体为:
对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构,并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置;
基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置,分别获取所述目标实体对中两个实体在所述各语句中的最近依赖动词;
判断所述目标实体对中的两个实体在所述各语句中的最近依赖动词之间的关系,确定用以表示所述目标实体对中两个实体之间关系的多个关键词。


4.根据权利要求3所述的方法,其特征在于,所述对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构,并分别获取所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置的步骤,具体为:
利用句法分析工具,对所述实体对语句集合中各语句进行句法结构分析,获得各语句对应的依存句法结构和词性标注结果;
从根节点开始遍历所述各语句对应的依存句法结构,直至找到所述目标实体对中的两个实体,并记录所述两个实体在所述各语句对应的依存句法结构中的位置。


5.根据权利要求4所述的方法,其特征在于,所述基于所述目标实体对中的两个实体在所述各语句对应的依存句法结构中的位置,分别获取所述目标实体对中的两个实体在所述各语句中的最近依赖动词的步骤,具体为:
针对所述目标实体对中的一个实体,根据该实体在所述各语句对应的依存句法结构中的位置、所述各语句对应的依存句法结构和词性标注结果,对该实体与该实体所在语句中的其他实体之间的关系进行判断;
若该实体与该实体所在语句中的其他实体之间的关系为并列关系或者定中关系,则在该实体所在语句对应的依存句法结构中查找该实体的父节点和所述其他实体的父节点;
对该实体的父节点与所述其他实体的父节点之间的关系进行判断,如果所述父节点之...

【专利技术属性】
技术研发人员:李涓子张斌侯磊张鹏
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1