一种基于图排序模型的事件核心内容自动标记方法、装置及系统制造方法及图纸

技术编号:24251961 阅读:24 留言:0更新日期:2020-05-22 23:47
本发明专利技术通过深度学习技术,针对新闻文本的要素标记问题设计了一种基于图排序模型的事件核心内容自动标记方法及应用该方法的设备和系统,该方法包括基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、事件核心句定位并输出标记文本三个基本步骤,对文本的核心句子和核心词进行标记,从而实现新闻文本标记过程中节约人工成本以及时间成本,节省资源的技术效果。

An automatic marking method, device and system of event core content based on graph sorting model

【技术实现步骤摘要】
一种基于图排序模型的事件核心内容自动标记方法、装置及系统
本专利技术涉及人工智能领域,尤其涉及一种基于图排序模型的事件核心内容自动标记方法。
技术介绍
随着互联网技术的发展,万维网上大量的文本信息飞速增长,现有的信息化时代对于新闻的阅读而言,亟需一种“浅阅读”的阅读体验,即用户阅读新闻的需求是碎片化的、概要式新闻内容。并且随着移动互联网设备的普及,移动设备端的屏幕对于新闻阅读的内容和展示也要求是碎片化的、概要式的。特别是对于一些社会事件的在媒体上报道内容的呈现需要展示出关键的信息,如时间、地点、人物、事件的影响等关键要素。目前针对事件这个角度对于事件的关键句抽取包括核心要素标记研究相对较少,基本处于人工编辑标记的方式,再用以展示给阅读用户。这种方式需要大量的人力物力,耗时且低效。新闻作为一种以叙事为主的文体,它的基本要素和我们语文界常用的记叙文的六要素是一致的。新闻六要素为时间、地点、人物、事件的起因、经过、结果。即五个“W”和一个“H”即Who(何人)、What(何事)、When(何时)、Where(何地)、Why(何因)、How(如何)。对于新闻报道而言,目前没有一套自动化的方法与装置实现针对事件核心要素与事件重要内容的自动标记方法,而自动标记对于自动从新闻报道中提取事件的描述,并且事件描述的内容中实现对于事件关键信息的标记能够提升用于对于事件最直观的信息的捕捉,提升用于的体验。
技术实现思路
针对目前核心要素自动标记方法研究较少的问题,本专利技术进行深入研究,希望实现对新闻文本进行自动标记,减少标记过程中的人力成本,并降低时间开销。为达到上述目的,本专利技术采用了下列技术方案:一种基于图排序模型的事件核心内容自动标记方法,包括:步骤一:基于句法依存树的事件关键要素抽取及核心词标记;步骤二:核心事件构建;步骤三:核心事件排序、核心句定位并输出标记文本。步骤一包括:从文本中按照事件要素定义,建立定义事件重要组成成分要素表格,其中包含:时间、地点、主体、客体、量词、触发词、情感词;使用基于句法依存树的方法进行事件关键要素抽取,对于文本进行分句处理,利用LTP中文自然语言处理词法分析工具,进行分词和词性标注处理,判断句子中是否包含所述事件重要组成成分要素,如果包含则进一步进行句法依存分析和命名实体识别,抽取所述事件重要组成成分要素;对核心词进行标记。步骤二包括:将核心事件定义为由中心事件和关系事件组成的事件,定义文本标题是中心事件,定义关系事件为关系事件数据库,所述关系事件数据库表格包含时序关系、因果关系、条件关系和目的关系四类关系;在所述文本的句子中抽取关系词;判断所述关系词类别;将判断后的每个所述关系词对应的句子为关系事件,存储关系词和对应的所述关系事件,构建关系事件数据库内容。步骤三包括:基于Textrank算法对所述核心事件重要性排序;应用MMR算法,对所述核心事件的冗余内容进行噪音去除与筛选;对去冗余后的所述核心事件,根据对应的关系词定位句子所在的位置,并标记当前句子和关系词,输出标记文本。所述核心事件重要性排序方法为构建以所述关系事件为顶点的图,所述关系事件之间有关系则构建边,应用Textrank算法获得每个顶点的权重;所述核心事件去冗余方法为考虑标题与要素词之间的相似度,要素间的相似度,要素重要性排序以及要素词是否在核心事件句中四者综合因素,从而对核心事件去除冗余句子。一种基于图排序模型的事件核心内容自动标记装置,包括:信息输入模块,用于输入源文本;事件核心内容自动标记模块,上述基于图排序模型的事件核心内容自动标记方法,对输入源文本进行标记;信息输出模块,将自动生成的标记通过接口程序输出。一种基于图排序模型的事件核心内容自动标记系统,所述系统包括至少一台服务器,以及与服务器连接的上述基于图排序模型的事件核心内容自动标记装置,所述服务器执行生成摘要过程时,通过所述基于图排序模型的事件核心内容自动标记装置执行上述的基于图排序模型的事件核心内容自动标记方法。本专利技术相对于现有技术的优点在于:1、本专利技术提出一套针对事件的关键句抽取与核心要素自动抽取与标记方式,基于图排序算法找到事件所在的关键句子,再进行事件核心要素抽取,并按照事件关系捕捉事件的发生发展情况。2、针对事件的关键要素进行定义,从事件演化这个维度刻画事件,而事件演化通过定义事件之间的关系获得,从而自动从新闻报道中标记事件的关键信息。附图说明图1本专利技术技术方案的主流程图;图2事件核心词标记;图3关系事件结构图;图4事件关系样例;图5核心句和关系词标记效果图;图6整体标注效果图;图7输入文本内容。具体实施方式以下是本专利技术的优选实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于此实施例。参照说明书附图1-7,本实施例通过对于特定的文本,基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、核心句定位及标记,实现输出标记文本的技术效果。具体而言其实现方式为:基于说明书附图7中所示文本为例,通过基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、核心事件排序、核心句定位并输出标记文本三个步骤实现对图6所示标记文本的输出。步骤一:基于句法依存树的事件关键要素抽取及核心词标记。事件关键要素抽取及标记方法的具体实现步骤是:(1)事件要素定义。由于要对事件核心内容标记,不用对所有的核心词识别,而新闻中包含核心词种类多,因此定义事件重要组成成分包含:时间、地点、主体、客体、量词、触发词、情感词,针对本申请所使用新闻文本所定义的事件重要组成成分如表1,第一列是抽取的关键词类别,第二列是样例中抽取的该类别词。表1类别示例值时间8月份地点日本主体微软客体员工量词10万触发词试行情感词有效(2)事件要素抽取。使用基于句法依存树的方法进行事件关键要素抽取。对于每一篇新闻首先进行分句处理,然后利用词法分析工具,进行分词和词性标注处理,判断句子中是否包含事件重要组成成分,如果包含则进一步进行句法依存分析和命名实体识别,抽取事件要素。(3)核心词标记。核心词的标记方式为字体标红,此处核心词为抽取的要素词,将抽取的要素词标红即可。综上,是本专利技术的基于句法依存树的事件关键要素抽取及核心词标记方法,其中事件要素抽取标记结果如图2,图中加粗的词就是使用基于句法依存树的事件关键要素抽取方法抽取的核心词。步骤二:核心事件构建。定义新闻的标题是中心事件本文档来自技高网...

【技术保护点】
1.一种基于图排序模型的事件核心内容自动标记方法,其特征在于:包括:/n步骤一:基于句法依存树的事件关键要素抽取及核心词标记,具体包含建立定义事件重要组成成分要素表格和使用基于句法依存树的方法进行事件关键要素抽取步骤;/n步骤二:核心事件构建,包括定义核心事件,在所述文本的句子中抽取关系词,判断所述关系词类别和构建关系事件数据库内容步骤;/n步骤三:核心事件排序、核心句定位并输出标记文本。/n

【技术特征摘要】
1.一种基于图排序模型的事件核心内容自动标记方法,其特征在于:包括:
步骤一:基于句法依存树的事件关键要素抽取及核心词标记,具体包含建立定义事件重要组成成分要素表格和使用基于句法依存树的方法进行事件关键要素抽取步骤;
步骤二:核心事件构建,包括定义核心事件,在所述文本的句子中抽取关系词,判断所述关系词类别和构建关系事件数据库内容步骤;
步骤三:核心事件排序、核心句定位并输出标记文本。


2.根据权利要求1所述的一种基于图排序模型的事件核心内容自动标记方法,其特征在于:所述建立定义事件重要组成成分要素表格步骤为:从文本中按照事件要素定义,建立定义事件重要组成成分要素表格,其中包含:时间、地点、主体、客体、量词、触发词、情感词;
所述使用基于句法依存树的方法进行事件关键要素抽取步骤为:对于文本进行分句处理,利用LTP中文自然语言处理分析工具,进行分词和词性标注处理,判断句子中是否包含所述事件重要组成成分要素,如果包含则进一步进行句法依存分析和命名实体识别,抽取所述事件重要组成成分要素;
对抽取的事件重要组成成分核心词在原文中进行自动标记,如加粗。


3.根据权利要求2所述的一种基于图排序模型的事件核心内容自动标记方法,其特征在于:所述定义核心事件步骤为:
将核心事件定义为由中心事件和关系事件组成的事件,定义文本标题是中心事件,定义关系事件为关系事件数据库,所述关系事件数据库表格包含时序关系、因果关系、条件关系和目的关系四类关系;
所述构建关系事件数据库内容步骤为:将判断后的每个所述关系词对应的句子为关系事件,存储关系词和对应的所述关系事件,构建关系事件数据库内...

【专利技术属性】
技术研发人员:李建欣毛乾任李倩钟盛海朱洪东李熙
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1