【技术实现步骤摘要】
一种中文结构化事件抽取方法
本专利技术属于信息抽取
,具体属于事件抽取
,涉及一种中文结构化事件抽取方法。
技术介绍
随着网络的迅速发展,每天都会产生大量的非结构化文本数据,如何根据具体应用需求从非结构化文本数据中抽取有价值、有意义的结构化信息,具有重大意义。事件抽取作为信息抽取的子任务,具有较大的应用前景。以财经领域为例,投资者及上市公司对股票市场趋势比较感兴趣,趋势预测可以为市场分析、决策提供较为有力的支撑,抽取的事件可为预测提供帮助。事件抽取主要是从本文中抽取包含的所有事件。财经领域比较关注事件的行为动作以及作用的对象,事件抽取的内容对股市趋势预测效果至关重要,而上述内容主要包含于语句的主谓宾中,因此结构化事件抽取目标主要是抽取包含主谓宾的事件。在过去的十多年中,国内外已有较多有关事件抽取的研究,根据抽取目标及应用价值不同分为传统事件抽取和基于应用需求驱动的事件抽取。传统事件抽取一般分为4个子任务,触发词识别和分类、论元识别和分类,前者称为事件探测。传统事件抽取重点研究采用何种方法或模型提高事件触发词或论元所属类别的正确率,即分类效果,且大部分聚焦于标准事件类型的事件抽取。此系列的事件抽取主要采取经典的卷积神经网络、循环神经网络以及各种先进的、变形的神经网络等深度学习模型来解决分类问题,但这需要大量人工标注数据作为训练支撑,在目前中文标注数据匮乏情况下,一定程度限制了传统事件抽取的分类效果。基于应用需求驱动的事件抽取旨在结合具体应用需求,定义事件类型及需要抽取的内容,采取先进的方法完 ...
【技术保护点】
1.一种中文结构化事件抽取方法,其特征在于:所述的结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,包含以下步骤:/nA、首先利用句法依存分析工具对非结构化文本语句进行句法依存分析,获得句法依存分析树;/nB、根据中文语言学和句法依存分析树的特征,建立核心动词链,识别语句中包含的所有事件谓语Pred;/nC、借助语义依存分析工具,获得语义依存分析树,在获得的句法依存分析树上添加语义依存关系,构建句法语义依存分析树;/nD、根据语义依存关系,调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;/nE、基于构建的句法语义依存分析事件图,通过得到的事件核心动词,分别获取事件的主语Sub和宾语Obj;/nF、添加事件核心动词间语义依存关系;/nG、添加事件非核心动词间语义依存关系;。/n
【技术特征摘要】
1.一种中文结构化事件抽取方法,其特征在于:所述的结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,包含以下步骤:
A、首先利用句法依存分析工具对非结构化文本语句进行句法依存分析,获得句法依存分析树;
B、根据中文语言学和句法依存分析树的特征,建立核心动词链,识别语句中包含的所有事件谓语Pred;
C、借助语义依存分析工具,获得语义依存分析树,在获得的句法依存分析树上添加语义依存关系,构建句法语义依存分析树;
D、根据语义依存关系,调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,构建句法语义依存分析事件图;
E、基于构建的句法语义依存分析事件图,通过得到的事件核心动词,分别获取事件的主语Sub和宾语Obj;
F、添加事件核心动词间语义依存关系;
G、添加事件非核心动词间语义依存关系;。
2.根据权利要求1所述的一种中文结构化事件抽取方法,其特征在于:所述步骤A中句法依存分析采用LTP工具,句法依存分析树记为:DP=(V,E),其中V表示经LTP分词后的词语集合,E表示词语的句法依存集合。
3.根据权利要求1或2所述的一种中文结构化事件抽取方法,其特征在于:所述中文语言学包括以下特征:
特征1、事件由动词触发,谓语一般由动词充当;
特征2、语句中具有并列关系的谓语在句法结构上应该拥有相同的地位或性质,即形成的句法结构在语法角度上应通过某个约定的并列符号进行关联;
所述句法依存分析树包含以下特征:
特征3、一条语句只给出一个核心词,事件间谓语为父子结点,且保持连续;
特征4、事件谓语之间父子结点的边为COO句法依存关系,且依存路径上不能出现其他句法依存关系。
4.根据权利要求2或3所述的一种中文结构化事件抽取方法,其特征在于:通过对依存于语句核心词的所有具有连续COO的动词结点进行识别,建立核心动词链,记为CVC=(V),其中每个动词对应一个事件,称为核心动词,V表示语句核心动词集合,建立规则包括:
规则1、如果LTP给出的语句核心词是动词,则默认属于核心动词链中,否则考虑其满足COO关系的孩子结点,直到找到动词为止;
规则2、加入的结点是与核心动词链中结点构成COO关系的动词结点,且确保添加的动词从语句核心词开始一直保持COO关系的连续性,一旦中断则不再考虑后续动词;
规则3、如果LTP给出的语句核心词是非动词,且其孩子中没有满足COO关系的动词结点,则该语句不生成核心动词链。
5.根据权利要求1所述的一种中文结构化事件抽取方法,其特征在于:所述步骤C中语义依存分析采用SDP工具,语义依存分析树记为:SDP=(V,E),其中V表示经LTP分词后的词语集合,E表示词语的语义依存关系集合。
6.根据权利要求1所述的一...
【专利技术属性】
技术研发人员:万齐智,万常选,胡蓉,刘德喜,
申请(专利权)人:万齐智,万常选,胡蓉,刘德喜,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。