一种远程监督事件抽取方法及其应用技术

技术编号:26651006 阅读:49 留言:0更新日期:2020-12-09 00:51
本发明专利技术公开了一种远程监督事件抽取方法及其应用,其中所述抽取方法包括:构建待抽取信息的触发词林;构建待抽取信息的知识库;构建待抽取信息的事件数据集;通过神经网络模型进行事件抽取。本发明专利技术的抽取方法可对离散化的、碎片化的、和/或无法经过直接的句子抽取获得事件信息的信息进行准确高效的抽取,特别适用于对剧本类信息的事件抽取中。

【技术实现步骤摘要】
一种远程监督事件抽取方法及其应用
本专利技术涉及事件抽取方法的

技术介绍
剧本作为戏剧艺术创作如电影等的完整书面形式,是戏剧的情节、事件的文字化记录,蕴含着大量信息,但这些信息通常是离散、碎片化的,难以进行高效的信息抽取。若能成功地对剧本进行的信息抽取,即可以得到集中、结构化的信息,帮助工作人员对戏剧做出快速的、进一步的理解,还可以在戏剧的相关应用例如自动化评价等方面发挥重要作用。在信息抽取中,事件抽取是其重要组成部分,而戏剧由情节组成,情节的更细粒度的划分则是事件,因而对剧本的事件抽取是实现剧本信息抽取的一个重要部分。目前的事件抽取技术大多数集中在对句子的抽取上,但在剧本类信息中,一个事件往往分布在一个大的篇章内,而非单一句子中,因此通过句子抽取技术,难以获得理想的抽取效果。此外,现有技术中也不存在针对剧本的事件抽取数据集,而一篇剧本字数上万,对其进行手工标注亦不太现实。
技术实现思路
本专利技术的目的在于提出一种可对离散化的、碎片化的、和/或无法经过直接的句子抽取获得事件信息的信息进行准确高效抽本文档来自技高网...

【技术保护点】
1.一种远程监督事件抽取方法,其特征在于:包括:/nS1构建待抽取信息的触发词林;/nS2构建待抽取信息的知识库;/nS3构建待抽取信息的事件数据集;/nS4通过神经网络模型进行事件抽取。/n

【技术特征摘要】
1.一种远程监督事件抽取方法,其特征在于:包括:
S1构建待抽取信息的触发词林;
S2构建待抽取信息的知识库;
S3构建待抽取信息的事件数据集;
S4通过神经网络模型进行事件抽取。


2.根据权利要求1所述的事件抽取方法,其特征在于:所述步骤S1包括:
S11通过手工定义的方式,定义待抽取信息领域内的某一样本信息的可能事件类型,及不同事件类型下的部分事件,构建不同事件的一组核心触发词,设置所述核心触发词在其对应事件中的触发权重;
S12通过手工定义的方式,设置S11中定义的不同事件在不同事件类型下的触发权重;
S13获得不同类型事件的词核向量;
S14通过候选触发词与所述词核向量的加权词向量余弦相似度,及其与相似度阈值的比较,获得被定义事件的其他触发词;
S15由核心触发词及其他触发词组成该事件的触发词林;
其中,所述词核向量通过对所述核心触发词的词向量的最大池化获得。


3.根据权利要求2所述的事件抽取方法,其特征在于:所述加权词向量余弦相似度为所述候选触发词与所述词核向量的词向量余弦相似度与不同事件在不同事件类型下的触发权重的乘积。


4.根据权利要求3所述的事件抽取方法,其特征在于:所述词向量、所述候选触发词及所述词向量余弦相似度通过Word2vec模型获得。


5.根据权利要求1所述的事件抽取方法,其特征在于:所述步骤S2包括:
S21获得待抽取信息所在领域内的现有知识文本,即储备文本;
S22对储备文本进行包括分句、指代消歧及语义角色标注在内的基础处理;
S23对通过基础处理得到文本句子进行触发词匹配,根据匹配后的事件得分,判断该文本句子的事件类型;
S24对通过基础处理得到文本句子的语义角色序列,及触发词与设定模板匹配,根据匹配结果,确定该文本句子的事件论元;
S25由所得事件类型、事件论元及所述触发词林组成所述待抽取信息的知识库;
其中,所述设定模板为:
[A0,触发词,A1],其中A0表示施事者,A1表...

【专利技术属性】
技术研发人员:许伟川张伟文王德培
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1