一种基于词性注意力机制的中文事件探测方法技术

技术编号:34834999 阅读:52 留言:0更新日期:2022-09-08 07:29
本发明专利技术提供一种基于词性注意力机制的中文事件探测方法,该方法基于公共数据集,首先在数据集上使用分词工具将句子分成词,然后使用词性标注工具获取句子的词性序列。将句子的词性序列输入CBOW模型得到预训练的词性向量,以此来学习词之间的固定搭配信息,如“受了伤”为“动词+副词+名词”的结构。然后使用此词性向量和词向量以及字向量分别抽取句子的词级别信息和字级别信息,抽取特征时将在句子的词矩阵、字矩阵、词性矩阵上使用卷积神经网络抽取特征。然后利用词性特征计算注意力分数,用于辅助模型计算时侧重于动词;提供了词性注意力,加入词性特征之后模型在触发词提取和事件类型分类任务上准确率、效率更高。效率更高。效率更高。

【技术实现步骤摘要】
一种基于词性注意力机制的中文事件探测方法


[0001]本专利技术属于自然语言处理领域,具体涉及一种基于词性注意力机制的中文事件探测方法。

技术介绍

[0002]事件抽取是信息抽取的任务之一,主要任务是从非结构化的文本中抽取结构化的文本信息。事件抽取在日常生活的作用也不可小觑。在金融领域,抽取股市的金融事件能够帮助投资者、企业决策者了解股市变动,做出更加合理的决策。对于政府部门而言,抽取热点新闻事件信息能帮助政府部门做好舆情监督工作,了解热点事件的发展历程。在自然语言处理研究中,事件抽取得到的结构化数据可以用于构建知识图谱,也可用于问答以及信息检索等其他的自然语言处理(neural language process,NLP)任务。根据ACE(Automatic Content Extraction)的会议定义,现有的研究将事件抽取分为四个任务:触发词探测、事件类型或触发词类型识别、事件论元探测以及论元角色分类。
[0003]现有的事件探测方法可以概括为两种:一种引入外部知识库提高模型表现,另一种提供新模型或者改进现有模型以充分挖掘各种信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于词性注意力机制的中文事件探测方法,其特征在于,包括以下步骤:Step1、利用分词工具切分句子,然后使用词性标注工具获取每个词的词性标签,得到词性标签之后使用word2vec方法,得到预训练词性标签向量;Step2、得到句子的词性特征矩阵,使用卷积神经网络提取词性词特征;Step3、利用分词工具切分句子,得到句子的词向量矩阵和字向量矩阵;然后分别在句子的词矩阵和句子矩阵上使用卷积神经网络提取句子中词汇级别特征和字级别特征;Step4、将词汇级别特征和词性注意力点乘,之后将词汇级别特征和上下文词的特征拼接得到新的词汇级别特征;Step5、词汇级别特征和字级别特征拼接后得到作为块提取网络的输入特征,块提取网络输出该词的块分类标签;Step6、使用块提取网络的输出标签和真实标签计算损失,使用Adadelta反向传播优化词卷积网络、字卷积网络、词性注意模块和块提取网络。2.根据权利要求1所述一种基于词性注意力机制的中文事件探测方法,其特征在于,所述Step2中使用卷积核,在词上做卷积计算,抽取词性特征,...

【专利技术属性】
技术研发人员:王红斌胡庆孟线岩团李辉文永华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1