事件关键词提取方法、装置、设备及介质制造方法及图纸

技术编号:25599843 阅读:43 留言:0更新日期:2020-09-11 23:57
本发明专利技术公开了一种事件关键词提取方法,涉及自然语言处理技术领域,用于解决现有事件提取不准确的问题,该方法包括以下步骤:获取文本数据及所述文本数据的标注数据;将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;对第二BERT模型进行模型精调,得到文档层关键词;生成事件关系图;根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。本发明专利技术还公开了一种事件关键词提取装置、电子设备和计算机存储介质。本发明专利技术通过对半监督的方法进行关键词提取,并通过事件关系图实现关键词筛选。

【技术实现步骤摘要】
事件关键词提取方法、装置、设备及介质
本专利技术涉及自然语言处理
,尤其涉及一种事件关键词提取方法、装置、设备及介质。
技术介绍
文本结构化技术被广泛应用于数据预处理、数据分析、知识图谱、数据搜索、内容推荐等领域。随着数据增长越来越快,噪声数据将有用数据淹没的可能性也随之变大;为了去除噪声,以提取重要信息,文本结构化技术,尤其是事件提取的方法成为了目前重点研究的方向。现有技术开始使用BERT模型及其相关方法来进行事件的提取,对事件进行提取时,通常只提取其中最重要的一句话,并对其进行属性信息(时间,地点等)补充,以作为文档级事件的提取结果。但是,由于文档信息的碎片化,有效信息分散在多个句子中,导致该方法容易产生较大的信息损失,适用对象有限,通常只能应用于金融新闻快讯等领域。现有技术还有使用迁移句子进行时间提取的方法,其通过统计分析、有向图等方式找出文档重点及高频事件,作为提取结果,但是此方法会使得上下文间的相关性被简化,导致信息损失较大。此外,现有的事件提取方法都需要大量的文档标注文本,但是以文档为标注对象的语料标注难度大,获取成本高。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种事件关键词提取方法,其通过句子层模型的有监督训练结合文档层模型的无监督训练,并通过事件关系图实现文档关键词的提取。本专利技术的目的之一采用以下技术方案实现:一种事件关键词提取方法,包括以下步骤:获取文本数据及所述文本数据的标注数据;将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词;计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图;根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。进一步地,将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词,包括以下步骤:将所述文本数据划分为若干句子,将所述若干句子导入所述第一BERT模型进行模型精调;将所述若干句子分别进行字符切分,将得到的字符转换为字符向量;将所述字符向量及所述标注数据输入精调后的所述第一BERT模型进行训练;得到所述文本数据的预测标注类型,根据所述标注类型,从所述文本数据中映射到对应位置的词,得到句子层关键词。进一步地,将所述文本数据以句子为单位导入所述第一BERT模型进行模型精调,包括以下步骤:将所述文本数据以句子为单位拆分成字符;将所述字符转换为字符向量,并进行随机字符掩码,输入所述第一BERT模型得到所述字符掩码处的预测值;根据所述预测值与真实值的误差更新所述第一BERT模型的参数。进一步地,将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:以文档为单位,将所述文本数据分成字符;将所述字符转换为字符向量,并将所述句子层关键词作为掩码对象;通过所述第一BERT模型预测所述掩码对象的结果,更新所述第一BERT模型的参数,得到所述第二BERT模型;以文档为单位,将所述文本数据输入所述第二BERT模型,得到文档层关键词。进一步地,将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:以文档为单位,将所述文本数据分成词组;将所述词组转换为词向量,并将所述句子层关键词作为掩码对象,输入所述第二BERT模型;根据所述掩码对象预测结果对所述第二BERT模型进行训练;以文档为单位,将所述文本数据输入训练后的所述第二BERT模型,得到文档层关键词。进一步地,计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图,包括以下步骤:对所述第二BERT模型进行参数分析,计算所述第二BERT模型中每一层每一头的向量间自注意系数;通过KL变换去除所述自注意系数中的无效值与重复值;合并经过KL变换后的所述自注意系数,得到所述事件关系图。进一步地,所述每一层每一头的向量间自注意系数通过键向量、查询向量进行点乘的方法计算得到。本专利技术的目的之二在于提供一种事件关键词提取装置,其通过句子层模型的有监督训练结合文档层模型的无监督训练,并通过事件关系图实现文档关键词的提取。本专利技术的目的之二采用以下技术方案实现:一种事件关键词提取装置,其包括:获取模块,用于获取文本数据及所述文本数据的标注数据;事件提取模块,用于将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图,根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。本专利技术的目的之三在于提供执行专利技术目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的事件关键词提取方法。本专利技术的目的之四在于提供存储专利技术目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的事件关键词提取方法。相比现有技术,本专利技术的有益效果在于:本专利技术通过半监督方法进行事件关键词的提取,在句子层利用有监督的方式提取每句话对应关键词,在文档层利用无监督的方式提取文档中的关键词,既降低了标注成本,又保证了提取精度,利用事件关系图作为提取结果,可保留的关键词信息且关键词信息更精确。附图说明图1是实施例一的事件关键词提取方法的流程图;图2是实施例一的第一BERT模型训练方法的流程图;图3是实施例一的模型精调方法的流程图;图4是实施例二的第二BERT模型精调方法的流程图;图5是实施例三的事件关键词筛选方法的流程图;图6是实施例四的事件关键词提取装置的结构框图;图7是实施例五的电子设备的结构框图。具体实施方式以下将结合附图,对本专利技术进行更为详细的描述,需要说明的是,以下参照附图对本专利技术进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。实施例一实施例一提供了一种事件关键词提取方法,旨在通过利用半监督的方式提取文档关键词,并根据自注意系数,定位出文章中的重点事件关键词。本专利技术事件提取模型通过对BERT模型进行训练完成构建;BERT模型是一种语言表征模型,它使用Transformer的双向本文档来自技高网...

【技术保护点】
1.一种事件关键词提取方法,其特征在于,包括以下步骤:/n获取文本数据及所述文本数据的标注数据;/n将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;/n将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词;/n计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图;/n根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。/n

【技术特征摘要】
1.一种事件关键词提取方法,其特征在于,包括以下步骤:
获取文本数据及所述文本数据的标注数据;
将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;
将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词;
计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图;
根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。


2.如权利要求1所述的事件关键词提取方法,其特征在于,将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词,包括以下步骤:
将所述文本数据划分为若干句子,将所述若干句子导入所述第一BERT模型进行模型精调;
将所述若干句子分别进行字符切分,将得到的字符转换为字符向量;
将所述字符向量及所述标注数据输入精调后的所述第一BERT模型进行训练;
得到所述文本数据的预测标注类型,根据所述标注类型,从所述文本数据中映射到对应位置的词,得到句子层关键词。


3.如权利要求2所述的事件关键词提取方法,其特征在于,将所述文本数据以句子为单位导入所述第一BERT模型进行模型精调,包括以下步骤:
将所述文本数据以句子为单位拆分成字符;
将所述字符转换为字符向量,并进行随机字符掩码,输入所述第一BERT模型得到所述字符掩码处的预测值;
根据所述预测值与真实值的误差更新所述第一BERT模型的参数。


4.如权利要求2所述的事件关键词提取方法,其特征在于,将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:
以文档为单位,将所述文本数据分成字符;
将所述字符转换为字符向量,并将所述句子层关键词作为掩码对象;
通过所述第一BERT模型预测所述掩码对象的结果,更新所述第一BERT模型的参数,得到所述第二BERT模型;
以文档为单位,将所述文本数据输入所述第二BERT模型,得到文档层关键词。

【专利技术属性】
技术研发人员:丁锴李建元陈涛王开红
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1