事件关键词提取方法、装置、设备及介质制造方法及图纸

技术编号：25599843 阅读：43 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开了一种事件关键词提取方法，涉及自然语言处理技术领域，用于解决现有事件提取不准确的问题，该方法包括以下步骤：获取文本数据及所述文本数据的标注数据；将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练，得到句子层关键词；对第二BERT模型进行模型精调，得到文档层关键词；生成事件关系图；根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。本发明专利技术还公开了一种事件关键词提取装置、电子设备和计算机存储介质。本发明专利技术通过对半监督的方法进行关键词提取，并通过事件关系图实现关键词筛选。

全部详细技术资料下载

【技术实现步骤摘要】
事件关键词提取方法、装置、设备及介质
本专利技术涉及自然语言处理
，尤其涉及一种事件关键词提取方法、装置、设备及介质。
技术介绍
文本结构化技术被广泛应用于数据预处理、数据分析、知识图谱、数据搜索、内容推荐等领域。随着数据增长越来越快，噪声数据将有用数据淹没的可能性也随之变大；为了去除噪声，以提取重要信息，文本结构化技术，尤其是事件提取的方法成为了目前重点研究的方向。现有技术开始使用BERT模型及其相关方法来进行事件的提取，对事件进行提取时，通常只提取其中最重要的一句话，并对其进行属性信息(时间，地点等)补充，以作为文档级事件的提取结果。但是，由于文档信息的碎片化，有效信息分散在多个句子中，导致该方法容易产生较大的信息损失，适用对象有限，通常只能应用于金融新闻快讯等领域。现有技术还有使用迁移句子进行时间提取的方法，其通过统计分析、有向图等方式找出文档重点及高频事件，作为提取结果，但是此方法会使得上下文间的相关性被简化，导致信息损失较大。此外，现有的事件提取方法都需要大量的文档标注文本，但是以文档为标注对象的语料标注难度大，获取成本高。
技术实现思路
为了克服现有技术的不足，本专利技术的目的之一在于提供一种事件关键词提取方法，其通过句子层模型的有监督训练结合文档层模型的无监督训练，并通过事件关系图实现文档关键词的提取。本专利技术的目的之一采用以下技术方案实现：一种事件关键词提取方法，包括以下步骤：获取文本数据及所述文本数据的标注数...

【技术保护点】
1.一种事件关键词提取方法，其特征在于，包括以下步骤：/n获取文本数据及所述文本数据的标注数据；/n将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练，得到句子层关键词；/n将所述句子层关键词作为掩码对象，将所述文本数据以文档形式输入第二BERT模型进行模型精调，得到文档层关键词；/n计算所述文档层关键词的自注意系数，根据所述自注意系数生成事件关系图；/n根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。/n

【技术特征摘要】
1.一种事件关键词提取方法，其特征在于，包括以下步骤：
获取文本数据及所述文本数据的标注数据；
将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练，得到句子层关键词；
将所述句子层关键词作为掩码对象，将所述文本数据以文档形式输入第二BERT模型进行模型精调，得到文档层关键词；
计算所述文档层关键词的自注意系数，根据所述自注意系数生成事件关系图；
根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。

2.如权利要求1所述的事件关键词提取方法，其特征在于，将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练，得到句子层关键词，包括以下步骤：
将所述文本数据划分为若干句子，将所述若干句子导入所述第一BERT模型进行模型精调；
将所述若干句子分别进行字符切分，将得到的字符转换为字符向量；
将所述字符向量及所述标注数据输入精调后的所述第一BERT模型进行训练；
得到所述文本数据的预测标注类型，根据所述标注类型，从所述文本数据中映射到对应位置的词，得到句子层关键词。

3.如权利要求2所述的事件关键词提取方法，其特征在于，将所述文本数据以句子为单位导入所述第一BERT模型进行模型精调，包括以下步骤：
将所述文本数据以句子为单位拆分成字符；
将所述字符转换为字符向量，并进行随机字符掩码，输入所述第一BERT模型得到所述字符掩码处的预测值；
根据所述预测值与真实值的误差更新所述第一BERT模型的参数。

4.如权利要求2所述的事件关键词提取方法，其特征在于，将所述句子层关键词作为掩码对象，将所述文本数据以文档形式输入第二BERT模型进行模型精调，得到文档层关键词，包括以下步骤：
以文档为单位，将所述文本数据分成字符；
将所述字符转换为字符向量，并将所述句子层关键词作为掩码对象；
通过所述第一BERT模型预测所述掩码对象的结果，更新所述第一BERT模型的参数，得到所述第二BERT模型；
以文档为单位，将所述文本数据输入所述第二BERT模型，得到文档层关键词。

【专利技术属性】
技术研发人员：丁锴，李建元，陈涛，王开红，
申请(专利权)人：银江股份有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人