一种基于掩码语言模型的文献新词发现方法及系统技术方案

技术编号:31796162 阅读:13 留言:0更新日期:2022-01-08 10:55
本发明专利技术公开了一种基于掩码语言模型的文献新词发现方法及系统,属于人工智能自然语言处理技术领域,该方法包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件,掩码语言训练组件对文献数据进行数据清洗、句段切分,通过训练集的训练组成向量标识Word Embedding,组建Attention机制和前馈神经网络,合为一组Encoder,并搭建Encoder训练模型;将编码后的训练集采用随机屏蔽,部分输入token做训练集输入,被屏蔽的token做输出,以该方式做数据生成器,训练深度双向表示网络。本发明专利技术能够达到速度与精确度的平衡,对于特定场景的文献有更好的新词发现效果。场景的文献有更好的新词发现效果。场景的文献有更好的新词发现效果。

【技术实现步骤摘要】
一种基于掩码语言模型的文献新词发现方法及系统


[0001]本专利技术涉及人工智能自然语言处理
,具体地说是一种基于掩码语言模型的文献新词发现方法及系统。

技术介绍

[0002]在自然语言处理新词发现的领域内,目前用于解决特定场景下的新词发现分词工具思路主要包括查词典法与字标注法,他们对于不同的场景应用表现各有利弊,国内外学者也在这个方向多次创新,最为经典的就是Bengio发表的《ANeural Probabilistic Language Model》,许多学者都深受启发。2017年电子科技大学学报就发表过名为《基于Aho

Corasick自动机算法的概率模型中文分词CPACA算法》,2020年11月指挥信息系统与技术发表过《基于LSTM

CRF的军事动向文本实体识别方法》,同年长春师范大学学报也发表过《基于信息熵加权的Word2vec中文文本分类研究》。综合近些年学者的研究,总结发现利用相邻字凝固度(互信息)来构建词库对于词义表示过于粗糙,不利于复杂场景下的新词拆分,基于语言模型的无监督分词提供了一种完整独立于其他无监督分词的方法但却过于复杂且包含viterbi的瓶颈。

技术实现思路

[0003]本专利技术的技术任务是针对以上不足之处,提供一种基于掩码语言模型的文献新词发现方法及系统,该方法能够达到速度与精确度的平衡,对于特定场景的文献有更好的新词发现效果。
[0004]本专利技术解决其技术问题所采用的技术方案是:
[0005]一种基于掩码语言模型的文献新词发现方法,包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件,
[0006]掩码语言训练组件对文献数据进行数据清洗、句段切分,通过训练集的训练组成向量标识Word Embedding,组建Attention机制和前馈神经网络,合为一组Encoder,并搭建Encoder训练模型;将编码后的训练集采用随机屏蔽,部分输入token做训练集输入,被屏蔽的token做输出,以该方式做数据生成器,训练深度双向表示网络;经过迭代与训练,得到能完成Cloze任务的掩码语言模型,并对模型进行持久化处理保证其增量运算能力与可迁移性;
[0007]通过模型依赖关系运算组件得到任意两个token的相关性,并组成所有token的相关性矩阵,得到不同于互信息衡量的相关度指标,通过运算得到句子字间依赖度;
[0008]最大概率运算组件利用模型依赖关系运算组件生成的待测句子字间依赖度指标,对特定阈值进行拆分,并通过多字权重的调整,利用概率乘积与权值配比,计算得到待测句子最大概率组合。
[0009]该方法对现有基于互信息提出的字间相关度的优化升级,可以使字间相关的衡量标准在一定程度上包含字间依存关系和字义的识别,拥有更灵活的新词发现能力,甚至有
发现词法的分析表现。在一定程度上解决了文献新词发现系统在当下的痛点问题。
[0010]优选的,所述数据清洗、句段切分,对中文文献数据以标点、换行符、段落符为依据拆分为最小单元;
[0011]训练集训练以字为单位进行Token Embedding编码,生成原始字表,并按照最小单元依次编写Segment Embedding、Position Embedding,求和组成以字为单位的Word Embedding。
[0012]优选的,所述Attention机制以Multi

Head Self

Attention+Add&Normalization为基础,前馈神经网络以Feed

Forward+Add&Normalization为基础。
[0013]优选的,搭建12层Encoder训练模型。
[0014]优选的,所述数据生成器80%的时间用[MASK]标记替换单词,10%的时间用一个随机的单词替换该单词,另外10%的时间保持单词不变。
[0015]优选的,所述模型依赖关系运算组件将待分析句子以字为单位逐个替换为[MASK],经过掩码语言训练组件后输出初始预测序列,并以此序列为基础,依次替换除待分析字片段以外的字为[MASK],重复进入掩码语言训练模型,得到第二组token组成的矩阵序列,将两序列依次做欧氏距离运算,得到句子片段中除自己以外的每个字对此字的依赖程度,组成相关性组,循环至所有待分析字完成,对相邻两字正反依赖程度做平均值计算,得到句子字间依赖度。
[0016]优选的,所述最大概率运算组件使用树形结构,存储新词枝干信息与匹配相似度。
[0017]本专利技术还要求保护一种无监督文献新词发现系统,包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件,
[0018]该系统通过所述的掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件实现上述的无监督文献新词发现方法。
[0019]本专利技术还要求保护一种无监督文献新词发现装置,包括:至少一个存储器和至少一个处理器;
[0020]所述至少一个存储器,用于存储机器可读程序;
[0021]所述至少一个处理器,用于调用所述机器可读程序,执行上述的无监督文献新词发现方法。
[0022]本专利技术还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的无监督文献新词发现方法。
[0023]本专利技术的一种基于掩码语言模型的文献新词发现方法及系统与现有技术相比,具有以下有益效果:
[0024]本方法及系统对现有基于互信息提出的字间相关度的优化升级,可以使字间相关的衡量标准在一定程度上包含字间依存关系和字义的识别,拥有更灵活的新词发现能力,甚至有发现词法的分析表现。在一定程度上解决了文献新词发现系统在当下的痛点问题。
附图说明
[0025]图1是本专利技术一个实施例提供的基于掩码语言模型的文献新词发现系统流程图。
具体实施方式
[0026]下面结合具体实施例对本专利技术作进一步说明。
[0027]鉴于目前成熟的新词发现系统中,利用相邻字凝固度(互信息)来构建词库对于词义表示过于粗糙,不利于复杂场景下的新词拆分,基于语言模型的无监督分词提供了一种完整独立于其他无监督分词的方法但却过于复杂且包含viterbi的瓶颈。所以意在找到一种系统,用以达到速度与精确度的平衡,且对于特定场景的文献有更好的新词发现效果。
[0028]本专利技术实施例提供一种基于掩码语言模型的文献新词发现方法,包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件,参考图1所示的流程图,技术实现方案如下:
[0029]1)、在掩码语言模型训练组件中,将中文文献数据以标点、换行符、段落符为依据拆分为最小单元,并以字为单位进行Token Embedding编码,生成原始字表,并按照最小单元依次编写Segment Embedding、Position Embeddi本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于掩码语言模型的文献新词发现方法,其特征在于,包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件,掩码语言训练组件对文献数据进行数据清洗、句段切分,通过训练集的训练组成向量标识Word Embedding,组建Attention机制和前馈神经网络,合为一组Encoder,并搭建Encoder训练模型;将编码后的训练集采用随机屏蔽,部分输入token做训练集输入,被屏蔽的token做输出,以该方式做数据生成器,训练深度双向表示网络;经过迭代与训练,得到能完成Cloze任务的掩码语言模型,并对模型进行持久化处理保证其增量运算能力与可迁移性;通过模型依赖关系运算组件得到任意两个token的相关性,并组成所有token的相关性矩阵,得到不同于互信息衡量的相关度指标,通过运算得到句子字间依赖度;最大概率运算组件利用模型依赖关系运算组件生成的待测句子字间依赖度指标,对特定阈值进行拆分,并通过多字权重的调整,利用概率乘积与权值配比,计算得到待测句子最大概率组合。2.根据权利要求1所述的一种基于掩码语言模型的文献新词发现方法,其特征在于所述数据清洗、句段切分,对中文文献数据以标点、换行符、段落符为依据拆分为最小单元;训练集训练以字为单位进行Token Embedding编码,生成原始字表,并按照最小单元依次编写Segment Embedding、Position Embedding,求和组成以字为单位的Word Embedding。3.根据权利要求1或2所述的一种基于掩码语言模型的文献新词发现方法,其特征在于所述Attention机制以Multi

Head Self

Attention+Add&Normalization为基础,前馈神经网络以Feed

Forward+Add&Normalizat...

【专利技术属性】
技术研发人员:朱家兵杨玺谷钢尹京刚
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1