一种基于掩码语言模型的文献新词发现方法及系统技术方案

技术编号：31796162 阅读：13 留言：0更新日期：2022-01-08 10:55

本发明专利技术公开了一种基于掩码语言模型的文献新词发现方法及系统，属于人工智能自然语言处理技术领域，该方法包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件，掩码语言训练组件对文献数据进行数据清洗、句段切分，通过训练集的训练组成向量标识Word Embedding，组建Attention机制和前馈神经网络，合为一组Encoder，并搭建Encoder训练模型；将编码后的训练集采用随机屏蔽，部分输入token做训练集输入，被屏蔽的token做输出，以该方式做数据生成器，训练深度双向表示网络。本发明专利技术能够达到速度与精确度的平衡，对于特定场景的文献有更好的新词发现效果。场景的文献有更好的新词发现效果。场景的文献有更好的新词发现效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于掩码语言模型的文献新词发现方法及系统

[0001]本专利技术涉及人工智能自然语言处理
，具体地说是一种基于掩码语言模型的文献新词发现方法及系统。

技术介绍

[0002]在自然语言处理新词发现的领域内，目前用于解决特定场景下的新词发现分词工具思路主要包括查词典法与字标注法，他们对于不同的场景应用表现各有利弊，国内外学者也在这个方向多次创新，最为经典的就是Bengio发表的《ANeural Probabilistic Language Model》，许多学者都深受启发。2017年电子科技大学学报就发表过名为《基于Aho
‑
Corasick自动机算法的概率模型中文分词CPACA算法》,2020年11月指挥信息系统与技术发表过《基于LSTM
‑
CRF的军事动向文本实体识别方法》，同年长春师范大学学报也发表过《基于信息熵加权的Word2vec中文文本分类研究》。综合近些年学者的研究，总结发现利用相邻字凝固度(互信息)来构建词库对于词义表示过于粗糙，不利于复杂场景下的新词拆分，基于语言模型的无监督分词提供了一种完整独立于其他无监督分词的方法但却过于复杂且包含viterbi的瓶颈。

技术实现思路

[0003]本专利技术的技术任务是针对以上不足之处，提供一种基于掩码语言模型的文献新词发现方法及系统，该方法能够达到速度与精确度的平衡，对于特定场景的文献有更好的新词发现效果。
[0004]本专利技术解决其技术问题所采用的技术方案是：
[0005]一种基于掩...

【技术保护点】

【技术特征摘要】
1.一种基于掩码语言模型的文献新词发现方法，其特征在于，包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件，掩码语言训练组件对文献数据进行数据清洗、句段切分，通过训练集的训练组成向量标识Word Embedding，组建Attention机制和前馈神经网络，合为一组Encoder，并搭建Encoder训练模型；将编码后的训练集采用随机屏蔽，部分输入token做训练集输入，被屏蔽的token做输出，以该方式做数据生成器，训练深度双向表示网络；经过迭代与训练，得到能完成Cloze任务的掩码语言模型，并对模型进行持久化处理保证其增量运算能力与可迁移性；通过模型依赖关系运算组件得到任意两个token的相关性，并组成所有token的相关性矩阵，得到不同于互信息衡量的相关度指标，通过运算得到句子字间依赖度；最大概率运算组件利用模型依赖关系运算组件生成的待测句子字间依赖度指标，对特定阈值进行拆分，并通过多字权重的调整，利用概率乘积与权值配比，计算得到待测句子最大概率组合。2.根据权利要求1所述的一种基于掩码语言模型的文献新词发现方法，其特征在于所述数据清洗、句段切分，对中文文献数据以标点、换行符、段落符为依据拆分为最小单元；训练集训练以字为单位进行Token Embedding编码，生成原始字表，并按照最小单元依次编写Segment Embedding、Position Embedding，求和组成以字为单位的Word Embedding。3.根据权利要求1或2所述的一种基于掩码语言模型的文献新词发现方法，其特征在于所述Attention机制以Multi
‑
Head Self
‑
Attention+Add&Normalization为基础，前馈神经网络以Feed
‑
Forward+Add&Normalizat...

【专利技术属性】
技术研发人员：朱家兵，杨玺，谷钢，尹京刚，
申请(专利权)人：浪潮软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人