自然语言非流畅性检测方法、装置、设备及介质制造方法及图纸

技术编号:38332252 阅读:11 留言:0更新日期:2023-07-29 09:15
本发明专利技术涉及语义检测技术,揭露了一种自然语言非流畅性检测方法,包括:根据流畅性分类头及等待判定分类头对BERT模型进行模型架构调整;对传统交叉熵损失、前缀损失及延迟性损失进行加权求和;将训练数据输入至调整BRET模型中进行训练;计算调整BRET模型的损失值,当损失值小于预设的损失阈值时,输出调整BRET模型为自然语言非流畅性检测模型;将语义向量输入至自然语言非流畅性检测模型中,得到自然语言的流畅性语句。此外,本发明专利技术还涉及区块链技术,自然语言可存储于区块链的节点。本发明专利技术还提出一种自然语言非流畅性检测装置、电子设备以及存储介质。本发明专利技术可以提高基于深度学习的自然语言非流畅性检测时的准确性,并在医疗领域中有很大的应用前景。域中有很大的应用前景。域中有很大的应用前景。

【技术实现步骤摘要】
自然语言非流畅性检测方法、装置、设备及介质


[0001]本专利技术涉及语义检测
,尤其涉及一种自然语言非流畅性检测方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着互联网的不断发展,人们可以通过计算机媒介进行交流,因此自动语音识别技术就随之被提出来,自动语音识别技术是对口语进行识别并转换为文字,但由于人们所说的话并不是完全符合语法规范的,例如在医疗领域,人们在病情陈述时,可能会由于紧张或者其他原因,出现自然语言的不顺畅,为了提高机器人,如智能问诊机器人对自然语言流畅性检测的准确性,需要基于深度学习对自然语言进行识别并分析流畅性。
[0003]现有的不流畅性检测任务是将逐字从左到右增量处理的方法引入到BERT模型中,在开始时只一个字一个字的接收,后续会逐渐增多接收的内容用于非流畅性检测。实际应用中,逐字从左到右增量处理的方法很复杂,计算量很大,可能导致对自然语言的非流畅性检测过于复杂,从而对进行自然语言非流畅性检测时的准确性较低,有可能使得智能问诊机器人不能准确了解患者的病情,造成误诊。

技术实现思路

[0004]本专利技术提供一种自然语言非流畅性检测方法、装置及计算机可读存储介质,其主要目的在于解决由于自然语言非流畅性检测时的准确性较低而导致的智能问诊机器人不能准确了解患者的病情,造成误诊的问题。
[0005]为实现上述目的,本专利技术提供的一种自然语言非流畅性检测方法,包括:
[0006]获取预设的自然语言,对所述自然语言进行向量转换,得到语义向量;
[0007]根据预设的流畅性分类头及预设的等待判定分类头对预设的BERT模型进行模型架构调整,得到调整BERT模型;
[0008]对预设的传统交叉熵损失、前缀损失及延迟性损失进行加权求和,得到加权损失函数;
[0009]将预设的训练数据输入至所述调整BRET模型中进行训练,得到词向量数据集;
[0010]根据所述词向量数据集及所述加权损失函数计算所述调整BRET模型的损失值,当所述损失值小于预设的损失阈值时,输出所述调整BRET模型为自然语言非流畅性检测模型;
[0011]将所述语义向量输入至所述自然语言非流畅性检测模型中,得到所述自然语言的流畅性语句。
[0012]可选地,所述根据预设的流畅性分类头及预设的等待判定分类头对预设的BERT模型进行模型架构调整,得到调整BERT模型,包括:
[0013]将所述BERT模型作为第一层次结构;
[0014]将所述流畅性分类头及所述等待判定分类头作为第二层次结构;
[0015]根据由下至上的规则对所述第一层次结构所述第二层次结构进行连接,得到调整BERT模型。
[0016]可选地,所述对预设的传统交叉熵损失、前缀损失及延迟性损失进行加权求和,得到加权损失函数,包括:
[0017][0018]其中,(x,y)为样本数据,L(x,y)为加权损失函数,γ为控制前缀损失的相对强度,λ为延迟损失的相对强度,L
FULL
(x,y)为所述传统交叉损失,L
prefix
(x,y)为所述前缀损失,L
latency
(x)为所述延迟性损失,H、σ、f分别为交叉熵函数,g(x
i
)为序列x中第i个token被预测为“w”的概率,m为一个mask机制,|x|为token的数量。
[0019]可选地,所述将预设的训练数据输入至所述调整BRET模型中进行训练,得到词向量数据集,包括:
[0020]将所述训练数据输入至所述调整BRET模型中训练模型的权重参数;
[0021]利用预设的优化算法对所述权重参数进行优化,得到所述词向量数据集。
[0022]可选地,所述将所述训练数据输入至所述调整BRET模型中训练模型的权重参数,包括:
[0023]对所述训练数据的输入序列进行随机屏蔽,得到屏蔽序列;
[0024]通过所述调整BRET模型中双向的上下文信息对所述屏蔽序列进行屏蔽字预测,得到第一权重参数;
[0025]通过所述调整BRET模型中双向的上下文信息对所述输入序列进行句子关系预测,得到第二权重参数;
[0026]将所述第一权重参数及所述第二权重参数作为所述权重系数。
[0027]可选地,所述根据所述词向量数据集及所述加权损失函数计算所述调整BRET模型的损失值,包括:
[0028]根据所述词向量数据集及所述加权损失函数中的传统交叉熵损失计算所述调整BRET模型中流畅性检测分类头的第一损失值;
[0029]根据所述词向量数据集及所述加权损失函数中的前缀损失和延迟性损失计算所述调整BRET模型中等待判定分类头的第二损失值;
[0030]将所述第一损失值及所述第二损失值进行加权求和,得到损失值。
[0031]可选地,所述将所述语义向量输入至所述自然语言非流畅性检测模型中,得到所
述自然语言的流畅性语句,包括:
[0032]将所述语义向量输入至所述自然语言非流畅性检测模型中的BERT层,输出第一语义向量;
[0033]将所述第一语义向量输入至所述自然语言非流畅性检测模型中的流畅性检测分类头中,得到流畅语义;
[0034]将所述第一语义向量输入至所述自然语言非流畅性检测模型中的等待判定分类头中,得到判定语义;
[0035]将所述流畅语义及所述判定语义进行融合,输出所述自然语言的流畅性语句。
[0036]为了解决上述问题,本专利技术还提供一种自然语言非流畅性检测装置,所述装置包括:
[0037]向量转换模块,用于向量获取预设的自然语言,对所述自然语言进行向量转换,得到语义向量;
[0038]模型架构调整模块,用于根据预设的流畅性分类头及预设的等待判定分类头对预设的BERT模型进行模型架构调整,得到调整BERT模型;
[0039]加权损失函数计算模块,用于对预设的传统交叉熵损失、前缀损失及延迟性损失进行加权求和,得到加权损失函数;
[0040]模型训练模块,用于将预设的训练数据输入至所述调整BRET模型中进行训练,得到词向量数据集;
[0041]损失值计算模块,用于根据所述词向量数据集及所述加权损失函数计算所述调整BRET模型的损失值,当所述损失值小于预设的损失阈值时,输出所述调整BRET模型为自然语言非流畅性检测模型;
[0042]流畅性语句输出模块,用于将所述语义向量输入至所述自然语言非流畅性检测模型中,得到所述自然语言的流畅性语句。
[0043]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0044]至少一个处理器;以及,
[0045]与所述至少一个处理器通信连接的存储器;其中,
[0046]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的自然语言非流畅性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言非流畅性检测方法,其特征在于,所述方法包括:获取预设的自然语言,对所述自然语言进行向量转换,得到语义向量;根据预设的流畅性分类头及预设的等待判定分类头对预设的BERT模型进行模型架构调整,得到调整BERT模型;对预设的传统交叉熵损失、前缀损失及延迟性损失进行加权求和,得到加权损失函数;将预设的训练数据输入至所述调整BRET模型中进行训练,得到词向量数据集;根据所述词向量数据集及所述加权损失函数计算所述调整BRET模型的损失值,当所述损失值小于预设的损失阈值时,输出所述调整BRET模型为自然语言非流畅性检测模型;将所述语义向量输入至所述自然语言非流畅性检测模型中,得到所述自然语言的流畅性语句。2.如权利要求1所述的自然语言非流畅性检测方法,其特征在于,所述根据预设的流畅性分类头及预设的等待判定分类头对预设的BERT模型进行模型架构调整,得到调整BERT模型,包括:将所述BERT模型作为第一层次结构;将所述流畅性分类头及所述等待判定分类头作为第二层次结构;根据由下至上的规则对所述第一层次结构所述第二层次结构进行连接,得到调整BERT模型。3.如权利要求1所述的自然语言非流畅性检测方法,其特征在于,所述对预设的传统交叉熵损失、前缀损失及延迟性损失进行加权求和,得到加权损失函数,包括:其中,(x,y)为样本数据,L(x,y)为加权损失函数,γ为控制前缀损失的相对强度,λ为延迟损失的相对强度,L
FULL
(x,y)为所述传统交叉损失,L
prefix
(x,y)为所述前缀损失,L
latency
(x)为所述延迟性损失,H、σ、f分别为交叉熵函数,g(x
i
)为序列x中第i个token被预测为“w”的概率,m为一个mask机制,|x|为token的数量。4.如权利要求1所述的自然语言非流畅性检测方法,其特征在于,所述将预设的训练数据输入至所述调整BRET模型中进行训练,得到词向量数据集,包括:将所述训练数据输入至所述调整BRET模型中训练模型的权重参数;利用预设的优化算法对所述权重参数进行优化,得到所述词向量数据集。5.如权利要求4所述的自然语言非流畅性检测方法,其特征在于,所述将所述训练数据
输入至所述调整BRET模型中训练模型的权重参数,包括:对所述训练数据的输入序列进行随机屏蔽,得到屏蔽序列;通过所述调整BRET模型中双向的上下文信息对所述屏蔽序列进行屏蔽字预测,得到第一权重参数;通过所述调整BRET模型中双向的上下文信息对所述输入序列进行句子关系预测,...

【专利技术属性】
技术研发人员:姜鹏谯轶轩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1