当前位置: 首页 > 专利查询>之江实验室专利>正文

基于学科实体的语言模型构建方法以及学科实体识别装置制造方法及图纸

技术编号:39283412 阅读:10 留言:0更新日期:2023-11-07 10:56
本发明专利技术公开了一种基于学科实体的语言模型构建方法,包括以下步骤:获取教学资源以构建对应的初始数据集;对初始数据集进行学科实体筛选,以构建对应的学科实体库;将所述学科实体库中的学科实体进行随机遮蔽以获得对应的遮蔽词,以所述学科实体与相应的遮蔽词组成数据集;构建语言神经网络包括前置编码层,特征提取层以及预测层;采用数据集对语言神经网络进行训练,以获得用于挖掘学科实体的学科实体语言模型;将待识别的教学资源输入至学科实体语言模型中,以输出文本中包含的学科实体。本发明专利技术还提供了一种学科实体识别装置。本发明专利技术提供的方法构建的语言模型可以获取教育领域海量的先验知识,从而构建更加全面的学科实体数据集。数据集。数据集。

【技术实现步骤摘要】
基于学科实体的语言模型构建方法以及学科实体识别装置


[0001]本专利技术属于自然语言处理
,尤其涉及一种基于学科实体的语言模型构建方法以及学科实体识别装置。

技术介绍

[0002]在自然语言处理
,通用语言模型在近几年得到了快速的发展和广泛的应用,其中最显著的进展是深度学习技术的应用,例如Transformer模型、注意力机制等。这些技术的发展和应用,使得通用语言模型在近几年内得到了显著的进展,为自然语言处理领域带来了更高的准确性和效率。
[0003]然而传统的通用语言模型在处理特定领域的文本时可能会遇到以下问题:一是垂直领域词汇量不够丰富,尽管通用语言模型的词汇量较大,但不一定包含某些特定领域的专业术语或新词汇,导致在特定领域的文本处理中出现误判或错误。二是语境不准确,通用语言模型可能无法理解特定领域的常见语境,因此在特定领域的文本处理中可能出现模棱两可的情况。三是效率不高,通用语言模型需要处理大量的数据和文本,因此处理速度可能会受到影响。
[0004]随着人工智能和自然语言处理技术的发展,构建针对特定领域的语言模型已经成为可能。训练垂直领域的语言模型将提高自然语言处理在特定领域的准确性和效率,可以解决以上这些问题。
[0005]专利文献CN111931020A公开了一种公式的标注方法、装置、设备及存储介质,包括:获取待标注公式;调用公式标注模型,所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上,通过公式标注数据训练得到;其中,所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到,所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签;根据所述公式标注模型,预测所述待标注公式的标签。该方法仅提出采用基础语言表征模型对公式中的学科相关词汇进行提取从而完成标注,但是该方法所采用的模型为简易语言模型,无法针对文本与学科之间的关联关系去提取相应的词汇用于标注。
[0006]专利文献CN112580361A公开了一种基于统一注意力机制的公式及文字识别模型方法,包括识别prensentationlatex或contentlatex并获得识别结果,对结果进行latex语义树解析,并对语义树进行遍历;使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列;对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化,使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。该方法针对题干中的自然语言进行识别,以获得知识点的标注,但是该方法未能考虑当前文本所处的学科领域,可能存在非相关词汇的提取。

技术实现思路

[0007]本专利技术的主要目的在于提供一种基于学科实体的语言模型构建方法以及学科实体识别装置,通过该方法构建的语言模型可以获取教育领域海量的先验知识,从而构建更加全面的学科实体数据集。
[0008]为了实现上述的第一个目的,本专利技术提供了一种基于学科实体的语言模型构建方法,包括以下步骤:获取教学资源以构建对应的初始数据集,其包括视频数据,文本数据和语音数据;对初始数据集进行学科实体筛选,以构建对应的学科实体库;将所述学科实体库中的学科实体进行随机遮蔽以获得对应的遮蔽词,以所述学科实体与相应的遮蔽词组成数据集;基于Transformer构建语言神经网络,包括前置编码层,特征提取层以及预测层,所述前置编码层用于将输入文本转换为字编码和对应位置编码,所述特征提取层根据输入的字编码和位置编码,生成输入文本中各字符之间不同角度的关联特征值,所述预测层根据输入的关联特征值,以输出预测结果,所述预测结果包括与文本相关的学科实体以及对应的文本位置;采用数据集对语言神经网络进行训练,以获得用于挖掘学科实体的学科实体语言模型;将待识别的教学资源输入至学科实体语言模型中,以输出文本中包含的学科实体。
[0009]本专利技术综合运用了NLP领域的文本挖掘和语言模型技术,通过新词挖掘对实体词汇进行提取,结合下游的语言模型训练任务,对语言模型进行改进优化,训练模型识别实体词汇的能力,从而提升训练难度,将更加丰富的信息融合进语言模型中。
[0010]优选的,所述初始数据集的学科实体基于词频、凝固度以及左右邻字熵进行筛选,即针对中文学科实体的词组特性,从而提高筛选的准确率。
[0011]具体的,所述筛选过程具体如下:采用正则表达式对初始数据集进行匹配,以获得包含中文,英文字符以及数字的原始字符串集合;根据预设的字符串长度对原始字符串集合进行遍历,并滤过纯数字字符串以获得候选字符串集合;根据预设的词频阈值筛选候选字符串集合中出现次数超过所述词频阈值的字符串,以构建对应的初始候选词组;分析每个初始候选词组中字符与字符之间的紧密程度,保留满足预设凝固度的初始候选词组;计算每个满足凝固度的初始候选词组的左邻熵和右邻熵,并将满足左邻熵和右邻熵均超过预设均值的初始候选词组保留,以作为最佳候选词组进行学科实体库的构建。
[0012]具体的,所述初始候选词组的凝固度计算过程如下:式中,表示“ABCD”字符串的凝固度,表示“ABCD”在原始字符串集合中出现的频率,从而保证候选词组中
字符和字符之间的紧密度。
[0013]具体的,训练时,采用交叉熵损失函数作为语言神经网络优化的目的,并利用梯度下降方法进行迭代优化,以更新语言神经网络的参数。
[0014]具体的,所述交叉熵损失函数的表达式如下:其中表示样本x真实标签的第i个元素值,表示模型预测样本x属于第i个类别的预测值,n表示预测结果的类别总数。
[0015]具体的,所述初始数据集在进行学科实体筛选前需要进行预处理,所述预处理包括全角转半角,繁体字符转简体字符,以及去除空格、换行符和特殊字符,从而避免字符和词组无法识别的问题。
[0016]优选的,所述前置编码层通过将文本中的字符导入初始化的向量矩阵,同时将字符的位置信息作为额外向量,以构建对应的字编码和位置编码,使得关联特征值具有字符与词组之间的位置特性。
[0017]具体的,所述特征提取层包括多头自注意力机制单元、全连接前馈网络以及残差连接和归一化单元;所述多头自注意力机制单元,用于寻找输入字符之间不同角度的关联关系,以及用于拼接不同子空间中捕获到的综合关联特征;所述全连接前馈网络,用于对捕获的综合关联特征进行非线性变换,以获得对应的预测关联特征;所述残差连接和归一化单元,用于综合关联特征和预测关联特征进行残差相加并执行归一化操作,以输出最终的关联特征值。
[0018]为了实现本专利技术的第二个目的,本专利技术提供了一种学科实体识别装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器采用上述的基于学科实体的语言模型构建方法;所述计算机处理器执行所述计算机程序时实现以下步骤:将教学资源输入至学科实体语言模型中,以输出与教学资源相关的学科实体集合。
[0019]与现有技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于学科实体的语言模型构建方法,其特征在于,包括以下步骤:获取教学资源以构建对应的初始数据集,其包括视频数据,文本数据和语音数据;对初始数据集进行学科实体筛选,以构建对应的学科实体库;将所述学科实体库中的学科实体进行随机遮蔽以获得对应的遮蔽词,以所述学科实体与相应的遮蔽词组成数据集;基于Transformer构建语言神经网络,包括前置编码层,特征提取层以及预测层,所述前置编码层用于将输入文本转换为字编码和对应位置编码,所述特征提取层根据输入的字编码和位置编码,生成输入文本中各字符之间不同角度的关联特征值,所述预测层根据输入的关联特征值,以输出预测结果,所述预测结果包括与文本相关的学科实体以及对应的文本位置;采用数据集对语言神经网络进行训练,以获得用于挖掘学科实体的学科实体语言模型;将待识别的教学资源输入至学科实体语言模型中,以输出文本中包含的学科实体。2.根据权利要求1所述的基于学科实体的语言模型构建方法,其特征在于,所述前置编码层通过将文本中的字符导入初始化的向量矩阵,同时将字符的位置信息作为额外向量,以构建对应的字编码和位置编码。3.根据权利要求1所述的基于学科实体的语言模型构建方法,其特征在于,所述特征提取层包括多头自注意力机制单元、全连接前馈网络以及残差连接和归一化单元;所述多头自注意力机制单元,用于寻找输入字符之间不同角度的关联关系,以及用于拼接不同子空间中捕获到的综合关联特征;所述全连接前馈网络,用于对捕获的综合关联特征进行非线性变换,以获得对应的预测关联特征;所述残差连接和归一化单元,用于综合关联特征和预测关联特征进行残差相加并执行归一化操作,以输出最终的关联特征值。4.根据权利要求1所述的基于学科实体的语言模型构建方法,其特征在于,所述初始数据集的学科实体基于词频、凝固度以及左右邻字熵进行筛选。5.根据权利要求1或4所述的基于学科实体的语言模型构建方法,其特征在于,所述筛选过程具体如下:...

【专利技术属性】
技术研发人员:曹柳王琪皓黄程韦吴江朱晓明
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1