当前位置: 首页 > 专利查询>之江实验室专利>正文

基于学科实体的语言模型构建方法以及学科实体识别装置制造方法及图纸

技术编号:39283412 阅读:21 留言:0更新日期:2023-11-07 10:56
本发明专利技术公开了一种基于学科实体的语言模型构建方法,包括以下步骤:获取教学资源以构建对应的初始数据集;对初始数据集进行学科实体筛选,以构建对应的学科实体库;将所述学科实体库中的学科实体进行随机遮蔽以获得对应的遮蔽词,以所述学科实体与相应的遮蔽词组成数据集;构建语言神经网络包括前置编码层,特征提取层以及预测层;采用数据集对语言神经网络进行训练,以获得用于挖掘学科实体的学科实体语言模型;将待识别的教学资源输入至学科实体语言模型中,以输出文本中包含的学科实体。本发明专利技术还提供了一种学科实体识别装置。本发明专利技术提供的方法构建的语言模型可以获取教育领域海量的先验知识,从而构建更加全面的学科实体数据集。数据集。数据集。

【技术实现步骤摘要】
基于学科实体的语言模型构建方法以及学科实体识别装置


[0001]本专利技术属于自然语言处理
,尤其涉及一种基于学科实体的语言模型构建方法以及学科实体识别装置。

技术介绍

[0002]在自然语言处理
,通用语言模型在近几年得到了快速的发展和广泛的应用,其中最显著的进展是深度学习技术的应用,例如Transformer模型、注意力机制等。这些技术的发展和应用,使得通用语言模型在近几年内得到了显著的进展,为自然语言处理领域带来了更高的准确性和效率。
[0003]然而传统的通用语言模型在处理特定领域的文本时可能会遇到以下问题:一是垂直领域词汇量不够丰富,尽管通用语言模型的词汇量较大,但不一定包含某些特定领域的专业术语或新词汇,导致在特定领域的文本处理中出现误判或错误。二是语境不准确,通用语言模型可能无法理解特定领域的常见语境,因此在特定领域的文本处理中可能出现模棱两可的情况。三是效率不高,通用语言模型需要处理大量的数据和文本,因此处理速度可能会受到影响。
[0004]随着人工智能和自然语言处理技术的发展,构建针对特定领域的语言本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于学科实体的语言模型构建方法,其特征在于,包括以下步骤:获取教学资源以构建对应的初始数据集,其包括视频数据,文本数据和语音数据;对初始数据集进行学科实体筛选,以构建对应的学科实体库;将所述学科实体库中的学科实体进行随机遮蔽以获得对应的遮蔽词,以所述学科实体与相应的遮蔽词组成数据集;基于Transformer构建语言神经网络,包括前置编码层,特征提取层以及预测层,所述前置编码层用于将输入文本转换为字编码和对应位置编码,所述特征提取层根据输入的字编码和位置编码,生成输入文本中各字符之间不同角度的关联特征值,所述预测层根据输入的关联特征值,以输出预测结果,所述预测结果包括与文本相关的学科实体以及对应的文本位置;采用数据集对语言神经网络进行训练,以获得用于挖掘学科实体的学科实体语言模型;将待识别的教学资源输入至学科实体语言模型中,以输出文本中包含的学科实体。2.根据权利要求1所述的基于学科实体的语言模型构建方法,其特征在于,所述前置编码层通过将文本中的字符导入初始化的向量矩阵,同时将字符的位置信息作为额外向量,以构建对应的字编码和位置编码。3.根据权利要求1所述的基于学科实体的语言模型构建方法,其特征在于,所述特征提取层包括多头自注意力机制单元、全连接前馈网络以及残差连接和归一化单元;所述多头自注意力机制单元,用于寻找输入字符之间不同角度的关联关系,以及用于拼接不同子空间中捕获到的综合关联特征;所述全连接前馈网络,用于对捕获的综合关联特征进行非线性变换,以获得对应的预测关联特征;所述残差连接和归一化单元,用于综合关联特征和预测关联特征进行残差相加并执行归一化操作,以输出最终的关联特征值。4.根据权利要求1所述的基于学科实体的语言模型构建方法,其特征在于,所述初始数据集的学科实体基于词频、凝固度以及左右邻字熵进行筛选。5.根据权利要求1或4所述的基于学科实体的语言模型构建方法,其特征在于,所述筛选过程具体如下:...

【专利技术属性】
技术研发人员:曹柳王琪皓黄程韦吴江朱晓明
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1