基于NLP和循环神经网络的大语言模型构建方法技术

技术编号：40350188 阅读：11 留言：0更新日期：2024-02-09 14:34

本发明专利技术涉及数字数据处理技术领域，提出了基于NLP和循环神经网络的大语言模型构建方法，包括：根据分词结果确定标准数据集中每个字的标签；根据每个字与专业字典中每个词语的词向量之间的相似度确定字意匹配度；根据文本序列内的分词结果在专业字典中出现的频率确定上下文语境匹配得分；根据词语的重要性以及上下文语境匹配得分确定词性特征得分；根据词性特征得分、字意匹配度确定状态特征函数与转移特征函数；采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果；基于标注结果构建基于循环神经网络的大语言模型。本发明专利技术利用改进后的条件随机场对标准数据集进行标注，提高了大语言模型捕捉输入数据中颗粒信息的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字数据处理，具体涉及基于nlp和循环神经网络的大语言模型构建方法。

技术介绍

1、在科技飞速发展的今天，电器和燃气的广泛应用以及人为疏忽，导致了日常生活中消防隐患问题的急剧增加，由此引发的火灾不仅可能造成财产损失、影响社会稳定，更关键的是直接威胁到人们的人身安全，鉴于大多数民众对火灾的防范意识及自救、补救能力较为有限，利用循环神经网络构建基于nlp(nature language processing)的消防预防与应急大语言模型，成为处理生活中安全隐患以及正确应对火灾的有效工具，这一模型有助于提升公众对消防安全的认知，为他们提供正确的预防、自救和补救方法，进而降低火灾风险，保障人们的生命安全和财产安全。

2、然而，在进行循环神经网络训练时，数据集的文本序列会被分解成单词序列，当单词序列较长时，由于梯度消失或梯度爆炸的问题，可能会难以捕捉到长距离的依赖关系，如模型可能更关注序列的后部而忽略了序列的前部，导致模型对文本的全局语义理解不足造成信息丢失，且模型无法很好地理解并泛化到包含罕见词汇的文本，上述问题会导致模型在训练过程中丢失重要信息，需要对其进行改进。

技术实现思路

1、本专利技术提供基于nlp和循环神经网络的大语言模型构建方法，以解决语言模型对训练集内长文本语义理解不足造成语义信息丢失的问题，所采用的技术方案具体如下：

2、本专利技术一个实施例基于nlp和循环神经网络的大语言模型构建方法，该方法包括以下步骤：

3、根据标准数据

4、根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度；

5、根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分；

6、根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分；

7、根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数；

8、采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果；基于标准数据集的标注结果构建基于循环神经网络的大语言模型。

9、优选的，所述根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签的方法为：

10、将现有语料库进行数据清洗后得到的数据集作为标准数据集，所述数据清洗包括去标点、去html标签、英文字符的转换；

11、将标准数据集的分词结果中任意一个单独文字的标签标记为“s”；对于标准数据集的分词结果中非单独文字的任意一个词语，采用“b-m-e”的标签，按照预设标注方式确定标准数据集的分词结果中每个词语中的每个字的标签，所述预设标注方式为：每个词语中第一个字的标签为“b”，每个词语中的中间字得到标签为“m”，每个词语中最后一个字的标签为“e”。

12、优选的，所述根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度的方法为：

13、将采用专家评价法基于消防预警相关术语构建的字典作为专业字典；

14、将标准数据集中每个字、专业字典作为输入，采用词嵌入模型分别获取标准数据集中每个字、专业字典中每个词语的词向量；

15、基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分；

16、将标准数据集中每个字的字典匹配得分与预设参数中的最大值作为标准数据集中每个字的字意匹配度。

17、优选的，所述基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分的方法为：

18、将专业字典中存在标准数据集中每个字的词语数量与专业字典中词语数量的比值作为比例因子；

19、将标准数据集中每个字与专业字典中每个词语的词向量之间的度量结果在专业字典上累加结果的均值作为第一度量值；

20、标准数据集中每个字的字典匹配得分由比例因子、第一度量值两部分组成，其中，所述字典匹配得分分别与比例因子、第一度量值成正比关系。

21、优选的，所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分的方法为：

22、根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定每个字的信息量评估值；

23、将标准数据集中每个字在专业字典中出现的频率与每个字的字意匹配度的乘积在每个字所取文本序列上累加结果的均值作为第一乘积因子；

24、标准数据集中每个字的上下文语境匹配得分由信息量评估值、第一乘积因子两部分组成，其中，所述上下文语境匹配得分分别与信息量评估值、第一乘积因子成正比关系。

25、优选的，所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定每个字的信息量评估值的方法为：

26、将标准数据集中的每个字与其预设数量个相邻字组成的序列作为标准数据集中每个字的文本序列；

27、统计标准数据集中每个字的文本序列中每个元素出现的概率，将所述概率的映射结果在所述文本序列上的累加作为标准数据集中每个字的文本序列的局部信息熵；

28、将标准数据集中每个字的文本序列内的分词结果中所有词语在专业字典中出现的次数与所述局部信息熵的乘积作为分子，将分子与所述分词结果中所有词语数量的比值作为每个字的信息量评估值。

29、优选的，所述根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分的方法为：

30、采用关键词提取算法获取标准数据集中每个词语的第一组成因子；

31、将标准数据集中每个词语对应标签中“m”的数量与预设参数之和与每个词语内字的数量的比值作为第一计算因子；将标准数据集中每个词语内每个字的上下文语境匹配得分与第一计算因子的乘积在每个词语内所有字上累加结果的均值作为第二组成因子；

32、每个词的词性特征得分由第一组成因子、第二组成因子两部分组成，其中，所述词性特征得分分别与第一组成因子、第二组成因子成正比关系。

33、优选的，所述采用关键词提取算法获取标准数据集中每个词语的第一组成因子的方法为：

34、将专业字典中的所有词语作为输入，利用tf-idf算法确定专业字典中的每个词语的tf-idf值；

35、将专业字典中属于标准数据集中的每个词语的tf-idf值与预设参数的和作为第一组成因子。

36、优选的，所述根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数的方法为：

37、

38、式中，是标准数据集中第i本文档来自技高网...

【技术保护点】

1.基于NLP和循环神经网络的大语言模型构建方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签的方法为：

3.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度的方法为：

4.根据权利要求3所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分的方法为：

5.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分的方法为：

6.根据权利要求5所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述根据标

7.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分的方法为：

8.根据权利要求7所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述采用关键词提取算法获取标准数据集中每个词语的第一组成因子的方法为：

9.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数的方法为：

10.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法，其特征在于，所述采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果的方法为：

...

【技术特征摘要】

1.基于nlp和循环神经网络的大语言模型构建方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于nlp和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签的方法为：

3.根据权利要求1所述的基于nlp和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度的方法为：

4.根据权利要求3所述的基于nlp和循环神经网络的大语言模型构建方法，其特征在于，所述基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分的方法为：

5.根据权利要求1所述的基于nlp和循环神经网络的大语言模型构建方法，其特征在于，所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分的方法为：

6.根据权利要求5...

【专利技术属性】
技术研发人员：赵策，王亚，屠静，苏岳，万晶晶，李伟伟，周勤民，张玥，孙岩，潘亮亮，
申请(专利权)人：卓世科技海南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人