System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 顾及电力特征的地址分词深度学习模型构建方法及系统技术方案_技高网

顾及电力特征的地址分词深度学习模型构建方法及系统技术方案

技术编号:40637425 阅读:6 留言:0更新日期:2024-03-13 21:20
本发明专利技术实施例提供一种顾及电力特征的地址分词深度学习模型构建方法及系统,属于电力语言文本的识别技术领域。所述构建方法包括:获取通用地址和电力行业地址的单数据集;将所述单数据集的部分输入掩盖,以掩盖的内容作为输入,未掩盖的内容作为输出,构成预训练数据集;采用所述预训练数据集训练初始的BAStructBERT模型,以得到初步BAStructBERT模型;根据所述单数据集获取通用地址和电力行业地址的关联数据集;采用所述关联数据集训练所述初步BAStructBERT模型,以得到训练完成的所述BAStructBERT模型。该构建方法及系统能够将通用地址高效转换为电力地址。

【技术实现步骤摘要】

本专利技术涉及电力语言文本的识别,具体地涉及一种顾及电力特征的地址分词深度学习模型构建方法及系统


技术介绍

1、在电力行业中,不同电力系统中的配电节点位置通常采用系统内的规定命名。这些规定命名在系统外并没有与通用地址建立统一的对应联系,只能依靠工作人员的人为经验来进行区域划分,人工对地址的归属进行分类。这样的方式会导致电力系统的信息对接不畅,从而降低整体的工作效率。


技术实现思路

1、本专利技术实施例的目的是提供一种顾及电力特征的地址分词深度学习模型构建方法及系统,该构建方法及系统能够将通用地址高效转换为电力地址。

2、为了实现上述目的,本专利技术实施例提供一种顾及电力特征的地址分词深度学习模型构建方法,包括:

3、获取通用地址和电力行业地址的单数据集;

4、将所述单数据集的部分输入掩盖,以掩盖的内容作为输入,未掩盖的内容作为输出,构成预训练数据集;

5、采用所述预训练数据集训练初始的bastructbert模型,以得到初步bastructbert模型;

6、根据所述单数据集获取通用地址和电力行业地址的关联数据集;

7、采用所述关联数据集训练所述初步bastructbert模型,以得到训练完成的所述bastructbert模型。

8、可选地,根据所述单数据集获取通用地址和电力行业地址的关联数据集,包括:

9、获取通用地址的大数据样本;

10、采用bastructbert模型对所述大数据样本进行分词和编码,以得到对应的通用编码向量;

11、对电力文本进行特征提取,以得到电力编码向量;

12、将所述通用编码向量和电力编码向量关联,以得到所述关联数据集。

13、可选地,采用所述预训练数据集训练初始的bastructbert模型,以得到初步bastructbert模型,包括:

14、采用公式(1)至公式(3)作为训练初始的bastructbert模型的损失函数,

15、l(θ,θ1,θ2)=l1(θ,θ1)+l2(θ,θ2),  (1)

16、

17、

18、其中,l(θ,θ1,θ2)为所述损失函数,θ为所述bastructbert模型的encoder部分的参数,θ1为mlm任务在encoder上所接的输出层中的参数,θ2为句子预测任务中在encoder接上的分类器参数,m为预训练数据集的数据量,m表示被掩盖的词集合,p为句向量,|v|表示词典大小,mi、mj表示第i个和第j个词向量,isnext、notnext表示分类标签;

19、采用公式(4)更新初始的初步bastructbert模型的权重参数,

20、arg maxθ∑log p(pos1=t1,pos2=t2,...,posk=tk|t1,t2,...,tk,θ),(4)

21、其中,p为句向量,pos1、pos2、posk表示token的位置,t1、t2、tk为表示单词。

22、可选地,采用所述关联数据集训练所述初步bastructbert模型,以得到训练完成的所述bastructbert模型,包括:

23、根据预设的电力地址要求对所述初步bastructbert模型的输出层前的层级进行微调;

24、固定所述输出层前的层级的权重,采用所述关联数据集训练调参所述输出层,以得到训练完成的所述bastructbert模型。

25、可选地,固定所述输出层前的层级的权重,采用所述关联数据集训练调参所述输出层,以得到训练完成的所述bastructbert模型,包括:

26、采用公式(5)和公式(6)作为所述输出层的输出,

27、p=softmax(cwt),  (5)

28、其中,c为最终隐藏层向量,wt为分类层权重,p为分类结果的概率;

29、

30、其中,pi为分类至第i个类别的概率,v为输出向量,cj为第j个类别的最终隐藏层向量。

31、另一方面,本专利技术还提供一种顾及电力特征的地址分词深度学习模型构建系统,所述构建系统包括处理器,所述处理器被配置成用于:

32、获取通用地址和电力行业地址的单数据集;

33、将所述单数据集的部分输入掩盖,以掩盖的内容作为输入,未掩盖的内容作为输出,构成预训练数据集;

34、采用所述预训练数据集训练初始的bastructbert模型,以得到初步bastructbert模型;

35、根据所述单数据集获取通用地址和电力行业地址的关联数据集;

36、采用所述关联数据集训练所述初步bastructbert模型,以得到训练完成的所述bastructbert模型。

37、可选地,所述处理器用于:

38、获取通用地址的大数据样本;

39、采用bastructbert模型对所述大数据样本进行分词和编码,以得到对应的通用编码向量;

40、对电力文本进行特征提取,以得到电力编码向量;

41、将所述通用编码向量和电力编码向量关联,以得到所述关联数据集。

42、可选地,所述处理器用于:

43、采用公式(1)至公式(3)作为训练初始的bastructbert模型的损失函数,

44、l(θ,θ1,θ2)=l1(θ,θ1)+l2(θ,θ2),  (1)

45、

46、

47、其中,l(θ,θ1,θ2)为所述损失函数,θ为所述bastructbert模型的encoder部分的参数,θ1为mlm任务在encoder上所接的输出层中的参数,θ2为句子预测任务中在encoder接上的分类器参数,m为预训练数据集的数据量,m表示被掩盖的词集合,p为句向量,|v|表示词典大小,mi、mj表示第i个和第j个词向量,isnext、notnext表示分类标签;

48、采用公式(4)更新初始的初步bastructbert模型的权重参数,

49、arg maxθ∑logb(pos1=t1,pos2=t2,...,posk=tk|t1,t2,...,tk,θ),(4)

50、其中,b为句向量,pos1、pos2、posk表示token的位置,t1、t2、tk为表示单词。

51、可选地,所述处理器用于:

52、根据预设的电力地址要求对所述初步bastructbert模型的输出层前的层级进行微调;

53、固定所述输出层前的层级的权重,采用所述关联数据集训练调参所述输出层,以得到训练完成的所述bastructbert模型。

54、可选地,所述处理器用于:

55、采用公式(5)和公式(6)作为所述输出层的输出,

56、p=softmax(cwt),  (5本文档来自技高网...

【技术保护点】

1.一种顾及电力特征的地址分词深度学习模型构建方法,其特征在于,所述构建方法包括:

2.根据权利要求1所述的构建方法,其特征在于,根据所述单数据集获取通用地址和电力行业地址的关联数据集,包括:

3.根据权利要求1所述的构建方法,其特征在于,采用所述预训练数据集训练初始的BAStructBERT模型,以得到初步BAStructBERT模型,包括:

4.根据权利要求1所述的构建方法,其特征在于,采用所述关联数据集训练所述初步BAStructBERT模型,以得到训练完成的所述BAStructBERT模型,包括:

5.根据权利要求4所述的构建方法,其特征在于,固定所述输出层前的层级的权重,采用所述关联数据集训练调参所述输出层,以得到训练完成的所述BAStructBERT模型,包括:

6.一种顾及电力特征的地址分词深度学习模型构建系统,其特征在于,所述构建系统包括处理器,所述处理器被配置成用于:

7.根据权利要求6所述的构建系统,其特征在于,所述处理器用于:

8.根据权利要求6述的构建系统,其特征在于,所述处理器用于:

9.根据权利要求6所述的构建系统,其特征在于,所述处理器用于:

10.根据权利要求9所述的构建系统,其特征在于,所述处理器用于:

...

【技术特征摘要】

1.一种顾及电力特征的地址分词深度学习模型构建方法,其特征在于,所述构建方法包括:

2.根据权利要求1所述的构建方法,其特征在于,根据所述单数据集获取通用地址和电力行业地址的关联数据集,包括:

3.根据权利要求1所述的构建方法,其特征在于,采用所述预训练数据集训练初始的bastructbert模型,以得到初步bastructbert模型,包括:

4.根据权利要求1所述的构建方法,其特征在于,采用所述关联数据集训练所述初步bastructbert模型,以得到训练完成的所述bastructbert模型,包括:

5.根据权利要求4所...

【专利技术属性】
技术研发人员:董新微黄怡蔡铠骏汪加杨王超杨洞庐李文博
申请(专利权)人:安徽继远软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1