一种电力二次工作安全措施票文本向量化方法及相关装置制造方法及图纸

技术编号:41289504 阅读:25 留言:0更新日期:2024-05-11 09:38
本发明专利技术公开了一种电力二次工作安全措施票文本向量化方法及相关装置,方法包括:获取目标二次工作安全措施票;利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用ELECTRA模型构建而成;基于所述分词结果,统计所有文本中出现的词汇的词频,并基于词频构建词汇表;其中所述词汇表表示为词汇的索引系统,每个词汇对应一个唯一的索引;利用预训练的词嵌入模型为词汇表中的每个词汇生成相应的词嵌入向量;其中所有词嵌入向量均为一个固定长度;基于构建的词汇表,将目标二次工作安全措施票中目标文本的每个词汇转换为对应的索引,并根据索引替换为相应的词嵌入向量,得到目标文本的向量序列。

【技术实现步骤摘要】

本专利技术涉及一种电力二次工作安全措施票文本向量化方法及相关装置,属于目标跟踪。


技术介绍

1、二次工作安全措施票是检修作业前隔离待检修设备的核心依据,票面数据的准确性关系这二次安措工作的准确进行。当前基于深度学习的自然语义处理基础的发展为机器自动校对工作安全措施票文本提供了可能。

2、安全措施票文本的特征向量化能够便于后续模型的输入应用,例如训练机器学习模型,例如分类器或聚类算法,以匹配或验证票面内容。


技术实现思路

1、目的:鉴于以上技术问题中的至少一项,本专利技术提供一种电力二次工作安全措施票文本向量化方法及相关装置,用于实现电力二次工作安全措施票命名中文本的特征向量化。

2、本专利技术采用的技术方案为:

3、第一方面,本专利技术提供了一种电力二次工作安全措施票文本向量化方法,包括:

4、获取目标二次工作安全措施票;

5、利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用electra模型构建而成本文档来自技高网...

【技术保护点】

1.一种电力二次工作安全措施票文本向量化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述ELECTRA模型包括一个生成器和一个判别器;所述分词模型的获取方法包括:

3.根据权利要求2所述的方法,其特征在于,所述词典格式包括:

4.根据权利要求1所述的方法,其特征在于,所述预训练的词嵌入模型采用Word2Vec,通过在大型语料库上学习得到。

5.根据权利要求1所述的方法,其特征在于,在得到目标文本的向量序列之后,还包括:对所述向量序列进行填充或截断,得到处理后的向量序列,以使所有文本的向量序列具有相同的长度;其中所述处...

【技术特征摘要】

1.一种电力二次工作安全措施票文本向量化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述electra模型包括一个生成器和一个判别器;所述分词模型的获取方法包括:

3.根据权利要求2所述的方法,其特征在于,所述词典格式包括:

4.根据权利要求1所述的方法,其特征在于,所述预训练的词嵌入模型采用word2vec,通过在大型语料库上学习得到。

5.根据权利要求1所述的方法,其特征在于,在得到目标文本的向量序列之后,还包括:对所述向量序列进行填充或截断,得到处理后的向量序列,以使所有文本的向量序列具有相同的长度;其中所述处理后的向量序列的长...

【专利技术属性】
技术研发人员:李萍李佑伟朱鹏宇王业黄翔任旭超高云云华梦
申请(专利权)人:国网江苏省电力有限公司淮安供电分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1