一种应用于核电行业的专业分词方法技术

技术编号:38024021 阅读:7 留言:0更新日期:2023-06-30 10:50
本发明专利技术属于核电行业自然语言处理领域,具体涉及一种应用于核电行业语料的专业分词方法,包括核电专业词库构建、核电停用词词库构建、核电同义词词库构建、核电同一指代词词库构建、核电领域的新词识别、核电领域实体自动识别、核电领域同义词自动识别、核电语料中文精准分词等操作。本发明专利技术的有益效果在于:彻底解决核电行业语料中文分词不准确的问题,为后续大数据、人工智能在核电自然语言处理领域的应用打下坚实的基础,减少核电领域其他从业人员在自然语言处理方面的投入。员在自然语言处理方面的投入。员在自然语言处理方面的投入。

【技术实现步骤摘要】
一种应用于核电行业的专业分词方法


[0001]本专利技术属于核电行业自然语言处理领域,具体涉及一种应用于核电行业语料的专业分词方法,它可实现对核电语料的中文分词、停用词处理、新词自动识别、实体自动识别、同义词自动识别等功能,满足核电语料的精准分词。

技术介绍

[0002]随着大数据、机器学习、知识图谱、搜索引擎、智能问答等技术在核电行业各个领域的应用,对核电行业文本处理(自然语言处理)的应用研究越来越多。从人工智能的发展历程来看,自然语言处理领域算比较难的,特别是对于中文的文本处理。自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成。造成自然语言处理困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。不像英文,中文句子中的词之间没有空格进行标识,因此中文分词被认为是中文自然语言处理中一个最基本的环节。分词不准确,特征工程就难以准确,就会影响机器对语义的理解,语义搜索、智能问答、机器学习等功能的准确性、用户体验也会受到很大的影响。
[0003]中文分词的难点主要有以下几个方面:
[0004]1、基于词库的分词方法往往不能识别新词、特定领域的专有词;
[0005]2、分词切分的歧义无法让机器判别。中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字组成词,由词组成词组,由词组组成句子,由句子组成段、节、章、篇。字(符)、词、词组、句子、段、节、章、篇都存在着歧义和多义现象,即形式上相同字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。为了消解歧义,需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。
[0006]对于核电行业,核电语料中文分词同样面临上述问题,而且核电行业还没有一种专业的、适合核电语料的专业分词工具。开源分词工具在对核电行业语料进行分词时,极不准确。要想解决这一问题,需要通过大规模核电真实文本的语料库对分词模型进行训练,需要大规模、信息丰富的核电专业词库编制工作。
[0007]本专利技术就是为了解决上述问题,构建一种用于核电行业的专业分词工具,实现对核电语料的中文分词、停用词处理、新词自动识别、实体自动识别、同义词自动识别等功能,满足核电语料的精准分词。

技术实现思路

[0008]针对核电行业自然语言处理领域里中文分词不准确、缺少特定领域新词识别、特定领域语义消歧欠缺等现状,本专利技术的目的在于提供一种应用于核电行业的专业分词方法,以核电厂各个业务流程中产生的核电语料作为研究对象,实现对核电语料的中文分词、停用词处理、新词自动识别、实体自动识别、同义词自动识别等功能,满足核电语料的精准
分词。
[0009]本专利技术的技术方案如下:一种应用于核电行业的专业分词方法,包括如下步骤:
[0010]步骤1:通过梳理语料,建立核电专业词库;
[0011]步骤2:建立核电停用词词库;
[0012]步骤3:建立核电同义词词库;
[0013]步骤4:建立核电同一指代词词库;
[0014]步骤5:将上述步骤1~4中构建的核电专业词库、核电停用词词库、核电同义词词库、核电同一指代词词库和jieba通用词库共同构成核电词库;
[0015]步骤6:通过采用编码器

解码器模型对核电行业语料进行机器学习,实现对核电行业语料的自动新词识别;
[0016]步骤7:通过采用编码器

解码器模型对核电行业语料进行有监督的机器学习,通过对核电实体类别进行部分核电行业语料的标注和学习,实现对核电行业语料的自动实体识别;
[0017]步骤8:通过对上述语料构建的“NPP

D”词库进行一次聚类,然后在每一个聚类簇上采用潜在语义检索模型、奇异值分解算法,以无监督学习的方式实现对核电行业语料的自动同义词识别,识别出的同义词通过专业人员校审后纳入核电同义词词库中;
[0018]步骤9:通过对上述语料构建的“NPP

D”词库进行一次聚类,然后在每一个聚类簇上采用潜在语义检索模型、奇异值分解算法,以无监督学习的方式对核电行业语料的自动同一指代词识别,识别出的同一指代词通过专业人员校审后纳入核电同一指代词词库中;
[0019]步骤10:在“NPP

D”词库的基础上,采用动态规划查找最大概率路径算法和隐型马尔科夫模型以无监督学习的方式构建核电分词模型;
[0020]步骤11:在核电分词模型的基础上,建立核电分词工具,核电分词工具通过调用步骤10中的核电分词模型实现对核电语料的精准中文分词。
[0021]所述的步骤1为通过查找核电厂中系统设计手册、设备交付手册、构筑物布置设计文档、设备故障模式文档,以及核电厂生产管理系统中设备清单、物料清单、组织机构清单、人员信息清单、风险清单,梳理各种类型的核电专业词库。
[0022]所述的步骤2为所述的停用词的构建包括以下几个方面:
[0023]将所有标点符号列为停用词;
[0024]除“#”、大小写字母和数字除外的所有特殊符号列为停用词;
[0025]将所有语气助词列为停用词;
[0026]停用词词库由“停用词名称”、“创建日期”等字段组成。
[0027]所述的步骤4中同一指代词词库是指两个词在核电行业中运用时,指的同一个事物,同一指代词的构建过程如下:
[0028]将同一台设备的设备编码和设备名称归纳为同一指代词,并导入同一指代词词库中;
[0029]将同一个系统的系统编号和系统名称归纳为同一指代词,并导入同一指代词词库中;
[0030]将同一个厂房的厂房编码和厂房名称归纳为同一指代词,并导入同一指代词词库中;
[0031]将同一个房间的房间编码和房间名称归纳为同一指代词,并导入同一指代词词库中;
[0032]将同一个制造商的核电厂制造商中文名称和核电厂制造商英文名称归纳为同一指代词,并导入同一指代词词库中;
[0033]将同一个承包商的核电厂承包商中文名称和核电厂承包商英文名称归纳为同一指代词,并导入同一指代词词库中;
[0034]将同一个物料的物料编码和物料名称归纳为同一指代词,并导入同一指代词词库中。
[0035]同一指代词词库由“同义词列表”、“创建日期”、“关联关系”字段组成。
[0036]所述的步骤6中采用字典查找树算法自动识别新词的词频,采用隐型马尔科夫模型自动识别新词的词性,识别出的新词被自动纳入核电专业词库中,新词识别的具体过程如下:
[0037]编码器模型利用长短期记忆神经网络,将核电专业词利用BERT框架将每一个文字转化为768维的特征向量,将向量拼接成语句对应的特征矩阵,将矩阵传入长短期记忆神经网络,在长短期记忆神经网络的计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于核电行业的专业分词方法,其特征在于,包括如下步骤:步骤1:通过梳理语料,建立核电专业词库;步骤2:建立核电停用词词库;步骤3:建立核电同义词词库;步骤4:建立核电同一指代词词库;步骤5:将上述步骤1~4中构建的核电专业词库、核电停用词词库、核电同义词词库、核电同一指代词词库和jieba通用词库共同构成核电词库;步骤6:通过采用编码器

解码器模型对核电行业语料进行机器学习,实现对核电行业语料的自动新词识别;步骤7:通过采用编码器

解码器模型对核电行业语料进行有监督的机器学习,通过对核电实体类别进行部分核电行业语料的标注和学习,实现对核电行业语料的自动实体识别;步骤8:通过对上述语料构建的“NPP

D”词库进行一次聚类,然后在每一个聚类簇上采用潜在语义检索模型、奇异值分解算法,以无监督学习的方式实现对核电行业语料的自动同义词识别,识别出的同义词通过专业人员校审后纳入核电同义词词库中;步骤9:通过对上述语料构建的“NPP

D”词库进行一次聚类,然后在每一个聚类簇上采用潜在语义检索模型、奇异值分解算法,以无监督学习的方式对核电行业语料的自动同一指代词识别,识别出的同一指代词通过专业人员校审后纳入核电同一指代词词库中;步骤10:在“NPP

D”词库的基础上,采用动态规划查找最大概率路径算法和隐型马尔科夫模型以无监督学习的方式构建核电分词模型;步骤11:在核电分词模型的基础上,建立核电分词工具,核电分词工具通过调用步骤10中的核电分词模型实现对核电语料的精准中文分词。2.如权利要求1所述的一种应用于核电行业的专业分词方法,其特征在于:所述的步骤1为通过查找核电厂中系统设计手册、设备交付手册、构筑物布置设计文档、设备故障模式文档,以及核电厂生产管理系统中设备清单、物料清单、组织机构清单、人员信息清单、风险清单,梳理各种类型的核电专业词库。3.如权利要求1所述的一种应用于核电行业的专业分词方法,其特征在于:所述的步骤2为所述的停用词的构建包括以下几个方面:将所有标点符号列为停用词;除“#”、大小写字母和数字除外的所有特殊符号列为停用词;将所有语气助词列为停用词;停用词词库由“停用词名称”、“创建日期”等字段组成。4.如权利要求1所述的一种应用于核电行业的专业分词方法,其特征在于:所述的步骤4中同一指代词词库是指两个词在核电行业中运用时,指的同一个事物,同一指代词的构建过程如下:将同一台设备的设备编码和设备名称归纳为同一指代词,并导入同一指代词词库中;将同一个系统的系统编号和系统名称归纳为同一指代词,并导入同一指代词词库中;将同一个厂房的厂房编码和厂房名称归纳为同一指代词,并导入同一指代词词库中;将同一个房间的房间编码和房间名称归纳为同一指代词,并导入同一指代词词库中;
将同一个制造商的核电厂制造商中文名称和核电厂制造商英文名称归纳为同一指代词,并导入同一指代词词库中;将同一个承包商的核电厂承包商中文名称和核电厂承包商英文名称归纳为同一指代词,并导入同一指代词词库中;将同一个物料的物料编码和物料名称归纳为同一指代词,并导入同一指代词词库中。同一指代词词库由“同义词列...

【专利技术属性】
技术研发人员:张廉蔡汉坤杨逗王晓东刘莉杨朦李贵莲董宁王奎胡攀
申请(专利权)人:中核武汉核电运行技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1