基于GRU的中医文本分词方法、系统、设备及介质技术方案

技术编号:22689078 阅读:34 留言:0更新日期:2019-11-30 03:40
本公开公开了基于GRU的中医文本分词方法、系统、设备及介质,获取待分词的中医文本;对待分词的中医文本进行预处理;使用BMES标签对预处理后的中医文本进行预标注;将预标注的中医文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果。采用预先训练的双向GRU神经网络模型,实现中医医案文本的准确分词;通过引入中医医案文本字典矩阵,利用GRU算法易于训练能缩短训练、预测时间,可自动学习特征,能有效建立长距离依赖信息的优点,可以有效的对中医医案文本组合型歧义进行消解,提高分词效果的同时,提高分词方法的领域适用性。

Chinese medicine text segmentation method, system, equipment and media based on Gru

The disclosure discloses a method, system, equipment and medium of Chinese medicine text segmentation based on Gru to obtain the Chinese medicine text to be segmented; preprocessing the Chinese medicine text to be segmented; pre tagging the Chinese medicine text after preprocessing with BMES label; inputting the pre tagged Chinese medicine text into the pre trained bidirectional Gru neural network model, and outputting the segmentation result of the Chinese medicine text. By using the two-way Gru neural network model of pre training, the accurate segmentation of TCM medical case text is realized; by introducing the dictionary matrix of TCM medical case text, using Gru algorithm to train easily, the training and prediction time can be shortened, the features can be learned automatically, the advantages of long-distance dependence on information can be effectively established, the combined ambiguity of TCM medical case text can be effectively resolved, and the segmentation can be improved At the same time, improve the applicability of word segmentation.

【技术实现步骤摘要】
基于GRU的中医文本分词方法、系统、设备及介质
本公开涉及中文自然语言处理
,特别是涉及基于GRU的中医文本分词方法、系统、设备及介质。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:古代医学文献记载了许多有价值的医学经验,但是中医医案文本自动分析尚处于起步阶段,注释工作非常困难,导致对于中医医案文本的分词工作尚处于起步阶段。现有的分词方法有三大类:基于词典的分词方法,基于统计的分词方法,基于统计和词典相结合的方法。基于词典的分词方法对于未登录词的识别效果较差,基于统计和词典相结合的方法需要大量的人工标注数据,基于统计和词典相结合的方法对不同领域的分词需要重新训练模型,并没有解决分词的自适应性问题。这些分词方法在中医医案文本分词中,效果不明显。深度学习在语音、图像以及分词方面取得显著的成效。Jozefowicz等对比了GRU和LSTM模型,发现GRU模型在多个问题上都能取得与LSTM模型相当的结果,并且更易于训练。因此,GRU模型被越来越多地应用于自然语言处理任务、投诉分类、机器翻译和其他领域。目前对于中医古代文献所作研究如下:Chen等人设计基于卡尔曼滤波器的人机交互中文分词算法,提出了一种在线互动系统,对古代语料库进行分割,但是并未进行现代汉语分词工作。Long等人提出了一个命名实体识别系统明清中国古典小说的条件随机字段(CRF)方法。SILI提出了一种胶囊结构,解决了卷积神经网络的一些缺陷,利用标注的数据,开发了古代医学文献的分词器,取得良好的分词效果,但是采用的部分数据集的大小仍然不够大,注释工作仍在继续。由于中医医案独有的特点和分词的困难性,目前对于中医医案的研究非常少。
技术实现思路
为了解决现有技术的不足,本公开提供了基于GRU的中医文本分词方法、系统、设备及介质;通过引入中医医案文本字典矩阵,利用GRU算法易于训练能缩短训练、预测时间,可自动学习特征,能有效建立长距离依赖信息的优点,可以有效的对中医医案文本组合型歧义进行消解,提高分词效果的同时,提高分词方法的领域适用性。第一方面,本公开提供了基于GRU的中医文本分词方法;基于GRU的中医文本分词方法,包括:获取待分词的中医文本;对待分词的中医文本进行预处理;使用BMES标签对预处理后的中医文本进行预标注;将预标注的中医文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果。第二方面,本公开还提供了基于GRU的中医文本分词系统;基于GRU的中医文本分词系统,包括:获取模块,用于获取待分词的中医文本;预处理模块,用于对待分词的中医文本进行预处理;预标注模块,用于使用BMES标签对预处理后的中医文本进行预标注;分词模块,用于将预标注的中医文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果。第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。与现有技术相比,本公开的有益效果是:采用预先训练的双向GRU神经网络模型,实现中医医案文本的准确分词;通过引入中医医案文本字典矩阵,利用GRU算法易于训练能缩短训练、预测时间,可自动学习特征,能有效建立长距离依赖信息的优点,可以有效的对中医医案文本组合型歧义进行消解,提高分词效果的同时,提高分词方法的领域适用性。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1是本公开实施例一的方法流程图;图2是本公开实施例一所使用GRU算法的分词网络架构。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一,本实施例提供了基于GRU的中医文本分词方法;如图1和图2所示,基于GRU的中医文本分词方法,包括:S1:获取待分词的中医文本;S2:对待分词的中医文本进行预处理;S3:使用BMES标签对预处理后的中医文本进行预标注;S4:将预标注的中医文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果。作为一个或多个实施例,所述获取待分词的中医文本,是指中医病历文本,所述中医病历文本,包括患者自述病情和医生诊断结论。作为一个或多个实施例,所述预处理,包括:删除停用词、重复词和语气词。作为一个或多个实施例,所述使用BMES标签对预处理后的中医文本进行预标注;具体步骤包括:使用BMES标签进行标注,其中,B表示开始字,M表示中间字,E表示结尾字,S表示单个字。作为一个或多个实施例,所述预先训练的双向GRU神经网络模型训练过程包括:S31:获取语料集,所述语料集为若干个中医文本;S32:对语料集进行预处理,得到预处理后的中医文本;所述预处理包括:删除停用词、重复词和语气词;S33:对预处理后的中医文本中的每个字,使用BMES标签进行标注,其中,B表示开始字,M表示中间字,E表示结尾字,S表示单个字;S34:筛选出标记为B的字b,筛选出字b最近邻的标记为E的字e,筛选出字b和字e之间的字m,将字b、字m和字e按照原先在中医文本中的顺序进行排列,组成词组;所述字m,包括一个字或多个字;S35:将所有的词组和标记为S的单个字均进行存储,得到中医字典;S36:将预处理后的中医文本作为双向GRU神经网络模型的输入值,将中医字典作为双向GRU神经网络模型的输出值,对双向GRU神经网络模型的参数进行训练,当双向GRU神经网络模型的损失函数达到最小值时,停止训练,得到训练好的双向GRU神经网络模型。作为一个或多个实施例,将预处理后的中文文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果,通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最大概率,选取最大概率的标签作为分词的标准。作为一个或多个实施例,通过处理后的训练集输入到双向GRU神经网络模型中进行训练,得到两个子模型,本文档来自技高网
...

【技术保护点】
1.基于GRU的中医文本分词方法,其特征是,包括:/n获取待分词的中医文本;/n对待分词的中医文本进行预处理;/n使用BMES标签对预处理后的中医文本进行预标注;/n将预标注的中医文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果。/n

【技术特征摘要】
1.基于GRU的中医文本分词方法,其特征是,包括:
获取待分词的中医文本;
对待分词的中医文本进行预处理;
使用BMES标签对预处理后的中医文本进行预标注;
将预标注的中医文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果。


2.如权利要求1所述的方法,其特征是,所述获取待分词的中医文本,是指中医病历文本,所述中医病历文本,包括患者自述病情和医生诊断结论。


3.如权利要求1所述的方法,其特征是,所述预处理,包括:删除停用词、重复词和语气词。


4.如权利要求1所述的方法,其特征是,所述使用BMES标签对预处理后的中医文本进行预标注;具体步骤包括:使用BMES标签进行标注,其中,B表示开始字,M表示中间字,E表示结尾字,S表示单个字。


5.如权利要求1所述的方法,其特征是,所述预先训练的双向GRU神经网络模型训练过程包括:
S31:获取语料集,所述语料集为若干个中医文本;
S32:对语料集进行预处理,得到预处理后的中医文本;所述预处理包括:删除停用词、重复词和语气词;
S33:对预处理后的中医文本中的每个字,使用BMES标签进行标注,其中,B表示开始字,M表示中间字,E表示结尾字,S表示单个字;
S34:筛选出标记为B的字b,筛选出字b最近邻的标记为E的字e,筛选出字b和字e之间的字m,将字b、字m和字e按照原先在中医文本中的顺序进行排列,组成词组;所述字m,包括一个字或多个字;
S35:将所有的词组和标记为S的单个字均进行存储,得到中医字典;
S36:将预处理后的中医文本作为双向GRU神经网络模型的输入值,将中医字典作为双向GRU神经网络模型的输出值,对双向GRU神经网络模型的参数进行训练,当双向GRU神经网络模型的损失函数达到最小值时,停止训练,得到训练好的双向GRU神经网络模型。


6.如权利要求1所述的方法,其特征是,将预处理后的中文文本输入到预先训练的双向GRU神经网络模型中,输出中医文本的分词结果,通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最大概率,选取最大概率的标签作为分词的标准。


7.如权利要求1所述的方法,其特征是,通过Viterbi算法计算输入的中医文本的每个汉字对应的标签的最终概率,计算方式为:
针对标签为B的第i单词,有三种形式的转换概率:MB,EB或SB。
第i个词最终属于标签B的概率的计算公式为:




表示预测的第i-1个汉字属于标签M的概率,zmb表示从标签M到标签B的转移概率;转移概率是设定值,取0.5;

表示预测的第i-1个汉字属于标签E的概率,zeb表示从标签E到标签B的转移概率,转移概率是设定值,取0.5;

表示预测的第i-1个汉字属于标签S的概率,zsb表示从标签S到标签B的转移概率,转移概率是设定值,取0.5;

表示预测的第i个汉字的属于标签B的概率;

表示当转移概率为MB时第i个汉字的属于标签B的概率;

表示当转移概率为EB时第i个汉字的属于标签B的概率;

表示当转移概率为SB时第i个汉字的属于标...

【专利技术属性】
技术研发人员:袁锋于凤洋郑向伟王冰
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1