一种医学领域的中文分词方法及中文分词器技术

技术编号:32457257 阅读:47 留言:0更新日期:2022-02-26 08:38
本申请是关于一种医学领域的中文分词方法,该方法对基于双向长短期记忆网络Bi

【技术实现步骤摘要】
一种医学领域的中文分词方法及中文分词器


[0001]本申请涉及人工智能
,尤其涉及一种医学领域的中文分词方法及中文分词器。

技术介绍

[0002]中文分词是基于既定标准将中文文本划分为能够表征精确语义的词构成的序列。在中文的自然语言处理任务中,中文分词的效果会影响后续处理任务中实体识别、语义分析、机器翻译、信息检索等的结果。
[0003]相关技术中,传统架构的中文分词方法主要基于机器学习算法和深度学习算法设计得到,两者均是将分词任务转化为字标注任务,若训练数据量不足,则会导致字标注任务的效果不如预期。
[0004]由于医学领域具有极强的专业性,获取大量的标注的医学领域的中文训练数据比较困难,因此,使用传统架构的中文分词方法会因标注的医学领域的中文训练数据量不足导致医学领域的中文文本被分词后不能准确表达原本语义,无法达到预期的分词效果。

技术实现思路

[0005]为解决相关技术中存在的技术问题,本申请提供一种医学领域的中文分词方法,该方法对基于双向长短期记忆网络(Bi

directional Long

Short Term Memory,Bi

LSTM)的分词模型进行改进后构建得到新的分词模型,使用该新的分词模型对医学领域的中文文本进行分词后可以准确表达原本语义,从而可以提升分词效果,以达到预期的分词效果。
[0006]本申请第一方面提供了一种用于医学领域的中文分词方法,包括:首先,利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练,得到医学领域中文分词模型;其次,将待分词文本输入医学领域中文分词模型中进行标签概率预测,得到第一概率预测结果,其中待分词文本为中文医学领域的文本句;再次,将待分词文本输入通用中文分词模型中进行标签概率预测,得到第二概率预测结果,其中通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到;最终,根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果。
[0007]在第一方面中一种可能的实现方式中,根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果,包括:
[0008]将待分词文本中每一个词分别对应的第一概率预测结果和第二概率预测结果进行加权后得到待分词文本的最终标签概率;
[0009]根据待分词文本的最终标签概率确定待分词文本的分词结果。
[0010]在第一方面中一种可能的实现方式中,加权所对应的权值大于0且小于1。
[0011]在第一方面中一种可能的实现方式中,方法还包括:
[0012]在中文医学语料作为训练集和待分词文本各自输入相应的分词模型之前,使用相同的字嵌入技术对中文医学语料对应的训练集和待分词文本执行字嵌入操作。
[0013]在第一方面中一种可能的实现方式中,通用中文分词模型和医学领域中文分词模型对应的模型结构是相同的。
[0014]在第一方面中一种可能的实现方式中,方法还包括:
[0015]将预先标注的中文通用语料进行字嵌入操作后输入基于双向长短期记忆网络的分词模型中进行训练,得到通用中文分词模型。
[0016]在第一方面中一种可能的实现方式中,预先标注所使用的方法包括:4词位标注法。
[0017]本申请第二方面提供了一种中文分词器,包括:训练模块、第一预测模块、第二预测模块和确定模块;
[0018]训练模块用于:利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练,得到医学领域中文分词模型;
[0019]第一预测模块用于:将待分词文本输入医学领域中文分词模型中进行标签概率预测,得到第一概率预测结果,其中待分词文本为中文医学领域的文本句;
[0020]第二预测模块用于:将待分词文本输入通用中文分词模型中进行标签概率预测,得到第二概率预测结果,其中通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到;
[0021]确定模块用于:根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果。
[0022]本申请第三方面提供了一种中文分词器,其特征在于,包括:
[0023]处理器和存储器;
[0024]存储器上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面、及第一方面中任一项的中文分词方法。
[0025]第二方面中可能的实现方式以及有益效果均与上述第一方面中可能的实现方式以及有益效果类似,可参阅上述第一方面中相关部分的描述;类似的,第三方面中可能的实现方式以及有益效果也均与上述第一方面中可能的实现方式以及有益效果类似,可参阅上述第一方面中相关部分的描述。
[0026]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0027]通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
[0028]图1为本申请实施例中提供的一个整体框架图;
[0029]图2为本申请实施例中的中文分词方法的一个实施例流程示意图;
[0030]图3为本申请实施例中一个实验结果统计图;
[0031]图4为本申请实施例中中文分词器的一个组成结构示意图;
[0032]图5为本申请实施例中中文分词器中确定模块的一个组成结构示意图;
[0033]图6为本申请实施例中中文分词器的又一个组成结构示意图;
[0034]图7为本申请实施例中中文分词器的又一种组成结构示意图。
具体实施方式
[0035]下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
[0036]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0037]应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0038]为了解决传统架构的中文分词方法会因标注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学领域的中文分词方法,其特征在于,所述方法是基于双向长短期记忆网络的分词模型设计得到,包括:利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练,得到医学领域中文分词模型;将待分词文本输入所述医学领域中文分词模型中进行标签概率预测,得到第一概率预测结果,其中所述待分词文本为中文医学领域的文本句;将所述待分词文本输入通用中文分词模型中进行标签概率预测,得到第二概率预测结果,其中所述通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到;根据所述第一概率预测结果和所述第二概率预测结果确定所述待分词文本的分词结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一概率预测结果和所述第二概率预测结果确定所述待分词文本的分词结果,包括:将所述待分词文本中每一个词分别对应的所述第一概率预测结果和所述第二概率预测结果进行加权后得到所述待分词文本的最终标签概率;根据所述待分词文本的最终标签概率确定所述待分词文本的分词结果。3.根据权利要求2所述的方法,其特征在于,所述加权所对应的权值大于0且小于1。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述中文医学语料作为训练集和所述待分词文本各自输入相应的分词模型之前,使用相同的字嵌入技术对所述中文医学语料对应的训练集和所述待分词文本执行字嵌入操作。5.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:邵党国黄初升马磊
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1