一种医学领域的中文分词方法及中文分词器技术

技术编号：32457257 阅读：47 留言：0更新日期：2022-02-26 08:38

本申请是关于一种医学领域的中文分词方法，该方法对基于双向长短期记忆网络Bi

全部详细技术资料下载

【技术实现步骤摘要】
一种医学领域的中文分词方法及中文分词器

[0001]本申请涉及人工智能
，尤其涉及一种医学领域的中文分词方法及中文分词器。

技术介绍

[0002]中文分词是基于既定标准将中文文本划分为能够表征精确语义的词构成的序列。在中文的自然语言处理任务中，中文分词的效果会影响后续处理任务中实体识别、语义分析、机器翻译、信息检索等的结果。
[0003]相关技术中，传统架构的中文分词方法主要基于机器学习算法和深度学习算法设计得到，两者均是将分词任务转化为字标注任务，若训练数据量不足，则会导致字标注任务的效果不如预期。
[0004]由于医学领域具有极强的专业性，获取大量的标注的医学领域的中文训练数据比较困难，因此，使用传统架构的中文分词方法会因标注的医学领域的中文训练数据量不足导致医学领域的中文文本被分词后不能准确表达原本语义，无法达到预期的分词效果。

技术实现思路

[0005]为解决相关技术中存在的技术问题，本申请提供一种医学领域的中文分词方法，该方法对基于双向长短期记忆网络(Bi
‑
directional Long
‑
Short Term Memory，Bi
‑
LSTM)的分词模型进行改进后构建得到新的分词模型，使用该新的分词模型对医学领域的中文文本进行分词后可以准确表达原本语义，从而可以提升分词效果，以达到预期的分词效果。
[0006]本申请第一方面提供了一种用于医学领域的中文分词方法，包括：首先，利用预先标注的中文医学语料作为训...

【技术保护点】

【技术特征摘要】
1.一种医学领域的中文分词方法，其特征在于，所述方法是基于双向长短期记忆网络的分词模型设计得到，包括：利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练，得到医学领域中文分词模型；将待分词文本输入所述医学领域中文分词模型中进行标签概率预测，得到第一概率预测结果，其中所述待分词文本为中文医学领域的文本句；将所述待分词文本输入通用中文分词模型中进行标签概率预测，得到第二概率预测结果，其中所述通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到；根据所述第一概率预测结果和所述第二概率预测结果确定所述待分词文本的分词结果。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率预测结果和所述第二概率预测结果确定所述待分词文本的分词结果，包括：将所述待分词文本中每一个词分别对应的所述第一概率预测结果和所述第二概率预测结果进行加权后得到所述待分词文本的最终标签概率；根据所述待分词文本的最终标签概率确定所述待分词文本的分词结果。3.根据权利要求2所述的方法，其特征在于，所述加权所对应的权值大于0且小于1。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述中文医学语料作为训练集和所述待分词文本各自输入相应的分词模型之前，使用相同的字嵌入技术对所述中文医学语料对应的训练集和所述待分词文本执行字嵌入操作。5.根据权利要求1所述的方法，其特征在...

【专利技术属性】
技术研发人员：邵党国，黄初升，马磊，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人