【技术实现步骤摘要】
基于预训练语言模型的中文临床文本分词方法
[0001]本专利技术涉及计算机数据挖掘与应用领域,具体涉及一种基于预训练语言模型的中文临床文本分词处理方法。
技术介绍
[0002]中文分词是文本分析的基础任务也是关键任务,中文分词是指把一个中文序列按照一定的规范切分成符合语境语义的词,是中文自然语言处理的基础任务,就目前来说是信息检索、构建知识图谱和机器翻译等自然语言处理的关键底层任务。由于中文的特性,词与词之间不具备类似英语这种字母语言那样有天然的分隔符,所以对于机器而言中文的词不能像英文那样可以直观的获取到每个词的语义环境和意义。因此,中文分词的任务随着文本领域的不同以及一些文本在书写过程中个人习惯用语和简写的不同,给中文自然语言处理带来了比较大的阻碍。尤其是在临床文本领域,每个医生所书写的电子病历信息专业术语多,而且不同医生之间的语言习惯不同,增加了医疗文本处理和分析的难度。如果可以找到某种方法,可以专门针对领域数据进行特定任务的优化,将这些问题克服,就可以很好的对医疗文本进行分析和处理,有效的提取病人和疾病的关键信息,电 ...
【技术保护点】
【技术特征摘要】
1.一个基于强泛化预训练语言模型结合领域无标注数据和少量标注数据的分词算法,其特征在于包括以下步骤:步骤S1.对从数据库中导出的数据进行数据清洗,剔除文本长度过短以及文本为空值的无效文本,去掉多余的空格符和换行符;步骤S2.针对模型所需的少量标注数据,请医院在职医生进行人工辅助标注数据,在标注过程抽取专业性强的领域术语构建词典;步骤S3.用无标注数据从预训练语言模型的公开checkpoint进行再预训练;步骤S4.将标注数据进行目标任务的模型微调训练,用监督学习的任务方式调整优化模型性能;步骤S5.结合LSTM层和CRF层做最后的输出来得到最终的分词结果;步骤S6.针对语料稀疏问题利用词典进一步弥补低词频、专业性强的词语带来的分词不全的缺陷。2.根据权利要求1所述的基于强泛化预训练语言模型结合领域无标注数据和少量标注数据的分词算法,其特征在于,步骤S1中:对获取得到的数据首先进行字符串处理,由于从数据库中导出的数据存在大量格式化的空格符和换行符,首先先去掉不必要的空格和换行符,处理掉空值文本,以及文本长度过短的无效文本数据,以此尽可能满足数据分布等情况一致性,避免因数据分布不平衡等问题带来算法效果的削减。3.根据权利要求1所述的基于强泛化预训练语言模型结合领域无标注数据和少量标注数据的分词算法,其特征在于,步骤S2中:标注数据的获取,因为从数据库中导出的文本经过清洗后仍只是纯文本无标注数据,标注过程邀请三甲医院三名在职医生对数据进行标注,其中标注步骤如下:第一名医生先对数据进行标注,每份标注完成后由第二名医生重复进行标注,两者意见相同则为正确,两者意见不同则需要第三位医生进行标注,并由三者达成一致才视为正确结果,在标注数据的过程中,针对部分专业性较强的词语进行抽取构成词典,并且筛选掉词典中词频较高的,保留词频较低的词语,用来作为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。