文本处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32833809 阅读:22 留言:0更新日期:2022-03-26 20:50
本公开涉及一种文本处理方法、装置、存储介质及电子设备。该方法包括:将待匹配的目标文本输入目标文本识别模型,得到该目标文本对应的目标文本向量;根据该目标文本向量与标准文本向量的向量距离,确定该目标文本对应的目标标准文本;其中,该标准文本向量为将预设文本库中的标准文本输入该目标文本识别模型得到的文本向量。该目标文本识别模型为根据训练样本集对预设文本识别模型进行训练后得到的,该训练样本集包括多个样本文本、以及每个该样本文本对应的正例标准文本和负例标准文本;该负例标准文本为根据该样本文本和该正例标准文本,从上述预设文本库的标准文本中获取的文本。这样,可以解决相关技术负例样本量较少的问题。问题。问题。

【技术实现步骤摘要】
文本处理方法、装置、存储介质及电子设备


[0001]本公开涉及人工智能领域,具体地,涉及一种文本处理方法、装置、存储介质及电子设备。

技术介绍

[0002]在医疗领域,关于同一种诊断、手术、药品、检查、化验或症状在临床病历上可以有多种表述文本,为了实现对临床病历的准确的统计分析,需要将多种表述文本进行标准化,也就是生成标准文本。为了能够高效的将临床病历上的表述文本转换为标准化的标准文本,可以通过预先训练的文本处理模型进行转换。但是,在相关技术中,即使收集了大量样本对文本处理模型进行训练,得到的文本处理模型的准确度仍然偏低。

技术实现思路

[0003]本公开的目的是提供一种文本处理方法、装置、存储介质及电子设备,以解决相关技术中存在的上述问题。
[0004]为了实现上述目的,本公开的第一方面提供了一种文本处理方法,所述方法包括:
[0005]将待匹配的目标文本输入目标文本识别模型,得到所述目标文本对应的目标文本向量;
[0006]根据所述目标文本向量与标准文本向量的向量距离,确定所述目标文本对应的目标标准文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:将待匹配的目标文本输入目标文本识别模型,得到所述目标文本对应的目标文本向量;根据所述目标文本向量与标准文本向量的向量距离,确定所述目标文本对应的目标标准文本,所述标准文本向量为将预设文本库中的标准文本输入所述目标文本识别模型得到的文本向量;其中,所述目标文本识别模型为根据训练样本集对预设文本识别模型进行训练后得到的,所述训练样本集包括多个样本文本、以及每个所述样本文本对应的正例标准文本和负例标准文本;所述负例标准文本为根据所述样本文本和所述正例标准文本,从所述预设文本库的标准文本中获取的文本。2.根据权利要求1所述的方法,其特征在于,所述目标文本识别模型是通过以下方式训练得到的:获取候选样本集,所述候选样本集中包括多个样本文本和每个所述样本文本对应的正例标准文本;根据所述样本文本和所述正例标准文本,从预设文本库的标准文本中获取所述样本文本对应的负例标准文本;根据所述样本文本、所述正例标准文本和所述负例标准文本,确定训练样本集;根据所述训练样本集对预设文本识别模型进行训练,得到所述目标文本识别模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述样本文本和所述正例标准文本,从预设文本库的标准文本中获取所述样本文本对应的负例标准文本包括:针对每个样本文本,根据该样本文本与所述标准文本的第一相似度,确定该样本文本对应的多个第一候选标准文本;将多个所述第一候选标准文本中除该样本文本对应的正例标准文本外的其他文本,作为该样本文本对应的负例标准文本。4.根据权利要求3所述的方法,其特征在于,所述根据该样本文本与所述标准文本的第一相似度,确定该样本文本对应的多个第一候选标准文本包括:将所述第一相似度最高的第一预设数量个标准文本作为所述第一候选标准文本;或者,将所述第一相似度大于或者等于第一预设相似度阈值的一个或多个标准文本作为所述第一候选标准文本。5.根据权利要求2所述的方法,其特征在于,所述根据所述样本文本和所述正例标准文本,从预设文本库的标准文本中获取所述样本文本对应的负例标准文本包括:针对所述候选样本集中的每个所述样本文本,根据该样本文本与所述候选样本集中的其他样本文本的第二相似度,获取该样本文本的一个或多个相似样本文本,以及每个相似样本文本对应的相似正例标准文本;将所述相似正例标准文本中除该样本文本对应的正例标准文本外的其他文本,作为该样本文本对应的负例标准文本。6.根据权利要求5所述的方法,其特征在于,所述根据该样本文本与所述候选样本集...

【专利技术属性】
技术研发人员:孙小婉蔡巍张霞
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1