文本信息处理方法、系统、介质和设备技术方案

技术编号:29673572 阅读:12 留言:0更新日期:2021-08-13 21:55
本发明专利技术提出一种文本信息处理方法、系统、介质和设备,在所述文本信息处理方法中,在对文本信息进行预处理得到数据预处理集合的基础上,根据数据参考集合,基于关键词匹配对数据预处理集合进行第一次筛选,基于深度学习对数据预处理集合进行第二次筛选,结合前后两次筛选的数据集合生成处理后的文本信息,能有效防止文本信息的误筛,提高了文本信息的处理准确率和处理效率;每个数据集合均包括相互之间存在映射关系的专业名词集合、形容词集合以及参数集合,在每个子集合单独对比筛选的基础上,结合存在映射关系的其他子集合的筛选结果的辅助验证,能进一步提高文本信息的筛选效率和准确率。

【技术实现步骤摘要】
文本信息处理方法、系统、介质和设备
本专利技术涉及自然语言处理
,尤其涉及一种文本信息处理方法、系统、介质和设备。
技术介绍
在自然语言处理中,通常会涉及多种输入途径和多种用途的文本,就以医疗数据而言,档案室老旧的纸质文本信息,各个医院或者平台的电子病历信息,现有的医疗数据越来越繁杂,且不同医院或者平台对医疗数据的定义、记载方式等存在差异,对应的诊断文本存在着特定用语、同义词表达、缩略语以及拼写和打字错误等造成诊断文本不一致的问题。因此,如何对繁复的医学文本信息进行有效地归纳总结,提高医学文本信息的处理效率与准确率是目前亟需解决的问题。
技术实现思路
鉴于以上现有技术存在的问题,本专利技术提供一种文本信息的处理技术方案,用于解决据上述技术问题。为了实现上述目的及其他目的,本专利技术采用的技术方案如下。一种文本信息处理方法,包括:获取待处理的文本信息;对所述文本信息进行预处理,生成多个词语及参数;对多个所述词语及所述参数进行分类提取,获取对应的数据预处理集合,所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合;获取相关领域的数据参考集合,所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合;根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选,获取第一数据集合,所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合;根据所述数据参考集合,基于深度学习,对所述数据预处理集合进行第二次筛选,获取第二数据集合,所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合;根据所述第一数据集合与所述第二数据集合,输出处理后的文本信息。可选地,对所述文本信息进行预处理时,至少对所述文本信息依次进行数据清洗、标点符号去除、切词、停用词去除以及重复词去除。可选地,对多个所述词语及所述参数进行分类提取的步骤包括:对所述词语进行词性标注;根据所述词语的词性和上下文关系,对多个所述词语及所述参数进行分类提取,获取所述数据预处理集合。可选地,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤包括:针对所述专业名词预处理集合中的第a个元素,依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离S1(a,b),得到第一词串距离集合S1(a);若所述第一词串距离集合S1(a)的元素取值包含零,则保留第a个元素,将其加入所述第一专业名词集合,并将所述专业名词描述预处理集合中与其对应的元素加入所述第一专业名词描述集合,将所述参数预处理集合中与其对应的元素加入所述第一参数集合。可选地,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤还包括:若所述第一词串距离集合S1(a)的元素取值不包含零,则进一步判断所述第一词串距离集合S1(a)中是否存在取值小于第一阈值的元素;若所述第一词串距离集合S1(a)中至少有一个元素的取值小于所述第一阈值,则按照从小到大的顺序对所述第一词串距离集合S1(a)中小于第一阈值的元素进行统计排序,得到第一词串距离筛选集合S10(a);针对第一词串距离筛选集合S10(a)中的元素,从第一个元素开始,依次计算所述专业名词描述预处理集合中对应的第i个元素与所述专业名词描述参考集合中对应的第j个元素之间的第二词串距离S2(i,j),得到第二词串距离集合S2(i);若所述第二词串距离集合S2(i)的元素取值包含零,则进一步判断所述第二词串距离集合S2(i)中取值为零的元素的个数是否大于第二阈值;若所述第二词串距离集合S2(i)中取值为零的元素的个数大于等于所述第二阈值,则保留所述专业名词描述预处理集合中的对应元素,将其加入所述第一专业名词描述集合,并将与其对应的所述专业名词预处理集合中的元素加入所述第一专业名词集合,将与其对应的所述参数预处理集合中的元素加入所述第一参数集合;若所述第二词串距离集合S2(i)中取值为零的元素的个数小于所述第二阈值,则放弃所述专业名词描述预处理集合中对应的第i个元素,并放弃所述专业名词预处理集合中的对应元素与所述参数预处理集合中的对应元素。可选地,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤进一步包括:若所述第一词串距离集合S1(a)的元素取值不包含零,且所述第一词串距离集合S1(a)中没有元素的取值小于所述第一阈值,则放弃所述专业名词预处理集合中的第a个元素,并放弃所述专业名词描述预处理集合中的对应元素与所述参数预处理集合中的对应元素。可选地,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤进一步包括:若所述第二词串距离集合S2(i)中取值为零的元素的个数小于所述第二阈值,则放弃所述专业名词描述预处理集合中对应的第i个元素,并放弃所述专业名词预处理集合中的对应元素与所述参数预处理集合中的对应元素。可选地,所述第一词串距离S1(a,b)和所述第二词串距离S2(i,j)的计算公式分别为:S1(a,b)=[M];M=[S2(a,b)+S3(a,b)]/2;S2(a,b)=|G2(a)|+|G2(b)|−2*|G2(a)∩G2(b)|;S3(a,b)=|G3(a)|+|G3(b)|−2*|G3(a)∩G3(b)|;S2(i,j)=[N];N=[S2’(i,j)+S3(i,j)]/2;S2’(i,j)=|G2(i)|+|G2(j)|−2*|G2(i)∩G2(j)|;S3(i,j)=|G3(i)|+|G3(j)|−2*|G3(i)∩G3(j)|;其中,第一词串距离S1(a,b)为对M取整的值,S2(a,b)表示第一2-Gram词串距离,S3(a,b)表示第一3-Gram词串距离,第二词串距离S2(i,j)为对N取整的值,S2’(i,j)表示第一3-Gram词串距离,S3(i,j)表示第二3-Gram词串距离;G2(a)和G2(b)分别表示所述专业名词预处理集合中的第a个元素和所述专业名词参考集合中的第b个元素中2-Gram的集合,G2(i)和G2(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述参考集合中对应的第j个元素中2-Gram的集合,G3(a)和G3(b)分别表示所述专业名词预处理集合中的第a个元素和所述专业名词参考集合中的第b个元素中3-Gram的集合,G3(i)和G3(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述参考集合中对应的第j个元素中3-Gram的集合。可选地,根据所述数据参考集合,基于深度学习,对所述数据预处理集合进行第二次筛选的步骤包括:<本文档来自技高网...

【技术保护点】
1.一种文本信息处理方法,其特征在于,包括:/n获取待处理的文本信息;/n对所述文本信息进行预处理,生成多个词语及参数;/n对多个所述词语及所述参数进行分类提取,获取对应的数据预处理集合,所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合;/n获取相关领域的数据参考集合,所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合;/n根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选,获取第一数据集合,所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合;/n根据所述数据参考集合,基于深度学习,对所述数据预处理集合进行第二次筛选,获取第二数据集合,所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合;/n根据所述第一数据集合与所述第二数据集合,输出处理后的文本信息。/n

【技术特征摘要】
1.一种文本信息处理方法,其特征在于,包括:
获取待处理的文本信息;
对所述文本信息进行预处理,生成多个词语及参数;
对多个所述词语及所述参数进行分类提取,获取对应的数据预处理集合,所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合;
获取相关领域的数据参考集合,所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合;
根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选,获取第一数据集合,所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合;
根据所述数据参考集合,基于深度学习,对所述数据预处理集合进行第二次筛选,获取第二数据集合,所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合;
根据所述第一数据集合与所述第二数据集合,输出处理后的文本信息。


2.根据权利要求1所述的文本信息处理方法,其特征在于,对所述文本信息进行预处理时,至少对所述文本信息依次进行数据清洗、标点符号去除、切词、停用词去除以及重复词去除。


3.根据权利要求1或2所述的文本信息处理方法,其特征在于,对多个所述词语及所述参数进行分类提取的步骤包括:
对所述词语进行词性标注;
根据所述词语的词性和上下文关系,对多个所述词语及所述参数进行分类提取,获取所述数据预处理集合。


4.根据权利要求1所述的文本信息处理方法,其特征在于,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤包括:
针对所述专业名词预处理集合中的第a个元素,依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离S1(a,b),得到第一词串距离集合S1(a);
若所述第一词串距离集合S1(a)的元素取值包含零,则保留第a个元素,将其加入所述第一专业名词集合,并将所述专业名词描述预处理集合中与其对应的元素加入所述第一专业名词描述集合,将所述参数预处理集合中与其对应的元素加入所述第一参数集合。


5.根据权利要求4所述的文本信息处理方法,其特征在于,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤还包括:
若所述第一词串距离集合S1(a)的元素取值不包含零,则进一步判断所述第一词串距离集合S1(a)中是否存在取值小于第一阈值的元素;
若所述第一词串距离集合S1(a)中至少有一个元素的取值小于所述第一阈值,则按照从小到大的顺序对所述第一词串距离集合S1(a)中小于第一阈值的元素进行统计排序,得到第一词串距离筛选集合S10(a);
针对第一词串距离筛选集合S10(a)中的元素,从第一个元素开始,依次计算所述专业名词描述预处理集合中对应的第i个元素与所述专业名词描述参考集合中对应的第j个元素之间的第二词串距离S2(i,j),得到第二词串距离集合S2(i);
若所述第二词串距离集合S2(i)的元素取值包含零,则进一步判断所述第二词串距离集合S2(i)中取值为零的元素的个数是否大于第二阈值;
若所述第二词串距离集合S2(i)中取值为零的元素的个数大于等于所述第二阈值,则保留所述专业名词描述预处理集合中的对应元素,将其加入所述第一专业名词描述集合,并将与其对应的所述专业名词预处理集合中的元素加入所述第一专业名词集合,将与其对应的所述参数预处理集合中的元素加入所述第一参数集合;
若所述第二词串距离集合S2(i)中取值为零的元素的个数小于所述第二阈值,则放弃所述专业名词描述预处理集合中对应的第i个元素,并放弃所述专业名词预处理集合中的对应元素与所述参数预处理集合中的对应元素。


6.根据权利要求5所述的文本信息处理方法,其特征在于,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤进一步包括:
若所述第一词串距离集合S1(a)的元素取值不包含零,且所述第一词串距离集合S1(a)中没有元素的取值小于所述第一阈值,则放弃所述专业名词预处理集合中的第a个元素,并放弃所述专业名词描述预处理集合中的对应元素与所述参数预处理集合中的对应元素。


7.根据权利要求6所述的文本信息处理方法,其特征在于,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤进一步包括:
若所述第二词串距离集合S2(i)中取值为零的元素的个数小于所述第二阈值,则放弃所述专业名词描述预处理集合中对应的第i个元...

【专利技术属性】
技术研发人员:姚娟娟钟南山樊代明
申请(专利权)人:明品云北京数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1