文本处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:20242539 阅读:20 留言:0更新日期:2019-01-29 23:23
本公开涉及一种文本处理方法、文本处理装置、计算机可读存储介质及电子设备。本公开实施例提供的文本处理方法包括:检测待处理文本中是否包含异常标识;若检测到所述待处理文本中包含异常标识,则对所述异常标识进行文本清理;对所述待处理文本进行结构化处理以得到结构化数据。本公开实施例所提供的文本处理方法可以极大地保留待处理文本中的有效数据,避免数据丢失的问题。

【技术实现步骤摘要】
文本处理方法、装置、存储介质及电子设备
本公开涉及计算机
,具体涉及一种文本处理方法、文本处理装置、计算机可读存储介质及电子设备。
技术介绍
结构化技术是NLP(NaturalLanguageProcessing,即自然语言处理)中的一种重要的技术,文本的结构化是从自然语言文本中提取所需要的内容,形成结构化数据。这其中必定会用到正则与词典等工具去匹配所得到需要的结构化数据。在中国一段正常的医疗文本应该是大部分都是汉字,其中可以掺杂着少量的数字、字母或者特殊字符。假如一段文本中出现大量的数字、英文字母或者异常符号,则可以认为这段文本出现了异常。当对异常的医疗数据文本进行结构化处理的时候,由于正则是贪婪模式,一方面会在正则匹配上消耗非常多的资源,另一方面会生成非常多(可能最多有上百万)的数据对象,这就会使操作系统没有足够的资源去处理,导致负载非常高,这段异常文本花费的时间可能会要几天都不能计算完成。因此对真正异常医疗文本的检测与清洗技术是一项重要技术,且不好把握。目前对医疗异常文本检查与报警的方法主要包括以下两种:第一种是异常匹配,检查医疗文本中是否出现连续的多个数字、英文字符或者特殊字符,出现则认为是异常文本,报警后便丢弃该异常文本。第二种是超时检测,通过对医疗文本进行结构化时候设置超时的机制来进行检查,一般正常的医疗文本执行结构化时只会花费一定的时间,故当执行结构化时花费的时间达到一定的阈值,则认为文本异常,后便丢弃该异常文本。以上两种方法对于异常文本的判断维度非常单一,在进行医疗文本的异常检查时将丢弃大量可以进行结构化的有用数据,因而将导致严重的正常数据丢失的问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种文本处理方法、文本处理装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据丢失严重的技术问题。根据本公开的一个方面,提供一种文本处理方法,其特殊之处在于,包括:检测待处理文本中是否包含异常标识;若检测到所述待处理文本中包含异常标识,则对所述异常标识进行文本清理;对所述待处理文本进行结构化处理以得到结构化数据。在本公开的一种示例性实施方式中,所述检测待处理文本中是否包含异常标识包括:检测待处理文本的长度,并判断所述长度是否大于预设阈值;若判断所述长度大于预设阈值,则检测所述待处理文本中是否包含异常标识。在本公开的一种示例性实施方式中,所述检测待处理文本中是否包含异常标识还包括:若判断所述长度小于或等于预设阈值,则对所述待处理文本进行结构化处理以得到结构化数据。在本公开的一种示例性实施方式中,所述对所述待处理文本进行结构化处理以得到结构化数据包括:对所述待处理文本进行异常特征检测,以判断所述待处理文本是否为正常文本或者异常文本;若判断所述待处理文本为正常文本,则对所述待处理文本进行结构化处理以得到结构化数据。在本公开的一种示例性实施方式中,所述对所述待处理文本进行异常特征检测,以判断所述待处理文本是否为正常文本或者异常文本,包括:检测所述待处理文本中是否包含连续非中文字段;若检测到所述待处理文本中包含连续非中文字段,则判断所述待处理文本为异常文本;若未检测到所述待处理文本中包含连续非中文字段,则判断所述待处理文本为正常文本。在本公开的一种示例性实施方式中,所述对所述待处理文本进行结构化处理以得到结构化数据还包括:若判断所述待处理文本为异常文本,则将所述异常文本导入至异常文本集合;在所述异常文本集合满足预设条件时,发送异常文本提示信息。在本公开的一种示例性实施方式中,在发送异常文本提示信息之后,所述方法还包括:分析所述异常文本集合中的异常文本,获取异常标识以形成异常标识集合。根据本公开的一个方面,提供一种文本处理装置,其特殊之处在于,包括:检测模块,被配置为检测待处理文本中是否包含异常标识;清理模块,被配置为若校测到所述待处理文本中包含异常标识,则对所述待处理文本中包含异常标识的部分进行文本清理;处理模块,被配置为对所述待处理文本进行结构化处理以得到结构化数据。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现以上任一所述的文本处理方法。根据本公开的一个方面,提供一种电子设备,其特殊之处在于,包括处理器和存储器;其中,存储器用于存储所述处理器的可执行指令,所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的文本处理方法。本公开实施例所提供的文本处理方法通过对待处理文本进行异常标识检测可以对文本中的异常部分进行清理而不是简单的全文丢弃,因此可以极大地保留待处理文本中的有效数据,避免数据丢失的问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出本公开一种示例性实施方式中文本处理方法的步骤流程图。图2示意性示出本公开另一种示例性实施方式中文本处理方法的步骤流程图。图3示意性示出本公开另一种示例性实施方式中文本处理方法的步骤流程图。图4示意性示出本公开另一种示例性实施方式中文本处理方法的步骤流程图。图5示意性示出本公开示例性实施方式中文本处理装置的组成框图。图6示意性示出本公开示例性实施方式中一种程序产品的示意图。图7示意性示出本公开示例性实施方式中一种电子设备的模块示意图。图8示意性示出本公开示例性实施方式在一种应用场景中的文本处理方法流程图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本公开的示例性实施方式中首先提供一种文本处理方法,主要可以应用于医疗文本的结构化处理,以便从医疗文本中获取结构化数据。其中,医疗文本可以包括门诊病历、住院病历等各种包含医疗数据的电子文本。参考图1所示,本实施例提供的文本处理方法主要可以包括以下步骤:步骤S110.检测待处理文本中是否包含异常标识。本步骤首先对待处理文本的文本内容进行检测,判断其中是否包含有异常标识,其中异常标识可以包括文本中出现的乱码、无意义的一串数字、字母或者特殊字符等。为了更好地进行异常标识检测本文档来自技高网
...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:检测待处理文本中是否包含异常标识;若检测到所述待处理文本中包含异常标识,则对所述异常标识进行文本清理;对所述待处理文本进行结构化处理以得到结构化数据。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:检测待处理文本中是否包含异常标识;若检测到所述待处理文本中包含异常标识,则对所述异常标识进行文本清理;对所述待处理文本进行结构化处理以得到结构化数据。2.根据权利要求1所述的异常文本处理方法,其特征在于,所述检测待处理文本中是否包含异常标识包括:检测待处理文本的长度,并判断所述长度是否大于预设阈值;若判断所述长度大于预设阈值,则检测所述待处理文本中是否包含异常标识。3.根据权利要求2所述的异常文本处理方法,其特征在于,所述检测待处理文本中是否包含异常标识还包括:若判断所述长度小于或等于预设阈值,则对所述待处理文本进行结构化处理以得到结构化数据。4.根据权利要求1所述的文本处理方法,其特征在于,所述对所述待处理文本进行结构化处理以得到结构化数据包括:对所述待处理文本进行异常特征检测,以判断所述待处理文本是否为正常文本或者异常文本;若判断所述待处理文本为正常文本,则对所述待处理文本进行结构化处理以得到结构化数据。5.根据权利要求4所述的文本处理方法,其特征在于,所述对所述待处理文本进行异常特征检测,以判断所述待处理文本是否为正常文本或者异常文本,包括:检测所述待处理文本中是否包含连续非中文字段;若检测到所述待处理文本中包含连续非中文字段...

【专利技术属性】
技术研发人员:滕召荣李坤
申请(专利权)人:金色熊猫有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1