一种基于文本分类的病症识别方法、装置及设备制造方法及图纸

技术编号:34923246 阅读:25 留言:0更新日期:2022-09-15 07:16
本申请实施例涉及人工智能领域,公开了一种基于文本分类的病症识别方法、装置及设备。本申请实施例涉及基于文本分类的病症识别方法包括:获取待识别文本集;识别待识别文本的语义信息;获取待识别文本的语义信息与目标语义的偏差程度;若偏差程度小于预设阈值,将对应的待分类文本分类确定为所述目标病症对应的类别。可见,对识别误差的特征进行提取,并以此作为训练输入条件训练分类模型,提高分类模型对识别误差的辨识度。由于第一子句与目标语义建立的相似度联系,实现了文本数据中全部内容的点对点偏差识别。另一方面,将识别误差进行模型训练,并通过训练好的模型进行文本数据分类,提高了文本数据分类过程的兼容性,降低了成本。了成本。了成本。

【技术实现步骤摘要】
一种基于文本分类的病症识别方法、装置及设备


[0001]本专利技术实施例涉及人工智能领域,涉及一种基于文本分类的病症识别方法、装置及设备。

技术介绍

[0002]文本分类是通过人工智能对收集到的文本,依据其中的关键词进行语义分类的技术,该技术被广泛应用于各个领域。例如,在心理和精神疾病识别的场景下,可以基于文本分类技术判断被检测用户是否具有病症,或者具有潜在发病风险等。示例性的,首先可以获得被检测用户情绪相关的描述文本,例如日记文本或者被转换成文本的语音信息,然后,对所获取的文本进行关键词识别及基于关键词识别结果确定所获得的文本的分类,最后基于文本的分类结果识别患者是否患有病症或者具有潜在发病风险程度。
[0003]在文本分类过程中,由于相同文本在不同语境表达的语义可能不同,在关键词识别的过程中易发生误识别现象,即,基于关键词所识别的语义与被检测用户实际表达的语义不匹配,进而导致文本数据最终的分类结果与文本实际表达的语义之间的偏差偏大,进而导致对被检测用户病症的识别错误。
[0004]现有的文本数据分类技术中,通常采用调整关键词相应的语义或识别参数来减小识别偏差,进而提高病症识别结果的准确性。但是,在实际应用中,由于文本数据之间的内容差异程度较大,不同的文本数据之间可能存在相同字符的关键词字样,因此调整关键词语义以及识别参数的方式会对文本数据中全部的内容造成影响,无法对全部内容进行点对点的偏差降低。另一方面,若要实现对文本数据中部分内容针对性的偏差识别或偏差降低,需要通过人工构建对应的平台实现,增大了文本数据的识别成本。

技术实现思路

[0005]本申请实施例提供了一种基于文本分类的病症识别方法、装置及设备,以解决现有基于文本分类的病症识别方法中无法对文本数据进行针对性的识别偏差降低的问题。
[0006]第一方面,本申请实施例提供了一种基于文本分类的病症识别方法,所述方法包括:获取待识别文本集,所述待识别文本集中包括至少一条待识别文本;识别所述待识别文本集中每条待识别文本的语义信息;获取所述每条待识别文本的语义信息与预设的目标语义的偏差程度,所述目标语义是预定义的表征目标病症的语义;若所述偏差程度小于预设阈值,将相应语义识别结果对应的待分类文本分类确定为所述目标病症对应的类别。
[0007]在一些可能的实施方式中,所述的基于文本分类的病症识别方法,还包括:获取训练样本集,所述训练样本集中每个文本的语义与所述目标语义相反;根据所述训练样本集训练得到文本识别模型,所述文本识别模型用于获取所述每
条待分类文本的语义信息与预设的目标语义的偏差程度。这样,将识别偏差作为独立的训练样本对所述识别模型进行训练,可以提高所述识别模型对于识别偏差的辨识度,进而降低病症识别结果的偏差。
[0008]在一些可能的实施方式中,所述获取训练样本,包括:获取第一训练样本集,所述第一训练样本集中包括若干文本;对应所述训练样本集中的每个文本,分词得到至少一个子句;根据所述至少一个子句的语义与所述目标语义的相似度,获取第一子句集;根据所述第一子句集中的每个子句生成第二训练样本集,所述第二训练样本集中的每个文本的语义与相应文本对应的第一子句的语义相反;将所述第二训练样本集作为所述训练样本集。这样,可以通过子句语义替换的方式将识别误差转变为具体的训练样本,提高所述识别模型的学习效果,进而提高所述识别模型对识别误差的辨识度。
[0009]在一些可能的实施方式中,根据所述至少一个子句的语义与所述目标语义的相似度,获取第一子句集包括;获取所述至少一个子句中每个子句的语义结果;对每个子句语义结果与所述目标语义进行相似度比较,得到一个相似度集合,所述相似度集合包括至少一个相似度,所述每个子句语义结果对应一个相似度;若所述相似度集合中存在至少一个所述相似度大于或等于预设阈值,则选取其中数值最大的相似度对应的子句,作为第一子句,若所述相似度集合中不存在大于或等于所述预设阈值的相似度,则调整所述分词处理规则,并对子句重新进行划分。
[0010]这样,可以准确找到最接近目标语义的子句,提高后续对于识别误差的获取的准确度,进而提高所述识别模型对识别误差的辨识度。
[0011]在一些可能的实施方式中,所述训练识别偏差实现方式包括:若所述偏差程度大于或等于预设阈值,将所述语义识别结果对应的待分类文本确定为非目标病症的类别。
[0012]在一些可能的实施方式中,所述调整所述分词处理规则包括:更改划分的字符数。这样,可以准确找到最接近目标语义的子句,使后续对于识别误差的获取的准确度提高。
[0013]在一些可能的实施方式中,在进行所述识别所述待识别文本集中每条待识别文本的语义信息之前,还包括,对待识别文本集进行偏差预识别,所述偏差预识别方法包括:对每个所述识别文本的第一位置字符沿第一方向进行截断分句处理,得到第一截断分句;识别所述第一截断分句语义,并比较第一截断分句语义与目标语义相似度;若所述第一截断分句语义与所述目标语义相似度小于预设阈值,则保留前一字符截断分句作为第一截断分句;对所述第一截断分句的第二位置字符沿第二方向进行截断分句处理,得到第二截断分句;识别所述第二截断分句语义,并比较第二截断分句语义与目标语义相似度;若所述第二截断分句语义与所述目标语义相似度小于预设阈值,则保留前一字符
截断分句作为第二截断分句;将文本中第二截断分句之外的字符构成的分句,认定为识别偏差。这样,可以在进行实际分类前将待识别文本集中的识别误差公开,便于所述识别模型识别,进而提升分类的准确度。
[0014]一种可能的实施方式中,所述第一字符与第二字符分别对应文本第一字符以及文本最末字符。
[0015]一种可能的实施方式中,所述第一方向与所述第二方向相反。
[0016]在一些可能的实施方式中,所述预先训练的语言模型得到,所述模型类别包括:大词汇语言模型N

gram。
[0017]第二方面,本申请实施例还提供了一种基于文本分类的病症识别装置,所述装置包括:第一获取模块,用于获取待识别文本集,所述待识别文本集中包括至少一条待识别文本;识别模块,用于识别所述待识别文本集中每条待识别文本的语义信息;第二获取模块,获取所述每条待识别文本的语义信息与预设的目标语义的偏差程度,所述目标语义是预定义的表征目标病症的语义;识别模块,若所述偏差程度小于预设阈值,将相应语义识别结果对应的待分类文本分类确定为所述目标病症对应的类别。
[0018]第三方面,本申请实施例还提供了一种电子设备,所诉电子设备包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令执行第一方面或第一方面任一可能的实施方式中的方法。
[0019]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面或第一方面任一可能的实施方式中的方法。
[0020]本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本分类的病症识别方法,其特征在于,所述方法包括:获取待识别文本集,所述待识别文本集中包括至少一条待识别文本;识别所述待识别文本集中每条待识别文本的语义信息;获取所述每条待识别文本的语义信息与预设的目标语义的偏差程度,所述目标语义是预定义的表征目标病症的语义;若所述偏差程度小于预设阈值,将相应语义识别结果对应的待分类文本分类确定为所述目标病症对应的类别。2.根据权利要求1所述的基于文本分类的病症识别方法,其特征在于,所述方法还包括:获取训练样本集,所述训练样本集中每个文本的语义与所述目标语义相反;根据所述训练样本集训练得到文本识别模型,所述文本识别模型用于获取所述每条待分类文本的语义信息与预设的目标语义的偏差程度。3.根据权利要求2所述的基于文本分类的病症识别方法,其特征在于,所述获取训练样本,包括:获取第一训练样本集,所述第一训练样本集中包括若干文本;对应所述训练样本集中的每个文本,分词得到至少一个子句;根据所述至少一个子句的语义与所述目标语义的相似度,获取第一子句集;根据所述第一子句集中的每个子句生成第二训练样本集,所述第二训练样本集中的每个文本的语义与相应文本对应的第一子句的语义相反;将所述第二训练样本集作为所述训练样本集。4.根据权利要求3所述的基于文本分类的病症识别方法,其特征在于,根据所述至少一个子句的语义与所述目标语义的相似度,获取第一子句集包括;获取所述至少一个子句中每个子句的语义结果;对每个子句语义结果与所述目标语义进行相似度比较,得到一个相似度集合,所述相似度集合包括至少一个相似度,所述每个子句语义结果对应一个相似度;若所述相似度集合中存在至少一个所述相似度大于或等于预设阈值,则选取其中数值最大的相似度...

【专利技术属性】
技术研发人员:彭立彪郑银河黄民烈
申请(专利权)人:北京聆心智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1