【技术实现步骤摘要】
一种基于文本分类的病症识别方法、装置及设备
[0001]本专利技术实施例涉及人工智能领域,涉及一种基于文本分类的病症识别方法、装置及设备。
技术介绍
[0002]文本分类是通过人工智能对收集到的文本,依据其中的关键词进行语义分类的技术,该技术被广泛应用于各个领域。例如,在心理和精神疾病识别的场景下,可以基于文本分类技术判断被检测用户是否具有病症,或者具有潜在发病风险等。示例性的,首先可以获得被检测用户情绪相关的描述文本,例如日记文本或者被转换成文本的语音信息,然后,对所获取的文本进行关键词识别及基于关键词识别结果确定所获得的文本的分类,最后基于文本的分类结果识别患者是否患有病症或者具有潜在发病风险程度。
[0003]在文本分类过程中,由于相同文本在不同语境表达的语义可能不同,在关键词识别的过程中易发生误识别现象,即,基于关键词所识别的语义与被检测用户实际表达的语义不匹配,进而导致文本数据最终的分类结果与文本实际表达的语义之间的偏差偏大,进而导致对被检测用户病症的识别错误。
[0004]现有的文本数据分类技术中 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本分类的病症识别方法,其特征在于,所述方法包括:获取待识别文本集,所述待识别文本集中包括至少一条待识别文本;识别所述待识别文本集中每条待识别文本的语义信息;获取所述每条待识别文本的语义信息与预设的目标语义的偏差程度,所述目标语义是预定义的表征目标病症的语义;若所述偏差程度小于预设阈值,将相应语义识别结果对应的待分类文本分类确定为所述目标病症对应的类别。2.根据权利要求1所述的基于文本分类的病症识别方法,其特征在于,所述方法还包括:获取训练样本集,所述训练样本集中每个文本的语义与所述目标语义相反;根据所述训练样本集训练得到文本识别模型,所述文本识别模型用于获取所述每条待分类文本的语义信息与预设的目标语义的偏差程度。3.根据权利要求2所述的基于文本分类的病症识别方法,其特征在于,所述获取训练样本,包括:获取第一训练样本集,所述第一训练样本集中包括若干文本;对应所述训练样本集中的每个文本,分词得到至少一个子句;根据所述至少一个子句的语义与所述目标语义的相似度,获取第一子句集;根据所述第一子句集中的每个子句生成第二训练样本集,所述第二训练样本集中的每个文本的语义与相应文本对应的第一子句的语义相反;将所述第二训练样本集作为所述训练样本集。4.根据权利要求3所述的基于文本分类的病症识别方法,其特征在于,根据所述至少一个子句的语义与所述目标语义的相似度,获取第一子句集包括;获取所述至少一个子句中每个子句的语义结果;对每个子句语义结果与所述目标语义进行相似度比较,得到一个相似度集合,所述相似度集合包括至少一个相似度,所述每个子句语义结果对应一个相似度;若所述相似度集合中存在至少一个所述相似度大于或等于预设阈值,则选取其中数值最大的相似度...
【专利技术属性】
技术研发人员:彭立彪,郑银河,黄民烈,
申请(专利权)人:北京聆心智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。