一种意图分类方法、装置、设备及存储介质制造方法及图纸

技术编号:39331289 阅读:12 留言:0更新日期:2023-11-12 16:07
本发明专利技术涉及数字医疗技术领域,提供一种意图分类方法、装置、设备及存储介质。该意图分类方法,包括:获取问诊文本集合,问诊文本集合包括多组医生与患者对话的语句文本;按照陈述对象和语句类型将问诊文本集合中的语句文本分为多个意图测试集;针对每个意图测试集:根据语句文本之间的意图相似度,对意图测试集中的语句文本进行聚类,将意图测试集内的多个语句文本分类为多个意图子集。本发明专利技术意图分类方法,能够高效准确地对问诊文本集合中语句文本进行意图分类,以在数据标注时通过对意图子集的标注来实现对问诊文本集合中同一意图和句型的语句文本的统一标注,从而大大提高了数据标注的效率和准确度。标注的效率和准确度。标注的效率和准确度。

【技术实现步骤摘要】
一种意图分类方法、装置、设备及存储介质


[0001]本专利技术涉及数字医疗
,特别涉及一种意图分类方法、装置、设备及存储介质。

技术介绍

[0002]看病难一直是我国医疗体系系统最突出的问题,其本质是医患比过低,我国是世界第一人口大国,医疗是人们生活的最基本需求,然而在如此大的人口体量下,看病难便自然成为一个尖锐的问题。老百姓发烧感冒去看医生往往需要等一两个小时,然后和医生聊不上几句话就出来了,所以即使是小病也需要耗费半天的时间,但真正诊断的时间只有短短几分钟。随着大数据和互联网的发展,人们更多地通过搜索引擎来完成疾病的初步自我诊断,然而搜索引擎搜索到的是网上存在的相关案例的问答结果,这种诊断的结果可能由于不存在与用户完全一致的症状表现而导致诊断结果有偏差甚至是错误。
[0003]为解决线上诊断不够准确的问题,医疗机构推出能够准确识别患者意图并给予正确问诊答复的问诊对话模型,该问诊对话模型为基于深度学习技术通过大量问诊信息来训练的对话模型,该问诊对话模型能够准确识别患者意图的基础在于训练数据中问诊信息的意图标记是否足够准确,问诊信息中每句话的意图标注的准确与否决定了模型训练的性能上限。
[0004]而目前数据标注方法通常是抽出原始对话数据进行标注,这样的方法由于正样本较少,效率极低,需要分配给大量标注人员标注,而且每个标注员对意图的理解不同,从而进一步增加标注的误差。
[0005]故而,迫切需要一种意图分类方法、装置、设备及存储介质,以解决上述技术问题。

技术实现思路

[0006]本专利技术的目的在于提供一种意图分类方法、装置、设备及存储介质,以解决现有技术中标注方法对原始对话数据不加筛选分类而直接抽取的标注方式效率过低且误差较大的技术问题。
[0007]第一方面,提供了一种意图分类方法,包括:
[0008]获取问诊文本集合,所述问诊文本集合包括多组医生与患者对话的语句文本;
[0009]按照陈述对象和语句类型将所述问诊文本集合中的语句文本分为多个意图测试集;
[0010]针对每个所述意图测试集:根据所述语句文本之间的意图相似度,对所述意图测试集中的语句文本进行聚类,将所述意图测试集内的多个语句文本分类为多个意图子集;其中,所述意图相似度与所述语句文本之间的语义相似度、长度相似度和编辑相似度相关。
[0011]第二方面,提供了一种意图分类装置,包括:
[0012]文本获取模块,获取问诊文本集合,所述问诊文本集合包括多组医生与患者对话的语句文本;
[0013]句型分类模块,按照陈述对象和语句类型将所述问诊文本集合中的语句文本分为多个意图测试集;
[0014]意图分类模块,针对每个所述意图测试集:根据所述语句文本之间的意图相似度,对所述意图测试集中的语句文本进行聚类,将所述意图测试集内的多个语句文本分类为多个意图子集;其中,所述意图相似度与所述语句文本之间的语义相似度、长度相似度和编辑相似度相关。
[0015]第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述意图分类方法的步骤。
[0016]第四方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述意图分类方法的步骤。
[0017]上述意图分类方法、装置、设备及存储介质,能够先基于陈述对象和语句类型将问诊文本集合中语句文本分类为多个意图测试集,然后在每个意图测试集中基于语句文本之间语义和字长上的意图相似度对语句文本进行聚类,以在每个意图测试集下获取多个意图子集,从而将问诊文本集合中相同陈述对象发出具有相同意图的相同类型语句分在同一意图子集中,以便于在问诊文本集合中对相同陈述对象发出具有相同意图的相同类型语句进行统一标注。该意图分类方法,能够高效准确地对问诊文本集合中语句文本进行意图分类,以在数据标注时通过对意图子集的标注来实现对问诊文本集合中相同意图和句型语句文本的统一标注,极大提高了数据标注的效率和准确度。
附图说明
[0018]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0019]图1显示为本专利技术一实施例中意图分类方法的流程示意图;
[0020]图2显示为本专利技术一实施例中意图分类方法中步骤S2的流程示意图;
[0021]图3显示为本专利技术一实施例中意图分类方法中步骤S3的流程示意图;
[0022]图4显示为本专利技术一实施例中意图分类方法中步骤S31的流程示意图;
[0023]图5显示为本专利技术一实施例中意图分类方法中步骤S32的流程示意图;
[0024]图6显示为本专利技术一实施例中意图分类方法中步骤S321的流程示意图;
[0025]图7显示为本专利技术一实施例中意图分类装置的结构框图;
[0026]图8显示为本专利技术一实施例中计算机设备的一结构示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]请参阅图1

8。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本技术中有关的组件而非按照实际实施时的组件数
目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0029]请参见图1,本专利技术提供了一种意图分类方法、装置、设备及存储介质,以解决现有技术中标注方法对原始对话数据不加筛选分类而直接抽取的标注方式效率过低且误差较大的技术问题。
[0030]本专利技术实施例提供一种意图分类方法,该意图分类方法能够利用聚类方法将文本集合中相似意图的语句文本进行有效地意图分类,以便于后续对对话数据的准确标注。例如,当该意图分类方法应用于医疗信息领域的远程问诊时,如以皮肤科

痤疮问诊的场景为例,本意图分类方法能够先对收集到的医生和患者关于皮肤痤疮病症的问诊文本集合进行初步分类,将问诊文本集合中医生和患者对话的语句文本按陈述对象和语句类型分为多个意图测试集,而后进一步将每个意图测试集中相同意图的语句文本进行聚类,从而在意图测试集合获取多个意图子集。其中,每个意图测试集中包含的语句文本均为相同陈述对象发出具有相同意图的相同句型语句,因此,在后续标准工作时可将每个意图子集作为候选标注集,通过分别对各个意图子集进行意图标注来实现对问诊文本集合中相同陈述者发出的相同意图和句型的语句文本进行统一的意图标注,从而大大提高对话数据标注的效率和准确度。
[0031]请参阅图1所示,图1为本专利技术实施例提供的意图分类方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种意图分类方法,其特征在于,包括:获取问诊文本集合,所述问诊文本集合包括多组医生与患者对话的语句文本;按照陈述对象和语句类型将所述问诊文本集合中的语句文本分为多个意图测试集;针对每个所述意图测试集:根据所述语句文本之间的意图相似度,对所述意图测试集中的语句文本进行聚类,将所述意图测试集内的多个语句文本分类为多个意图子集;其中,所述意图相似度与所述语句文本之间的语义相似度、长度相似度和编辑相似度相关。2.根据权利要求1所述意图分类方法,其特征在于,在所述获取问诊文本集合后,对所述问诊文本集合中包含的语句文本进行预处理,包括:对所述问诊文本集合中包含的语句文本进行分词处理;基于预设的停用词表,对所述语句文本中的各个分词进行比对,以过滤掉所述语句文本中的停用词;按照文本顺序拼接所述语句文本中保留的分词,以获得过滤后的所述语句文本。3.根据权利要求1所述意图分类方法,其特征在于,所述按照陈述对象和语句类型将所述问诊文本集合中的语句文本聚类分为多个意图测试集,包括:按照所述语句文本的陈述对象将所述问诊文本集合中的语句文本分为医生测试集和患者测试集;按照所述语句文本的语句类型,将所述医生测试集分为医生

问句测试集和医生

非问句测试集,并将所述患者测试集分为患者

问句测试集和患者

非问句测试集。4.根据权利要求1所述意图分类方法,其特征在于,所述针对每个所述意图测试集:根据所述语句文本之间的意图相似度,对所述意图测试集中的语句文本进行聚类,将所述意图测试集内的多个语句文本分类为多个意图子集,包括:针对每一个所述意图测试集:将所述意图测试集中的语句文本转化为对应的文本向量;基于所述语句文本和对应的文本向量,计算所述意图测试集中任意两个所述语句文本之间的意图相似度;其中,所述意图相似度为所述两个语句文本之间的语义相似度、长度相似度和编辑相似度之和;根据计算获得的所述意图相似度,对所述意图测试集中语句文本进行聚类,以在所述意图测试集的基础上将语句文本分类为多个意图子集。5.根据权利要求4所述意图分类方法,其特征在于,所述将所述意图测试集中的语句文本转化为对应的文本向量,包括:将所述...

【专利技术属性】
技术研发人员:徐卓扬孙行智赵越刘卓赵婷婷
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1