本发明专利技术实施例公开了一种分类处理方法、装置、服务器和存储介质。该方法包括:依据知识图谱,对用户主诉描述信息的类别信息进行修正;将所述用户主诉描述信息作为特征数据,以及修正后的类别信息作为标注数据,对初始网络模型进行训练,得到分类模型。本发明专利技术实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正,避免了人工标注以及人工标注导致的误差,降低了用户主诉描述信息的标注成本,提高了标注数据的准确率,从而提高了分类模型的分类准确率,降低分类成本。
【技术实现步骤摘要】
分类处理方法、装置、服务器和存储介质
本专利技术实施例涉及信息处理
,尤其涉及一种分类处理方法、装置、服务器和存储介质。
技术介绍
随着互联网技术的快速发展,用户可以通过互联网上的问询平台进行咨询,问询平台首先会根据用户的问询需求进行分类,再向用户推荐相应类别的回复者,为用户提供专业的问询服务。因此正确地分类对于用户问询十分重要。目前,线下的问询中心可以通过人工判断,为用户提供专业的问询分类服务。例如,实体医院中可以通过分诊台或挂号室为患者提供分诊服务。或者线上的互联网问询平台中,用户需要在网页或者手机客户端中输入自己的主要诉求,通过后台专业的工作人员对用户的诉求进行人工分类;或者后台依据用户诉求中关键词之间的映射关系来进行智能分类,例如后台依据用户诉求中疾病、症状等关键词之间的映射关系来进行智能分诊。然而,人工的分类方式对于工作人员的专业知识掌握水平要求较高,专业知识的掌握范围要求较广,人工雇佣成本较高,且人工分类错误率较高。此外由于中文的表述方式多样化,基于关键词的智能分类方式无法对表述歧义以及分类冲突的情况进行准确定位,分类的准确率较低。
技术实现思路
本专利技术实施例提供了一种分类处理方法、装置、服务器和存储介质,能够降低分类模型训练中样本数据的标注成本,提高分类的准确率。第一方面,本专利技术实施例提供了一种分类处理方法,包括:依据知识图谱,对用户主诉描述信息的类别信息进行修正;将所述用户主诉描述信息作为特征数据,以及修正后的类别信息作为标注数据,对初始网络模型进行训练,得到分类模型。第二方面,本专利技术实施例提供了一种分类处理装置,包括:类别信息修正模块,用于依据知识图谱,对用户主诉描述信息的类别信息进行修正;分类模型训练模块,用于将所述用户主诉描述信息作为特征数据,以及修正后的类别信息作为标注数据,对初始网络模型进行训练,得到分类模型。第三方面,本专利技术实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的分类处理方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的分类处理方法。本专利技术实施例基于知识图谱,通过对用户主诉描述信息的类别信息的修正,将用户主诉描述信息作为特征数据,利用修正后的类别信息作为标注数据,对分类模型进行训练,得到分类模型。本专利技术实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正,避免了人工标注以及人工标注导致的误差,降低了用户主诉描述信息的标注成本,提高了标注数据的准确率,从而提高了分类模型的分类准确率,降低分类成本。附图说明图1为本专利技术实施例一提供的一种分类处理方法的流程图;图2为本专利技术实施例二提供的一种分类处理方法的流程图;图3为本专利技术实施例三提供的一种分类处理方法的流程图;图4为本专利技术实施例三提供的基于类别校验规则的修正来优化分类模型的流程示例图;图5为本专利技术实施例四提供的一种分类处理方法的流程图;图6为本专利技术实施例五提供的一种分类处理方法的流程图;图7为本专利技术实施例六提供的一种分类处理装置的结构示意图;图8为本专利技术实施例七提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术实施例,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术实施例相关的部分而非全部结构。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的一种分类处理方法的流程图,本实施例可适用于训练用户主诉描述信息的分类模型以及基于分类模型进行分类的情况,该方法可由一种分类处理装置来执行,该装置可以采用软件和/或硬件的方式实现,优选是配置于服务器。该方法具体包括如下:S110、依据知识图谱,对用户主诉描述信息的类别信息进行修正。在本专利技术具体实施例中,用户主诉描述信息是指用户所提出的问询请求中的描述信息,用于描述用户所提出的问题。用户主诉描述信息中可以包括各个领域中的任何实体信息,例如可以包括医疗领域中的人群、症状或疾病等实体信息,用于疾病的问诊。用户主诉描述信息可以是用户通过智能终端进行文本或语音输入并上传至互联网问询平台的。对于上传至互联网问询平台上的用户主诉描述信息,互联网上的任何用户都可以对用户主诉描述信息进行解答,或者服务器可以将用户主诉描述信息推送给专业人员账户进行解答,从而为用户提供问询服务,用户主诉描述信息和回答信息构成问答对。本实施例中,基于对用户所提出问题解答的准确性,优选将用户主诉描述信息发送给专业人员所属账户进行解答,例如用户主诉描述信息所属领域的专业人员,甚至是该领域内用户主诉描述信息所属研究方向的专业人员,以便为用户提供更专业更准确的解答。相应的,有必要对用户主诉描述信息进行合理分类,基于某一维度的主诉描述信息作为分类标准,对用户主诉描述信息进行分类,确定用户主诉描述信息的类别信息。例如,针对医疗问诊场景,应该对用户主诉描述信息进行分诊,即类别信息为科室信息,以便正确科室的医生账户对用户主诉描述信息进行问诊;再例如,在教育场景中,应该对用户主诉描述信息进行学科分类,以便正确学科的老师账户对对用户主诉描述信息进行解答。具体的,本实施例在分类模型的训练之前首先进行样本数据的准备,即从网络中获取海量的问答对,其中,问答对可以包括用户主诉描述信息、用户信息、回答信息以及回复者信息等。将问答对中的用户主诉描述信息作为特征数据,基于已有回答内容的问答对,可以将回答信息或回复者信息中的关键词作为特征数据的标注数据,自动构成带有标注的训练样本数据,避免人工对用户主诉描述信息的大量标注工作。示例性的,在医疗分诊场景中,从互联网上获取海量的医疗问答数据,其主要来自于一些专业的网络问诊平台。根据医疗问答数据中的回复者信息,筛选出至少具有科室信息的有效医疗问答数据,从而将有效医疗问答数据中的问题文本即用户主诉描述信息作为特征数据,利用关联的回复者信息中的科室信息对用户主诉描述信息进行标注,作为特征数据的标注数据,构成训练样本。本实施例中,知识图谱是指结构化的语义知识库,用于以符号形式描述真实世界中的概念及其相本文档来自技高网...
【技术保护点】
1.一种分类处理方法,其特征在于,包括:/n依据知识图谱,对用户主诉描述信息的类别信息进行修正;/n将所述用户主诉描述信息作为特征数据,以及修正后的类别信息作为标注数据,对初始网络模型进行训练,得到分类模型。/n
【技术特征摘要】
1.一种分类处理方法,其特征在于,包括:
依据知识图谱,对用户主诉描述信息的类别信息进行修正;
将所述用户主诉描述信息作为特征数据,以及修正后的类别信息作为标注数据,对初始网络模型进行训练,得到分类模型。
2.根据权利要求1所述的方法,其特征在于,在所述依据知识图谱,对用户主诉描述信息的类别信息进行修正之前,还包括:
从所述用户主诉描述信息所属的用户问答对中,获取回复所述用户主诉描述信息的回复者信息;
依据所述用户主诉描述信息的回复者信息,对所述用户主诉描述信息进行类别信息标注。
3.根据权利要求1所述的方法,其特征在于,所述依据知识图谱,对用户主诉描述信息的类别信息进行修正,包括:
依据类别校验规则,对所述用户主诉描述信息的类别信息进行修正;其中,所述类别校验规则是依据所述知识图谱中各节点之间的关联关系确定。
4.根据权利要求3所述的方法,其特征在于,所述依据所述类别校验规则,对所述用户主诉描述信息的类别信息进行修正,包括:
若检测到所述用户主诉描述信息关联有至少两种类别信息,则确定所述至少两种类别信息在所述用户主诉描述信息中关联的关键词语义;
依据所述关键词语义,确定所述至少两种类别信息的优先级;
依据所述至少两种类别信息的优先级,对所述用户主诉描述信息的类别信息进行修正。
5.根据权利要求3所述的方法,其特征在于,所述依据所述类别校验规则,对所述用户主诉描述信息的类别信息进行修正,包括:
若检测到所述用户主诉描述信息的类别信息不满足所述知识图谱中各节点之间的关联关系,则依据所述类别校验规则,将该类别信息修正为所述知识图谱中与所述用户主诉描述信息关联的节点对应的类别信息。
6.根据权利要求1所述的方法,其特征在于,在所述将所述用户主诉描述信息作为特征数据,以及修正后的类别信息作为标注数...
【专利技术属性】
技术研发人员:段立生,何源川,王锴睿,王鑫磊,张亚鹏,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。