智能文本数据处理方法和装置、计算设备、存储介质制造方法及图纸

技术编号:22531922 阅读:16 留言:0更新日期:2019-11-13 09:12
本发明专利技术实施例公开了一种智能文本数据处理方法和装置、计算设备、存储介质,该智能文本数据处理方法包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。本发明专利技术实施例能实现文本数据的自动处理。

Intelligent text data processing methods and devices, computing equipment, storage media

The embodiment of the invention discloses an intelligent text data processing method and device, a computing device and a storage medium. The intelligent text data processing method includes: displaying the corpus text import interface; acquiring the imported corpus text data when the corpus text import instruction triggered by the corpus text import interface is detected; displaying the corpus text on the corpus text classification interface The corpus classification results obtained by data classification include the corpus clustering set and the corresponding term identification of the corpus clustering set. The embodiment of the invention can realize the automatic processing of text data.

【技术实现步骤摘要】
智能文本数据处理方法和装置、计算设备、存储介质
本专利技术涉及计算机
,具体涉及一种智能文本数据处理方法和装置、计算设备、存储介质。
技术介绍
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。传统的客服机器人上线之前一般需要运营人员对大量的语料进行知识梳理,并在经过不断的修改优化后,将知识录入系统,知识录入完成后,运营人员还要对每一个知识点进行语料标注。上述技术方案存在以下不足之处:一、知识梳理和录入需要耗费大量的人力。二、由于标注量大,耗时长,客服机器人从立项到上线平均需要一个月(配备两个运营人员)。三、无法将海量的工单数据利用起来,所利用的语料有限。四、不同的运营人员存在认知差异,容易造成所梳理、录入、标注的知识不统一。综上,上述传统的技术方案无法实现文本数据的自动处理,因此需要耗费大量的人力和时间。故,有必要提出一种新的技术方案,以解决上述技术问题。
技术实现思路
本专利技术的目的在于提供一种智能文本数据处理方法和装置、计算设备、存储介质,其能实现文本数据的自动处理。为解决上述问题,本专利技术实施例的技术方案如下:第一方面,提供一种智能文本数据处理方法,包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。第二方面,提供一种智能文本数据处理方法,包括:对获取到的语料文本数据进行聚类,得到语料聚类集合;对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;将提取到的词语组合成与所述语料聚类集合对应的词条标识。第三方面,提供一种智能文本数据处理装置,包括:显示模块,用于显示语料文本导入界面;获取模块,用于当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;展示模块,用于在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。第四方面,提供一种智能文本数据处理装置,包括:聚类模块,用于对获取到的语料文本数据进行聚类,得到语料聚类集合;提取模块,用于对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;组合模块,用于将提取到的词语组合成与所述语料聚类集合对应的词条标识。第五方面,提供一种计算设备,所述计算设备包括处理器和存储器,所述存储器用于存储程序代码,所述计算设备运行时,所述处理器用于执行所述程序代码,以执行上述第一方面的文本数据处理方法。第六方面,提供一种存储有程序代码的计算机可读存储介质,所述程序代码用于使得计算机执行上述第一方面的文本数据处理方法。在本专利技术实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,以得到语料聚类集合,以及通过对出现频次较高的词语进行排列组合,以生成语料聚类集合的词条标识,因此可以将语料文本数据自动处理成词条标识和词条标识对应的语料聚类集合,即,可以实现语料文本数据的自动处理。本专利技术实施例中的技术方案由于实现了语料文本数据的自动化处理,因此无需耗费大量的人力,并且可以节省项目时间,基于此,可以将更多工单数据等语料文本数据利用起来,使得所得出的语料聚类集合及其词条标识能够涉及更广泛的内容,即,能够针对更加全面的内容来生成更加全面的客服信息(包括多种多样的词条标识和语料聚类集合),此外,由于对语料文本数据进行统一处理,因此可以减小处理结果的差异,避免因不同的运营人员的认知差异导致的处理结果不准确的情况。通过对语料文本数据进行自动处理,可以使得运营人员仅需做部分精编辑的处理,即,只需审核、分类、编辑答案以及少量标注,节省了人力。另外,在本专利技术实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,因此可以使得各语料聚类集合间的区分度较高,语料聚类集合内的数据相似度较好。另外,由于过滤掉语料文本数据中的无意义词语,并根据词语的出现频次选取预定数量出现频次最高的词语来排列组合,以组成语料聚类集合的词条标识,因此可以使得划分的知识较为细致,并且所生成的词条标识能够更加准确地反映语料聚类集合的内容。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的智能文本数据处理方法的一种运行模式的示意图。图2是本专利技术实施例提供的智能文本数据处理方法的另一种运行模式的示意图。图3是本专利技术实施例提供的智能文本数据处理方法的示意图。图4是本专利技术实施例提供的语料文本导入界面的示意图。图5是本专利技术实施例提供的语料文本分类界面的一种展示形式的示意图。图6是本专利技术实施例提供的语料文本分类界面的另一种展示形式的示意图。图7是本专利技术实施例提供的智能文本数据处理方法的流程图。图8是图7所示的智能文本数据处理方法中当检测到语料文本分类界面触发的编辑指令时,展示针对语料分类结果进行编辑的编辑结果的步骤的流程图。图9是图8中当检测到目录转移控件触发的目录转移指令时,展示语料聚类集合中的问题所转移的目标目录的步骤的流程图。图10是图8中当检测到删除控件触发的删除指令时,展示语料聚类集合中经过删除后剩余的问题的步骤的流程图。图11是图7所示的智能文本数据处理方法中对语料文本数据进行处理,得到语料分类结果的步骤的示意图。图12是图7所示的智能文本数据处理方法中对语料文本数据进行处理,得到语料分类结果的步骤的流程图。图13是图12中过滤语料聚类集合中的预定类型词语,得到文本过滤结果的步骤的流程图。图14是图12中将提取到的词语组合成与语料聚类集合对应的词条标识的步骤的流程图。图15是本专利技术实施例提供的智能文本数据处理的框图。图16是图15所示的智能文本数据处理装置中的处理模块的框图。图17是本专利技术实施例提供的计算设备的运行环境的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术实施例中,术语“模块”一般指:硬件、硬件和软件的组合、软件等。例如,模块可以是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序等。运行在处理器上的应用和该处理器二者都可以是模块。一个或多个模块可以位于一个计算机中和/或分布在两个或更多计算机之间。在本专利技术实施例中,“第一”、“第二”等仅为用于区分不同的对象,而不应对本专利技术实施例构成任何限定。自然语言处理(NatureLanguageprocessing,NL本文档来自技高网...

【技术保护点】
1.一种智能文本数据处理方法,其特征在于,包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。

【技术特征摘要】
1.一种智能文本数据处理方法,其特征在于,包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。2.根据权利要求1所述的智能文本数据处理方法,其特征在于,在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果之后,还包括:当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果。3.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括第一输入控件,所述第一输入控件为编辑所述词条标识的名称的控件;当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:当检测到所述第一输入控件触发的名称编辑指令时,展示所输入的所述词条标识的名称。4.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括第二输入控件,所述第二输入控件为编辑所述语料聚类集合的答复信息的控件;当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:当检测到所述第二输入控件触发的答复信息编辑指令时,展示所输入的所述语料聚类集合的答复信息。5.根据权利要求4所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括第三输入控件,所述第三输入控件为编辑所述答复信息的统一资源定位符的控件;当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:当检测到所述第三输入控件触发的统一资源定位符编辑指令时,展示所输入的所述统一资源定位符。6.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括目录转移控件,所述目录转移控件为转移所述语料聚类集合中的问题所对应的目录的控件;当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:当检测到所述目录转移控件触发的目录转移指令时,展示所述语料聚类集合中的问题所转移的目标目录。7.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括删除控件,所述删除控件为删除所述语料聚类集合中的问题的控件;当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:当检...

【专利技术属性】
技术研发人员:童丽霞马鸣
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1