基于人工智能AI的文本聚类方法、装置及电子设备制造方法及图纸

技术编号:34899304 阅读:14 留言:0更新日期:2022-09-10 14:01
本申请涉及一种基于人工智能AI的文本聚类方法、装置及电子设备,方法包括:对待聚类文本集中各文本进行分词处理,以得到每个文本所包含的多个关键词;对于每个文本,将所包含的多个关键词按照预设方式进行拼接,以得到对应的至少一个候选词组;基于各文本对应的至少一个候选词组,对待聚类文本集进行分组,以得到多个文本集合;按照预设聚类方式,对多个文本集合分别进行聚类处理,以得到多个目标类簇。通过基于多个候选词组,对待聚类文本集进行分组,得到多个文本集合后,再对多个文本集合分别进行聚类处理,提高了文本聚类的效率,进而提高了对话机器人的搭建效率。本申请还能结合RPA和AI实现IA的文本聚类,从而减少文本聚类的人工成本。的人工成本。的人工成本。

【技术实现步骤摘要】
基于人工智能AI的文本聚类方法、装置及电子设备


[0001]本申请涉及机器人流程自动化及人工智能
,特别涉及一种基于人工智能AI的文本聚类方法、装置及电子设备。

技术介绍

[0002]机器人流程自动化(Robotic Process Automation,简称RPA),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
[0003]人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
[0004]智能自动化(Intelligent Automation,简称IA)是一系列从机器人流程自动化到人工智能的技术总称,将RPA与光学字符识别(Optical Character Recognition,OCR)、智能字符识别(Intelligent Character Recognition,ICR)、流程挖掘(Process Mining)、深度学习(Deep Learning,DL)、机器学习(Machine Learning,ML)、自然语言处理(Natural Language Processing,NLP)、语音识别(Automatic Speech Recognition,ASR)、语音合成(Text To Speech,TTS)、计算机视觉(Computer Vision,CV)等多种AI技术相结合,以创建能够思考、学习及自适应的端到端的业务流程,涵盖从流程发现、流程自动化,到通过自动而持续的数据收集、理解数据的含义,使用数据来管理和优化业务流程的整个历程。
[0005]目前,在人们日常生活中广泛应用的对话机器人,能够在用户提出问题后,按照预先设置好的问题和答案的对应关系,给出相应的答案。而在实际应用中,对于同一问题,不同的用户可能会有不同的表达方式。为了使对话机器人在用户以不同表达方式提出同一问题后,均能根据预先设置好的问题和答案的对应关系,准确给出该问题对应的答案,可以在对话机器人搭建过程中,将多个相同或相似问题视为同一问题,并为该问题设置统一的答案,这就需要对大量的问题文本进行文本聚类,将相同或相近的问题文本划分为同一类别。而文本聚类的效率,直接影响了对话机器人的搭建效率。

技术实现思路

[0006]本申请提供一种基于人工智能AI的文本聚类方法、装置及电子设备,以解决相关技术中的对话机器人搭建过程中,对大量的问题文本进行文本聚类时的聚类效率低的技术问题。
[0007]本申请第一方面实施例提供一种基于人工智能AI的文本聚类方法,该方法包括:对待聚类文本集中各文本进行分词处理,以得到每个文本所包含的多个关键词;对于每个文本,将所包含的多个关键词按照预设方式进行拼接,以得到对应的至少一个候选词组;基于各文本对应的至少一个候选词组,对待聚类文本集进行分组,以得到多个文本集合;按照预设聚类方式,对多个文本集合分别进行聚类处理,以得到多个目标类簇。
[0008]在一些实施例中,基于各文本对应的至少一个候选词组,对待聚类文本集进行分组,以得到多个文本集合,包括:确定各候选词组在预设统计指标下的统计值,并根据统计
值,对各候选词组进行筛选,得到多个目标候选词组;对于每个目标候选词组,将待聚类文本集中,包含目标候选词组中各关键词的文本的集合,确定为对应的文本集合。
[0009]在一些实施例中,按照预设聚类方式,对多个文本集合分别进行聚类处理,以得到多个目标类簇,包括:对多个文本集合分别进行初次聚类,以得到包括多个初始类簇的类簇集;基于类簇集,采用单遍Singlepass聚类算法,对多个文本集合进行二次聚类,以得到多个目标类簇。
[0010]在一些实施例中,类簇集中包括多个文本集合中的部分文本;基于类簇集,采用单遍Singlepass聚类算法,对多个文本集合进行二次聚类,以得到多个目标类簇,包括:对于多个文本集合中未归入类簇集的目标文本,确定目标文本与类簇集中当前包括的各初始类簇的簇心之间的第一相似度,并获取各第一相似度中的最高相似度;在最高相似度大于第一预设阈值的情况下,将目标文本归入最高相似度对应的初始类簇;在最高相似度不大于第一预设阈值的情况下,新建一个初始类簇,并将目标文本归入新建的初始类簇,以及将新建的初始类簇加入类簇集,以对类簇集进行更新;将多个文本集合中各文本均归入类簇集时,类簇集中包括的各初始类簇,确定为多个目标类簇。
[0011]在一些实施例中,将目标文本归入最高相似度对应的初始类簇之后,还包括:更新最高相似度对应的初始类簇的簇心;对于最高相似度对应的初始类簇中各文本,确定与更新后的簇心之间的第二相似度;将与更新后的簇心之间的第二相似度不大于第一预设阈值的文本,从最高相似度对应的初始类簇中移出。
[0012]在一些实施例中,对于每个文本,将所包含的多个关键词按照预设方式进行拼接,以得到对应的至少一个候选词组,包括:对于每个文本,将所包含的多个关键词中,任意相邻的两个关键词顺序拼接,以得到对应的至少一个候选词组。
[0013]在一些实施例中,对于每个文本,将所包含的多个关键词按照预设方式进行拼接,以得到对应的至少一个候选词组之前,还包括:对每个文本所包含的多个关键词进行命名实体识别,以获取各关键词的所属类别;将所属类别为预设类别的关键词替换为对应的预设类别,以对关键词进行更新。
[0014]在一些实施例中,按照预设聚类方式,对多个文本集合分别进行聚类处理,以得到多个目标类簇之后,还包括:对于每个目标类簇,确定其中各文本之间的第三相似度;将目标类簇中,与其它各文本之间的第三相似度均小于第二预设阈值的文本删除。
[0015]在一些实施例中,对待聚类文本集中各文本进行分词处理,以得到每个文本所包含的多个关键词之前,还包括:调用RPA机器人触发待聚类文本集的上传指令;基于上传指令,获取待聚类文本集。
[0016]本申请第二方面实施例提供一种基于人工智能AI的文本聚类装置,包括:分词模块,用于对待聚类文本集中各文本进行分词处理,以得到每个文本所包含的多个关键词;拼接模块,用于对于每个文本,将所包含的多个关键词按照预设方式进行拼接,以得到对应的至少一个候选词组;分组模块,用于基于各文本对应的至少一个候选词组,对待聚类文本集进行分组,以得到多个文本集合;聚类模块,用于按照预设聚类方式,对多个文本集合分别进行聚类处理,以得到多个目标类簇。
[0017]在一些实施例中,分组模块,包括:筛选单元,用于确定各候选词组在预设统计指标下的统计值,并根据统计值,对各候选词组进行筛选,得到多个目标候选词组;确定单元,
用于对于每个目标候选词组,将待聚类文本集中,包含目标候选词组中各关键词的文本的集合,确定为对应的文本集合。
[0018]在一些实施例中,聚类模块,包括:第一聚类单元,用于对多个文本集合分别进行初次聚类,以得到包括多个初始类簇的类簇集;第二聚类单元,用于基于类簇集,采用单遍Sing本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能AI的文本聚类方法,其特征在于,包括:对待聚类文本集中各文本进行分词处理,以得到每个所述文本所包含的多个关键词;对于每个所述文本,将所包含的多个所述关键词按照预设方式进行拼接,以得到对应的至少一个候选词组;基于各所述文本对应的所述至少一个候选词组,对所述待聚类文本集进行分组,以得到多个文本集合;按照预设聚类方式,对多个所述文本集合分别进行聚类处理,以得到多个目标类簇。2.根据权利要求1所述的方法,其特征在于,所述基于各所述文本对应的所述至少一个候选词组,对所述待聚类文本集进行分组,以得到多个文本集合,包括:确定各所述候选词组在预设统计指标下的统计值,并根据所述统计值,对各所述候选词组进行筛选,得到多个目标候选词组;对于每个所述目标候选词组,将所述待聚类文本集中,包含所述目标候选词组中各关键词的文本的集合,确定为对应的所述文本集合。3.根据权利要求1所述的方法,其特征在于,所述按照预设聚类方式,对多个所述文本集合分别进行聚类处理,以得到多个目标类簇,包括:对多个所述文本集合分别进行初次聚类,以得到包括多个初始类簇的类簇集;基于所述类簇集,采用单遍Singlepass聚类算法,对多个所述文本集合进行二次聚类,以得到所述多个目标类簇。4.根据权利要求3所述的方法,其特征在于,所述类簇集中包括所述多个文本集合中的部分文本;所述基于所述类簇集,采用单遍Singlepass聚类算法,对多个所述文本集合进行二次聚类,以得到所述多个目标类簇,包括:对于多个所述文本集合中未归入所述类簇集的目标文本,确定所述目标文本与所述类簇集中当前包括的各初始类簇的簇心之间的第一相似度,并获取各所述第一相似度中的最高相似度;在所述最高相似度大于第一预设阈值的情况下,将所述目标文本归入所述最高相似度对应的初始类簇;在所述最高相似度不大于所述第一预设阈值的情况下,新建一个初始类簇,并将所述目标文本归入新建的所述初始类簇,以及将新建的所述初始类簇加入所述类簇集,以对所述类簇集进行更新;将多个所述文本集合中各文本均归入所述类簇集时,所述类簇集中包括的各初始类簇,确定为所述多个目标类簇。5.根据权利要求4所述的方法,其特征在于,所述将所述目标文本归入所述最高相似度对应的初始类簇之后,还包括:更新所述最高相似度对应的初始类簇的簇心;对于所述最高相似度对应的初始类簇中各文本,确定与所述更新后的簇心之间的第二相似度;将与所述更新后的簇心之间的第二相似度不大于所述第一预设阈值的文本,从所述最高相似度对应的初始类簇中移出。6.根据权利要求1所述的方法,其特征在于,所述对于每个所述文本,将所包含的多个
所述关键词按照预设方式进行拼接,以得到对应的至少一个候选词组,包括:对于每个所述文本,将所包含的多个所述关键词中,任意相邻的两个关键词顺序拼接,以得到对应的所述至少一个候选词组。7.根据权利要求1

6任一项所述的方法,其特征在于,所述对于每个所述文本,将所包...

【专利技术属性】
技术研发人员:门波李艳丹
申请(专利权)人:来也科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1