基于人工智能AI的文本聚类方法、装置及电子设备制造方法及图纸

技术编号：34899304 阅读：14 留言：0更新日期：2022-09-10 14:01

本申请涉及一种基于人工智能AI的文本聚类方法、装置及电子设备，方法包括：对待聚类文本集中各文本进行分词处理，以得到每个文本所包含的多个关键词；对于每个文本，将所包含的多个关键词按照预设方式进行拼接，以得到对应的至少一个候选词组；基于各文本对应的至少一个候选词组，对待聚类文本集进行分组，以得到多个文本集合；按照预设聚类方式，对多个文本集合分别进行聚类处理，以得到多个目标类簇。通过基于多个候选词组，对待聚类文本集进行分组，得到多个文本集合后，再对多个文本集合分别进行聚类处理，提高了文本聚类的效率，进而提高了对话机器人的搭建效率。本申请还能结合RPA和AI实现IA的文本聚类，从而减少文本聚类的人工成本。的人工成本。的人工成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能AI的文本聚类方法、装置及电子设备

[0001]本申请涉及机器人流程自动化及人工智能
，特别涉及一种基于人工智能AI的文本聚类方法、装置及电子设备。

技术介绍

[0002]机器人流程自动化(Robotic Process Automation，简称RPA)，是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。
[0003]人工智能(Artificial Intelligence，简称AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
[0004]智能自动化(Intelligent Automation，简称IA)是一系列从机器人流程自动化到人工智能的技术总称，将RPA与光学字符识别(Optical Character Recognition，OCR)、智能字符识别(Intelligent Character Recognition，ICR)、流程挖掘(Process Mining)、深度学习(Deep Learning，DL)、机器学习(Machine Learning，ML)、自然语言处理(Natural Language Processing，NLP)、语音识别(Automatic Speech Recognition，ASR)、语音合成(Text To Speech，TTS)、计算机视觉(Computer Vision，CV)等多种AI技术相结合，以创建能够思考、学习及自适应的端到端的业务流程，涵盖从流程发现、流程...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能AI的文本聚类方法，其特征在于，包括：对待聚类文本集中各文本进行分词处理，以得到每个所述文本所包含的多个关键词；对于每个所述文本，将所包含的多个所述关键词按照预设方式进行拼接，以得到对应的至少一个候选词组；基于各所述文本对应的所述至少一个候选词组，对所述待聚类文本集进行分组，以得到多个文本集合；按照预设聚类方式，对多个所述文本集合分别进行聚类处理，以得到多个目标类簇。2.根据权利要求1所述的方法，其特征在于，所述基于各所述文本对应的所述至少一个候选词组，对所述待聚类文本集进行分组，以得到多个文本集合，包括：确定各所述候选词组在预设统计指标下的统计值，并根据所述统计值，对各所述候选词组进行筛选，得到多个目标候选词组；对于每个所述目标候选词组，将所述待聚类文本集中，包含所述目标候选词组中各关键词的文本的集合，确定为对应的所述文本集合。3.根据权利要求1所述的方法，其特征在于，所述按照预设聚类方式，对多个所述文本集合分别进行聚类处理，以得到多个目标类簇，包括：对多个所述文本集合分别进行初次聚类，以得到包括多个初始类簇的类簇集；基于所述类簇集，采用单遍Singlepass聚类算法，对多个所述文本集合进行二次聚类，以得到所述多个目标类簇。4.根据权利要求3所述的方法，其特征在于，所述类簇集中包括所述多个文本集合中的部分文本；所述基于所述类簇集，采用单遍Singlepass聚类算法，对多个所述文本集合进行二次聚类，以得到所述多个目标类簇，包括：对于多个所述文本集合中未归入所述类簇集的目标文本，确定所述目标文本与所述类簇集中当前包括的各初始类簇的簇心之间的第一相似度，并获取各所述第一相似度中的最高相似度；在所述最高相似度大于第一预设阈值的情况下，将所述目标文本归入所述最高相似度对应的初始类簇；在所述最高相似度不大于所述第一预设阈值的情况下，新建一个初始类簇，并将所述目标文本归入新建的所述初始类簇，以及将新建的所述初始类簇加入所述类簇集，以对所述类簇集进行更新；将多个所述文本集合中各文本均归入所述类簇集时，所述类簇集中包括的各初始类簇，确定为所述多个目标类簇。5.根据权利要求4所述的方法，其特征在于，所述将所述目标文本归入所述最高相似度对应的初始类簇之后，还包括：更新所述最高相似度对应的初始类簇的簇心；对于所述最高相似度对应的初始类簇中各文本，确定与所述更新后的簇心之间的第二相似度；将与所述更新后的簇心之间的第二相似度不大于所述第一预设阈值的文本，从所述最高相似度对应的初始类簇中移出。6.根据权利要求1所述的方法，其特征在于，所述对于每个所述文本，将所包含的多个
所述关键词按照预设方式进行拼接，以得到对应的至少一个候选词组，包括：对于每个所述文本，将所包含的多个所述关键词中，任意相邻的两个关键词顺序拼接，以得到对应的所述至少一个候选词组。7.根据权利要求1
‑
6任一项所述的方法，其特征在于，所述对于每个所述文本，将所包...

【专利技术属性】
技术研发人员：门波，李艳丹，
申请(专利权)人：来也科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人