文本聚类方法及计算机可读介质技术

技术编号:44963732 阅读:43 留言:0更新日期:2025-04-12 01:34
本申请公开了一种文本聚类方法及计算机可读介质,所述方法包括:对待聚类文本集进行特征提取,得到提问文本特征和回答文本特征;根据提问文本特征和回答文本特征进行投影聚类处理,得到候选提问聚类矩阵和候选回答聚类矩阵;根据候选提问聚类矩阵和候选回答聚类矩阵构建邻接矩阵,并根据邻接矩阵对提问文本特征和回答文本特征进行重构,得到重构提问特征和重构回答特征;根据提问文本特征、回答文本特征、重构提问特征和重构回答特征进行二次投影聚类处理,得到待聚类文本集对应的目标提问聚类结果和目标回答聚类结果。本申请技术方案通过特征重构使得具有相似回答的提问的语义空间会更相近,从而提高了文本聚类的准确性。

【技术实现步骤摘要】

本申请属于自然语言处理,具体涉及一种文本聚类方法及计算机可读介质


技术介绍

1、目前银行服务逐渐由线下网点面对面服务方式转换到线上,由此产生了大量的电话办理以及在线聊天对话。通话录音可以通过asr转化为对话文本语料,通过对对话文本聚类分析,可以给这些对话文本打上标签,为后续的客服意图分析、业务流程挖掘等,更好的满足客户需求服务客户。

2、现有的聚类分析方法,通过计算文本相似度的方式来对文本进行分类,没有充分利用对话文本中的丰富信息,容易导致本属于同一类但文字描述差异较大的两个文本被划分到不同类别,从而使得聚类的准确性降低。

3、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本申请的目的在于提供一种文本聚类方法及计算机可读介质,以提高文本聚类的准确性。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请本文档来自技高网...

【技术保护点】

1.一种文本聚类方法,其特征在于,包括:

2.根据权利要求1所述的文本聚类方法,其特征在于,所述邻接矩阵包括提问邻接矩阵和回答邻接矩阵;根据所述邻接矩阵对所述提问文本特征和所述回答文本特征进行重构,得到重构提问特征和重构回答特征,包括:

3.根据权利要求2所述的文本聚类方法,其特征在于,将所述提问文本特征与所述邻接提问特征进行加权拼接,得到所述重构提问特征,包括:

4.根据权利要求2所述的文本聚类方法,其特征在于,将所述回答文本特征与所述邻接回答特征进行加权拼接,得到所述重构回答特征,包括:

5.根据权利要求1所述的文本聚类方法,其特征在于...

【技术特征摘要】

1.一种文本聚类方法,其特征在于,包括:

2.根据权利要求1所述的文本聚类方法,其特征在于,所述邻接矩阵包括提问邻接矩阵和回答邻接矩阵;根据所述邻接矩阵对所述提问文本特征和所述回答文本特征进行重构,得到重构提问特征和重构回答特征,包括:

3.根据权利要求2所述的文本聚类方法,其特征在于,将所述提问文本特征与所述邻接提问特征进行加权拼接,得到所述重构提问特征,包括:

4.根据权利要求2所述的文本聚类方法,其特征在于,将所述回答文本特征与所述邻接回答特征进行加权拼接,得到所述重构回答特征,包括:

5.根据权利要求1所述的文本聚类方法,其特征在于,所述邻接矩阵包括提问邻接矩阵和回答邻接矩阵;根据所述候选提问聚类矩阵和所述候选回答聚类矩阵构建邻接矩阵,包括:

6.根据权利要求1所述的文本聚类方法,其特征在于,根据所述提问文本特征、所述回答文本特征、所述重构提问...

【专利技术属性】
技术研发人员:余显学吴磊岳华明
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1