System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,具体涉及一种文本的处理方法、回复内容的确定方法、装置和电子设备。
技术介绍
1、相关技术中,在检索以及智能对话等
,通常需要构建一个庞大的数据库,这样,当接收到用户需要查询的问题时,可以从所构建的数据库中进行查询,以得到相应的回复内容。然而,现有技术中,在构建数据库时,通常是通过人工在海量的数据中筛选出满足要求的回复内容添加至数据库,然而,采用此处方式进行文本筛选存在筛选效果较差的问题。
技术实现思路
1、本公开提供的一种文本的处理方法、回复内容的确定方法、装置和电子设备,可以简化文本数据的筛选过程。
2、第一方面,本公开实施例提供了一种文本的处理方法,包括:
3、获取多条文本;
4、对所述多条文本进行至少一次聚类,得到聚类信息,其中,所述聚类信息包括每次聚类得到的一个目标聚类结果,每个目标聚类结果包括至少两个聚类簇,且每个聚类簇包括至少一条文本,所述至少一次聚类中,每次聚类所对应的第一初始聚类中心不同;
5、若目标聚类结果中存在目标聚类簇,则将所述目标聚类簇对应的文本确定为目标文本,其中,所述目标聚类簇对应的文本中存在至少一条文本与所述目标文本数据库中的文本相似度低于第一阈值。
6、第二方面,本公开实施例提供了一种回复内容的确定方法,应用于服务端,所述方法包括:
7、获取历史对话信息和用户画像信息,其中,所述历史对话信息包括所述服务端与客户端之间的历史对话消息,所述用户画像信息包括所述
8、基于所述至少两个用户特征生成交叉特征,其中,所述交叉特征用于表征不同用户特征之间的相关性信息;
9、基于所述历史对话信息、所述至少两个用户特征和所述交叉特征,生成目标特征;
10、基于所述目标特征在目标文本数据库中进行匹配,得到目标文本,其中,所述目标文本为所述目标文本数据库中与所述目标特征匹配的文本,所述目标文本数据库包括:基于上述第一方面所述的文本的处理方法所生成的目标文本。
11、第三方面,本公开实施例提供了一种文本的处理装置,包括:
12、第一获取模块,用于获取多条文本;
13、聚类模块,用于对所述多条文本进行至少一次聚类,得到聚类信息,其中,所述聚类信息包括每次聚类得到的一个目标聚类结果,每个目标聚类结果包括至少两个聚类簇,且每个聚类簇包括至少一条文本,所述至少一次聚类中,每次聚类所对应的第一初始聚类中心不同;
14、确定模块,用于若目标聚类结果中存在目标聚类簇,则将所述目标聚类簇对应的文本确定为目标文本,其中,所述目标聚类簇对应的文本中存在至少一条文本与所述目标文本数据库中的文本相似度低于第一阈值。
15、第四方面,本公开实施例提供了一种回复内容的确定装置,应用于服务端,所述装置包括:
16、第二获取模块,用于获取历史对话信息和用户画像信息,其中,所述历史对话信息包括所述服务端与客户端之间的历史对话消息,所述用户画像信息包括所述客户端所对应的用户的至少两个用户特征;
17、第一生成模块,用于基于所述至少两个用户特征生成交叉特征,其中,所述交叉特征用于表征不同用户特征之间的相关性信息;
18、第二生成模块,用于基于所述历史对话信息、所述至少两个用户特征和所述交叉特征,生成目标特征;
19、匹配模块,用于基于所述目标特征在目标文本数据库中进行匹配,得到目标文本,其中,所述目标文本为所述目标文本数据库中与所述目标特征匹配的文本,所述目标文本数据库包括:基于上述第一方面所述的文本的处理方法所生成的目标文本。
20、第五方面,本公开实施例还提供了一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述第一方面和第二方面的方法步骤。
21、第六方面,本公开实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面和第二方面的方法步骤。
22、本公开实施例中,在对文本进行筛选的过程中,通过对所述多条文本进行至少一次聚类,得到与每次聚类对应的一个目标聚类结果,这样,可以直接从目标聚类结果中筛选出目标聚类簇,并将目标聚类簇中的所有文本确定为目标文本,以实现批量筛选文本,从而提高文本筛选的效率。此外,由于所筛选出的目标聚类簇对应的文本中存在至少一条文本与所述目标文本数据库中的文本相似度低于第一阈值,因此,所筛选出的文本与目标文本数据库中的文本的相似度较低,从而有利于丰富目标文本数据库中文本的多样性,以提高所筛选出的文本的质量。
本文档来自技高网...【技术保护点】
1.一种文本的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述多条文本进行至少一次聚类,得到聚类信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述K个第一初始聚类中心对所述多条文本进行多次迭代聚类,得到L个第一聚类簇,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述L个第一聚类簇生成所述第i次聚类对应的目标聚类结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述D个第二目标聚类簇对应D个聚类中心,所述基于所述D个第二目标聚类簇生成所述第i次聚类对应的目标聚类结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述M个第二初始聚类中心对所述D个聚类中心进行多次迭代聚类,得到至少M个目标聚类中心组,包括:
7.一种文本的确定方法,应用于服务端,其特征在于,所述方法包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述历史对话信息、所述至少两个用户特征和所述交叉特征,生成目标特征,包括:
9.一种文
10.一种回复内容的确定装置,应用于服务端,其特征在于,所述装置包括:
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法步骤。
...【技术特征摘要】
1.一种文本的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述多条文本进行至少一次聚类,得到聚类信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述k个第一初始聚类中心对所述多条文本进行多次迭代聚类,得到l个第一聚类簇,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述l个第一聚类簇生成所述第i次聚类对应的目标聚类结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述d个第二目标聚类簇对应d个聚类中心,所述基于所述d个第二目标聚类簇生成所述第i次聚类对应的目标聚类结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述m个第二初始聚类中心对所述d个聚类中心进行多次迭代聚类,得到至少m个目标聚...
【专利技术属性】
技术研发人员:杨森,蒋宁,陆全,肖冰,李宽,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。