短语聚类方法、装置、设备及存储介质制造方法及图纸

技术编号:25835521 阅读:32 留言:0更新日期:2020-10-02 14:16
本发明专利技术涉及人工智能,公开了一种短语聚类方法、装置、设备及存储介质。该方法包括:获取待处理的短语;对字符组合中每个字符进行向量化处理,得到每个字符的字符向量,并按照短语中的字排序对所有字符向量进行排序组合,得到短语对应的短语向量;对短语向量依次进行卷积计算与池化处理,得到卷积向量;对卷积向量赋予权重,以及对赋予权重后的卷积向量进行回归计算,得到结果向量;将结果向量输入预置聚类模型进行分类处理,得到短语对应的种类。此外,本发明专利技术还涉及区块链技术,用户的隐私信息可存储于区块链中。在本发明专利技术实施例中,解决新出现的短语无法被分类的技术问题,提高了深度学习处理文本的能力。

【技术实现步骤摘要】
短语聚类方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种短语聚类方法、装置、设备及存储介质。
技术介绍
随着信息化不断深入,人们的数据不断扩展,越来越多的人使用网络办理自己的事务。在保险单的问题咨询时,人工网络答复人们的问题,成本不仅高而且效率也不高,使人们开始不断寻找新的方法去解决网络自动答复的问题。因此不仅需要减少回复人们对保险单的疑问的成本,还需要能准确答复人们的问题。在传统的解决方案中,使用词频特征对短语进行表示,根据词频来反映语意内容不能准确反映真实语意。因此兴起一种新的处理方式,使用开源Word2Vec工具对文本内容的处理简化为K维向量空间中的向量运算,使用向量空间上的相似度可以用来表示文本语义上的相似度。但是这种新兴的处理方法无法解决在语料词库之外的词语的分类问题,需要能解决新的词语分类问题的方案。
技术实现思路
本专利技术的主要目的在于解决现有短语分类方式无法对新词语进行分类的技术问题。本专利技术第一方面提供了一种短语聚类方法,包括:获取待处理的短语,并基于所述短语本文档来自技高网...

【技术保护点】
1.一种短语聚类方法,其特征在于,所述短语聚类方法包括:/n获取待处理的短语,并基于所述短语查询预置短语语料库;/n若所述预置短语语料库中不存在所述短语时,对所述短语进行字拆分处理,得到所述短语的字符组合;/n对所述字符组合中每个字符进行向量化处理,得到每个字符的字符向量,并按照所述短语中的字排序将得到的所有字符向量进行排序组合,得到所述短语的短语向量;/n对所述短语向量进行卷积计算与池化处理,得到卷积向量;/n对所述卷积向量赋予权重,以及对赋予权重后的所述卷积向量进行回归计算,得到结果向量;/n将所述结果向量输入预置聚类模型进行分类处理,得到所述短语对应的种类。/n

【技术特征摘要】
1.一种短语聚类方法,其特征在于,所述短语聚类方法包括:
获取待处理的短语,并基于所述短语查询预置短语语料库;
若所述预置短语语料库中不存在所述短语时,对所述短语进行字拆分处理,得到所述短语的字符组合;
对所述字符组合中每个字符进行向量化处理,得到每个字符的字符向量,并按照所述短语中的字排序将得到的所有字符向量进行排序组合,得到所述短语的短语向量;
对所述短语向量进行卷积计算与池化处理,得到卷积向量;
对所述卷积向量赋予权重,以及对赋予权重后的所述卷积向量进行回归计算,得到结果向量;
将所述结果向量输入预置聚类模型进行分类处理,得到所述短语对应的种类。


2.根据权利要求1所述的短语聚类方法,其特征在于,所述对所述字符组合中每个字符进行向量化处理,得到每个字符的字符向量包括:
基于短语语料库与字符向量转换表之间的对应关系,从预置存储盘中获取与所述短语语料库对应的字符向量转换表;
根据所述字符组合中的字符查询所述字符向量转换表,得到所述字符组合中每个字符对应的字符向量。


3.根据权利要求2所述的短语聚类方法,其特征在于,所述按照所述短语中的字排序对将得到的所有字符向量进行排序组合,得到所述短语的短语向量包括:
将所有所述字符向量按照所述短语的字排序依次排序组合,得到字符向量序列,并计算所述字符向量序列的字节长度;
判断所述字符向量序列的字节长度是否超过预置模板长度;
若超过预置模板长度,则以所述字符向量序列中第一排序的字符向量为始点,向后截取序列段,得到所述短语的短语向量,其中,所述序列段的字节长度等于所述预置模板长度;
若未超过预置模板长度,则通过零向量填充的方式,在所述字符向量序列的最后插入所述零向量,直至所述字符向量序列的长度等于所述预置模板长度为止,得到所述短语的短语向量。


4.根据权利要求1所述的短语聚类方法,其特征在于,所述对所述短语向量进行卷积计算与池化处理,得到卷积向量包括:
获取预置滤波器集合,依次使用所述滤波器集合中的滤波器对所述短语向量进行处理,得到所有所述滤波器对应的滤波向量;
对所有所述滤波向量进行最大池化处理,得到所有所述滤波器对应的最大池化向量;
根据所述滤波器集合中滤波器的排序,将所有所述滤波器对应的最大池化向量进行排序组合,生成卷积向量。


5.根据权利要求1-4中任一项所述的短语聚类方法,其特征在于,所述对所述卷积向量赋予权重,以及对赋予权重后的所述卷积向量进行回归计算,得到结果向量包括:
获取预置权重矩阵,将所述卷积向量与所述权重矩阵进行乘积,得到权重向量;
使用回归函数对所述权重向量中的每个元素进行处理...

【专利技术属性】
技术研发人员:勾震马丹曾增烽
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1