一种用于中文语句的聚类方法及装置制造方法及图纸

技术编号：19934074 阅读：24 留言：0更新日期：2018-12-29 04:30

本发明专利技术实施例公开了一种用于中文语句的聚类方法及装置，涉及互联网技术领域，能够缓减针对汉语句子的分析结果不佳的问题。本发明专利技术包括：建立训练集，所述训练集包括了用于进行聚类处理的候选语句；利用由词向量模型计算得到的词向量，获取所述训练集中各个候选语句的相似度；根据所得到的词向量和所述各个候选语句的相似度，对所述训练集中的候选语句进行聚类处理。本发明专利技术适用于针对中文语句的聚类处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于中文语句的聚类方法及装置
本专利技术涉及互联网
，尤其涉及一种用于中文语句的聚类方法及装置。
技术介绍
有关机器人自动问答系统中所应用的数学方法，其实很早就开始了理论研究，之后又由硅谷的几家网络技术公司，比如谷歌，开始实际的市场应用，目前国内的互联网公司也在加大投入，并不断推出新的方案。问句相似度计算方法，是机器人自动问答系统中的关键部分，而目前针对汉语句子的句法分析技术仍然有待提高。其中，问句相似度计算结果的准确率，将直接影响查询结果。目前常用的方案是，从已有的问题库中搜索相似问句，供用户自己选择。但是基于关键词搜索结果仅仅只是文字匹配，在语义相关性，发散性和多样性方面都有所欠缺。在问句相似度计算过程中，实现聚类的方法，一般是采用Lucene/Solr、FastText和Word2Vec等技术实现句子聚类。但是，采用Lucene/Solr作为搜索引擎技术基于文本匹配计算句子相似度来进行聚类，难以做到基于语义等更深层次的相关度匹配。而采用FastText和word2vec虽然能在词语聚类分类上效果显著，但是平均化成句向量doc2vec之后,受到噪音词影响很不稳定，聚类结果不准确。从而导致针对汉语句子的分析结果不佳。
技术实现思路
本专利技术的实施例提供一种用于中文语句的聚类方法及装置，能够缓减针对汉语句子的分析结果不佳的问题。为达到上述目的，本专利技术的实施例采用如下技术方案：建立训练集，包括：读取前端服务器的问答日志，并从所述问答日志中提取历史数据，其中，所述前端服务器用于通过聊天界面与用户设备进行信息交互，从而形成对话场景；所述问答日志中包括...

【技术保护点】
1.一种用于中文语句的聚类方法，其特征在于，包括：建立训练集，所述训练集包括了用于进行聚类处理的候选语句；利用由词向量模型计算得到的词向量，获取所述训练集中各个候选语句的相似度；根据所得到的词向量和所述各个候选语句的相似度，对所述训练集中的候选语句进行聚类处理。

【技术特征摘要】
1.一种用于中文语句的聚类方法，其特征在于，包括：建立训练集，所述训练集包括了用于进行聚类处理的候选语句；利用由词向量模型计算得到的词向量，获取所述训练集中各个候选语句的相似度；根据所得到的词向量和所述各个候选语句的相似度，对所述训练集中的候选语句进行聚类处理。2.根据权利要求1所述的方法，其特征在于，所述建立训练集，包括：读取前端服务器的问答日志，并从所述问答日志中提取历史数据，其中，所述前端服务器用于通过聊天界面与用户设备进行信息交互，从而形成对话场景；所述问答日志中包括了指定数量的对话场景，每个对话场景包括至少一个提问语句和至少一个回答语句；根据所述历史数据生成训练集，其中，所述训练集包括了用于进行聚类处理的候选语句。3.根据权利要求1或2所述的方法，其特征在于，还包括：在获取所述训练集中各个候选语句的相似度之前，对所述历史数据中的各个语句进行分词处理得到语词集合；通过对所述词语集合进行词频计算得到词频列表，所述词频列表中记录了各个语句中的词组的出现频率。4.根据权利要求3所述的方法，其特征在于，所述获取所述训练集中各个候选语句的相似度，包括：对所得到的词向量进行平均化计算，之后根据平均化计算的结果，确定各个候选语句中词组的欧氏距离；根据各个候选语句中词组的欧氏距离，确定各个候选语句之间的相似度，并统计得到其中的每个候选语句的平均相似度分值。5.根据权利要求4所述的方法，其特征在于，所述根据所得到的词向量和所述各个候选语句的相似度，对所述训练集中的候选语句进行聚类处理，包括：提取各个提问语句的平均相似度分值；根据所述各个提问语句的平均相似度分值，确定各个提问语句的相似问语句。6.根据权利要求5所述的方法，其特征在于，还包括：每一个提问语句作为标准问，且与至少一个相似问对应，对于每一个标准问，进行如下处理：基于标准问中的每个词组的词向量，计算所对应的相似问中所有词组的欧氏距离，并得到所述标准问中的所有的词组的最大相似度分值；根据所述标准问中的所有的词组最大相似度分值，确定所述标准问与各个相似问之间的最大相似度分值；将各个相似问按照最大相似度分值由高至低的顺序排列。7.根据权利要求6所述的方法，其特征在于，还包括：对于最大相似度分值相同的相似问，进行如下处理：根据预设关键词和所述预设关键词的权重值，计算最大相似度分值相同的各...

【专利技术属性】
技术研发人员：余腾，陈曦，李菁，程进兴，
申请(专利权)人：苏宁易购集团股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人