一种用于中文语句的聚类方法及装置制造方法及图纸

技术编号:19934074 阅读:24 留言:0更新日期:2018-12-29 04:30
本发明专利技术实施例公开了一种用于中文语句的聚类方法及装置,涉及互联网技术领域,能够缓减针对汉语句子的分析结果不佳的问题。本发明专利技术包括:建立训练集,所述训练集包括了用于进行聚类处理的候选语句;利用由词向量模型计算得到的词向量,获取所述训练集中各个候选语句的相似度;根据所得到的词向量和所述各个候选语句的相似度,对所述训练集中的候选语句进行聚类处理。本发明专利技术适用于针对中文语句的聚类处理。

【技术实现步骤摘要】
一种用于中文语句的聚类方法及装置
本专利技术涉及互联网
,尤其涉及一种用于中文语句的聚类方法及装置。
技术介绍
有关机器人自动问答系统中所应用的数学方法,其实很早就开始了理论研究,之后又由硅谷的几家网络技术公司,比如谷歌,开始实际的市场应用,目前国内的互联网公司也在加大投入,并不断推出新的方案。问句相似度计算方法,是机器人自动问答系统中的关键部分,而目前针对汉语句子的句法分析技术仍然有待提高。其中,问句相似度计算结果的准确率,将直接影响查询结果。目前常用的方案是,从已有的问题库中搜索相似问句,供用户自己选择。但是基于关键词搜索结果仅仅只是文字匹配,在语义相关性,发散性和多样性方面都有所欠缺。在问句相似度计算过程中,实现聚类的方法,一般是采用Lucene/Solr、FastText和Word2Vec等技术实现句子聚类。但是,采用Lucene/Solr作为搜索引擎技术基于文本匹配计算句子相似度来进行聚类,难以做到基于语义等更深层次的相关度匹配。而采用FastText和word2vec虽然能在词语聚类分类上效果显著,但是平均化成句向量doc2vec之后,受到噪音词影响很不稳定,聚类结果不准确。从而导致针对汉语句子的分析结果不佳。
技术实现思路
本专利技术的实施例提供一种用于中文语句的聚类方法及装置,能够缓减针对汉语句子的分析结果不佳的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:建立训练集,包括:读取前端服务器的问答日志,并从所述问答日志中提取历史数据,其中,所述前端服务器用于通过聊天界面与用户设备进行信息交互,从而形成对话场景;所述问答日志中包括了指定数量的对话场景,每个对话场景包括至少一个提问语句和至少一个回答语句;根据所述历史数据生成训练集,其中,所述训练集包括了用于进行聚类处理的候选语句。所述训练集包括了用于进行聚类处理的候选语句;利用由词向量模型计算得到的词向量,获取所述训练集中各个候选语句的相似度;根据所得到的词向量和所述各个候选语句的相似度,对所述训练集中的候选语句进行聚类处理。在传统的聊天机器人应用方面,常用的聚类工具往往采用Lucene/Solr作为搜索引擎技术基于文本匹配计算句子相似度来进行聚类,不能做到基于语义等更深层次的相关度匹配。本专利技术基于深度学习技术实现,具体通过FastText和Word2Vec训练出的词向量,结合文本匹配的相似度、以及进一步的关键词权重等多方面考量,对语句进行聚类,从而得到更加准确的聚类结果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种可能的系统架构示意图;图2为本专利技术实施例提供的方法流程示意图;图3为本专利技术实施例提供的装置的结构示意图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。下文中将详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本实施例中的方法流程,具体可以在一种如图1所示的系统上执行,该系统包括:前端服务器、后台服务器和数据库。其中,前端服务器主要用于:具体用于接收用户设备发送的搜索词,在实际应用中,用户设备发送的提问语句和回答语句,主要由用户通过用户设备的输入设备比如:键盘、触摸屏、鼠标等输入用户设备。后台服务器主要用于:执行本实施例中的主要流程,从而实现语句的聚类处理和聚类处理之前的预处理工作(比如本实施例中的步骤S1-S3)。本实施例中所揭示的前端服务器以及后台服务器,具体可以是服务器、工作站、超级计算机等设备,或者是由多个服务器组成的一种用于数据处理的服务器集群系统。需要说明的是,在实际应用中,前端服务器和后台服务器通常可以集成在同一个服务器集群中,即通过同一个服务器集群同时承担前端服务器和后台服务器的功能,并用于执行本实施例所提供的流程。数据库主要用于:用于存储存储产品信息、电子商务平台、在线购物平台等在日常运行中生成的每日高频搜索词、用户的搜索日志等,以及用于存储前端服务器与用户设备进行信息交互中所产生的问答日志,其中,问答日志具体包括了客服与顾客之间通过聊天界面输入的提问语句和回答语句,在本实施例中,“语句”可以理解为由多个字符或者词组所组成的文本信息。本实施例中所揭示的数据库,具体可以是一种Redis数据库或者其他类型的分布式数据库、关系型数据库等,具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备,或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群系统。客服人员具体可以通过员工终端,经由前端服务器与用户设备进行信息交互,客服人员与顾客的问答语句可以显示在聊天界面中,本实施例中的两个设备之间实现问答、聊天的具体方式,可以采用目前已有的在线聊天技术。本实施例中所揭示的用户设备具体可以实做成单独一台装置,或整合于各种不同的媒体数据播放装置中,诸如机顶盒、移动电话、平板电脑(TabletPersonalComputer)、膝上型电脑(LaptopComputer)、多媒体播放器、数字摄影机、个人数字助理(personaldigitalassistant,简称PDA)、移动上网装置(MobileInternetDevice,MID)或可穿戴式设备(WearableDevice)等。本专利技术实施例提供一种用于中文语句的聚类方法,如图2所示,包括:S1、建立训练集。其中,所述训练集包括了用于进行聚类处理的候选语句。在本实施例中,建立训练集所需的数据,依照具体的业务场景获取,这些数据的来源,可以是预先已经准备好的样本库,例如,建立训练集的具体方式,包括:提取样本库中的样本数据,所述样本数据中包括了指定数量的对话场景,每个对话场景包括至少一个提问语句和至少一个回答语句。也可以是,在实际应用中,前端服务器与用户终端进行本文档来自技高网
...

【技术保护点】
1.一种用于中文语句的聚类方法,其特征在于,包括:建立训练集,所述训练集包括了用于进行聚类处理的候选语句;利用由词向量模型计算得到的词向量,获取所述训练集中各个候选语句的相似度;根据所得到的词向量和所述各个候选语句的相似度,对所述训练集中的候选语句进行聚类处理。

【技术特征摘要】
1.一种用于中文语句的聚类方法,其特征在于,包括:建立训练集,所述训练集包括了用于进行聚类处理的候选语句;利用由词向量模型计算得到的词向量,获取所述训练集中各个候选语句的相似度;根据所得到的词向量和所述各个候选语句的相似度,对所述训练集中的候选语句进行聚类处理。2.根据权利要求1所述的方法,其特征在于,所述建立训练集,包括:读取前端服务器的问答日志,并从所述问答日志中提取历史数据,其中,所述前端服务器用于通过聊天界面与用户设备进行信息交互,从而形成对话场景;所述问答日志中包括了指定数量的对话场景,每个对话场景包括至少一个提问语句和至少一个回答语句;根据所述历史数据生成训练集,其中,所述训练集包括了用于进行聚类处理的候选语句。3.根据权利要求1或2所述的方法,其特征在于,还包括:在获取所述训练集中各个候选语句的相似度之前,对所述历史数据中的各个语句进行分词处理得到语词集合;通过对所述词语集合进行词频计算得到词频列表,所述词频列表中记录了各个语句中的词组的出现频率。4.根据权利要求3所述的方法,其特征在于,所述获取所述训练集中各个候选语句的相似度,包括:对所得到的词向量进行平均化计算,之后根据平均化计算的结果,确定各个候选语句中词组的欧氏距离;根据各个候选语句中词组的欧氏距离,确定各个候选语句之间的相似度,并统计得到其中的每个候选语句的平均相似度分值。5.根据权利要求4所述的方法,其特征在于,所述根据所得到的词向量和所述各个候选语句的相似度,对所述训练集中的候选语句进行聚类处理,包括:提取各个提问语句的平均相似度分值;根据所述各个提问语句的平均相似度分值,确定各个提问语句的相似问语句。6.根据权利要求5所述的方法,其特征在于,还包括:每一个提问语句作为标准问,且与至少一个相似问对应,对于每一个标准问,进行如下处理:基于标准问中的每个词组的词向量,计算所对应的相似问中所有词组的欧氏距离,并得到所述标准问中的所有的词组的最大相似度分值;根据所述标准问中的所有的词组最大相似度分值,确定所述标准问与各个相似问之间的最大相似度分值;将各个相似问按照最大相似度分值由高至低的顺序排列。7.根据权利要求6所述的方法,其特征在于,还包括:对于最大相似度分值相同的相似问,进行如下处理:根据预设关键词和所述预设关键词的权重值,计算最大相似度分值相同的各...

【专利技术属性】
技术研发人员:余腾陈曦李菁程进兴
申请(专利权)人:苏宁易购集团股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1