一种领域问答系统咨询的快速可增量聚类方法技术方案

技术编号:11731882 阅读:266 留言:0更新日期:2015-07-15 03:56
本发明专利技术公开了一种领域问答系统咨询的快速可增量聚类方法,该方法基于将离线聚类和在线聚类相结合的聚类框架,通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类的步骤;进而利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。本发明专利技术提供的聚类方法,系统响应快、精度符合实际应用需求,有效性和准确性高。

【技术实现步骤摘要】

本专利技术涉及人工智能计算机领域中的数据挖掘和自然语言处理,特别涉及领域问答系统等文本客服咨询系统的用户咨询聚类方法。
技术介绍
在领域问答系统等大量的自然语言应用中,有一个基本的而又共同的问题:在系统中出现大量的用户咨询历史,用户咨询由一个由短文本构成(以下简称短文本语料集或用户咨询语料集),如何将其中的咨询历史按照某种相似度聚集成不同的类,并且将聚类结果用户领域问答系统中,通过聚类结果来识别和帮助问答系统理解用户的咨询。在搜索引擎领域、百度知道、领域问答系统、智能客服等中,有大量的用户咨询问题历史,如何对用户的搜索历史、咨询历史进行分类,通过对用户咨询的聚类,可以提高自动问答系统、智能客服系统的效率和准确率。传统的聚类算法非常多,主要包括层次聚类算法、K-means算法等。但随着大数据时代的到来,任何一个领域的数据呈数量级的增长,因此目前聚类存在以下几个问题:1)数据量大,直接利用聚类,算法效率很低,无法满足应用的需要;2)用户咨询问题中都大量的语义噪声,这些噪声是导致聚类效果不好的一个主要的原因;3)汉语句子语义相似度计算是决定聚类结果好坏的一个最主要的问题,而汉语中同词不同义、不同词同义、词义与领域相关性等都是决定汉语句子相似度计算的问题;4)数据中有大量的相同的咨询,如何让这些相同的咨询不重复进行聚类;5)由于聚类算法的效率比较低,因此如果对所有数据进行聚类,需要花大量的时间,这无法满足应用的要求;针对上述几个问题,本专利技术提出并且实现了一种多离线聚类与在线聚类相结合的聚类方法。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供了一种领域问答系统咨询的快速可增量聚类方法。技术方案:为达到上述目的,本专利技术提供的一种领域问答系统咨询的快速可增量聚类方法,该方法基于将离线聚类和在线聚类相结合的聚类框架,包括以下步骤:1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。优选的,所述的步骤1)包括以下步骤:步骤11)咨询语义预处理,包括:(1)删除句子中的特殊符号;(2)进行大小写转换,将句子中的英文统一转化成小写;(3)通过建立语义无关词的双数组Trie树的结构,识别并删除句子中的语义无关词;(4)利用词类词典建立双数组Trie树的词典结构,通过向后最大匹配来匹配句子中的词,用词类名称来替换所匹配到的属于该词类的词条;步骤12)咨询的特征向量的提取:利用包括TF-IDF特征、词性特征和词类特征的特征进行特征提取,形成词的特征向量;步骤13)咨询去重:选取咨询数据中特征向量相同的句子中的一条参与聚类,并建立重复咨询索引;步骤14)咨询相似度图的建立:给定两条咨询S1和S2,通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),建立相似度图SimGraph;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;步骤15)利用以下聚类算法对相似度图SimGraph进行聚类:(1)初始化将相似图中的所有顶点都各自作为一个类,对N条咨询共有N个类cluster(i);(2)遍历相似度图SimGraph,查找图中相似度最大的两个类cluster(i)和cluster(j),并且该相似度要大于聚类的阈值β;如果找不到则聚类终止;(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k);(4)更新相似度图,将类cluster(i)和类cluster(j)删除,同时在图中加入新类cluster(k),同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为: sim ( cluster ( k ) , cluster ( m ) ) = | cluster ( i ) | * sim ( cluster ( i ) , cluster ( m ) ) + | cluster ( j ) | 本文档来自技高网
...
一种领域问答系统咨询的快速可增量聚类方法

【技术保护点】
一种领域问答系统咨询的快速可增量聚类方法,其特征在于该方法基于将离线聚类和在线聚类相结合的聚类框架,包括以下步骤:1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2‑gram相似度和搭配相似度;2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。

【技术特征摘要】
1.一种领域问答系统咨询的快速可增量聚类方法,其特征在于该方法基于将离线聚
类和在线聚类相结合的聚类框架,包括以下步骤:
1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词
典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似
度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征
融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似
度;
2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类
和在线聚类结果进行合并,生成聚类结果。
2.根据权利要求1所述的领域问答系统咨询的快速可增量聚类方法,其特征在于:
所述的步骤1)包括以下步骤:
步骤11)咨询语义预处理,包括:
(1)删除句子中的特殊符号;
(2)进行大小写转换,将句子中的英文统一转化成小写;
(3)通过建立语义无关词的双数组Trie树的结构,识别并删除句子中的语义无关
词;
(4)利用词类词典建立双数组Trie树的词典结构,通过向后最大匹配来匹配句子
中的词,用词类名称来替换所匹配到的属于该词类的词条;
步骤12)咨询的特征向量的提取:利用包括TF-IDF特征、词性特征和词类特征的特征
进行特征提取,形成词的特征向量;
步骤13)咨询去重:选取咨询数据中特征向量相同的句子中的一条参与聚类,并建立重
复咨询索引;
步骤14)咨询相似度图的建立:给定两条咨询S1和S2,通过多特征的相似度融合算法
计算咨询间的相似度Sim(S1,S2),建立相似度图SimGraph;所述基于多特征融合的相
似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
步骤15)利用以下聚类算法对相似度图SimGraph进行聚类:
(1)初始化将相似图中的所有顶点都各自作为一个类,对N条咨询共有N个类cluster(i);
(2)遍历相似度图SimGraph,查找图中相似度最大的两个类cluster(i)和cluster(j),并
且该相似度要大于聚类的阈值β;如果找不到则聚类终止;
(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k);
(4)更新相似度图,将类cluster(i)和类cluster(j)删除,同时在图中加入新类cluster(k),
同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为:
sim ( cluster ( k ) , cluster ( m ) ) = | cluster ( i ) | * sim ( cluster ( i ) , cluster ( m ) ) + | cluster ( j ) | * sim ( cl...

【专利技术属性】
技术研发人员:马健刘亮亮吴健康李洪梅
申请(专利权)人:江苏科技大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1