The invention discloses a method and system for topic segmentation based on dialogue context information, the method comprises the following steps: collecting multiple rounds of dialogue data, random sampling for obtaining the training data set; vector treatment to the training data set, the data set for training corpus vector space corresponding to the; in order for the corpus of vector space sequence of sentences; calculate the correlation of adjacent between sentences; according to the correlation between adjacent sentences recognition several rounds of dialogue topic boundary data, form the topic segmentation model, multi dialogue topic segmentation data. The method of topic segmentation of the invention has the advantages of high accuracy, strong reliability and stability.
【技术实现步骤摘要】
基于上下文相关性的对话话题分割方法和系统
本专利技术涉及数据挖掘领域,具体为基于对话上下文中词语和句子的相关性构建对话话题追踪系统。
技术介绍
人机对话系统的核心任务就是根据历史对话信息生成应答语句。而完成该任务的关键是话题追踪。话题追踪负责检测整个对话过程中的话题转变,实现话题分割,在系统生成应答语句过程中能够根据当前话题生成相关语句或话题引导语句,使对话系统不会出现“所答非所问”。话题分割的依据当然是对话系统中聊天内容,它为查找和生成应答语句提供非常的重要参考。但是,这些历史对话语料信息有其自身的特殊性,有些聊天语句很短,有些聊天语句中的指代过于严重,有些聊天语句不符合标准的语言规范等等。目前,依据聊天语料进行话题分割的工作是基于相似度、边界和概率图模型等方法实现的,计算过程中通过计算对话句子上下文之间的相似度来判定话题的边界。而忽略了上下文的相关性关系。相似度虽然能在一定程度上计算出上下文的语义关系,但是文本前后句子的关系除了相似关系还有上下位分等级的关系和相关关系。相似关系并不是相关关系,概念不一致。相似性表示词汇具有某种可替代性,有某些相同内涵特征或者属 ...
【技术保护点】
一种基于上下文信息的对话话题分割方法,其特征在于,包括以下步骤:步骤1:采集多轮对话数据,对其进行随机抽样获取训练数据集;步骤2:对所述训练数据集进行向量化处理,得到所述训练数据集相应的语料向量空间;步骤3:对所述语料向量空间整理为句子序列;步骤4:计算相邻句子之间的相关性;步骤5:根据相邻句子之间的相关性识别多轮对话数据的话题边界,形成话题分割模型,实现多轮对话数据的话题分割。
【技术特征摘要】
1.一种基于上下文信息的对话话题分割方法,其特征在于,包括以下步骤:步骤1:采集多轮对话数据,对其进行随机抽样获取训练数据集;步骤2:对所述训练数据集进行向量化处理,得到所述训练数据集相应的语料向量空间;步骤3:对所述语料向量空间整理为句子序列;步骤4:计算相邻句子之间的相关性;步骤5:根据相邻句子之间的相关性识别多轮对话数据的话题边界,形成话题分割模型,实现多轮对话数据的话题分割。2.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述步骤2中所述向量化处理采用Word2Vec工具。3.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述步骤4具体包括:步骤4.1:根据所述句子序列,以句子对作为滑窗的基本单位,获取相邻句子对;步骤4.2:对获取的每一组相邻句子对,分别进行关键词提取;具体地,本实施例采用TF-IDF算法或过滤规则;步骤4.3:计算两个句子中所有关键词之间的相关性;具体地,假设相邻两个句子分别为S1和S2,将S2中的每一个词语与S1中的所有词语进行相关性计算;步骤4.4:计算相邻句子对之间的相关性,具体方法为:设S1和S2为相邻两个句子,将S2中的某个关键词与S1中的所有关键词相关性的最大值作为该关键词与句子S1的相关性,S2中所有关键词与句子S1的相关性的均值作为S1和S2两个句子的相关性。4.如权利要求3所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述步骤4.3具体包括:步骤4.3.1:构造目标词语wj的Huffman编码;步骤4.3.2:将所述Huffman编码与语料向量空间中目标词语wj的词向量相结合,得到新的词向量空间;步骤4.3.3:获取目标词语wj的Huffman编码路径序列C;步骤4.3.4:对于任意需要计算与目标词语wj的相关性的词语wi,计算词语wi词向量与编码路径序列上节点的相关性;步骤4.3.5:求得词语wi词向量在各个节点相关性后,将整条路径上计算得出的相关性相乘,得到两个词语的似然概率,即两个词语的相关性。5.如权利要求1所述的一种基于上下文信息的对话话题分割方法,其特征在于,所述词语wi词向量与编码路径序列上节点的...
【专利技术属性】
技术研发人员:王红,何天文,胡晓红,于晓梅,周莹,房有丽,孟广婷,狄瑞彤,刘海燕,王露潼,王倩,宋永强,
申请(专利权)人:山东师范大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。