【技术实现步骤摘要】
一种对话语料的热点抽取方法
本专利技术涉及的是中文信息处理
,具体涉及一种对话语料的热点抽取方法。
技术介绍
对话语料中的问答抽取是自然语言处理领域中非常重要的基本问题,针对这一基本问题进而产生的热点发现也是该领域非常有实用价值的研究方向。问答抽取作为自然语言处理领域的一种数据提纯方案是数据处理的基石。例如,在问答系统(FAQ)中,使用问答抽取的结果作为对话的候选样本;在对话管理中,使用问答热点去衡量对话质量,计算对话管理中的话题连续性和全局主题连贯度作为评价指标。在相关领域中,问答抽取热点发现一直都是自然语言生成(NLG)领域的重要组成部分。在统计学语言模型与语言分布模型的发展下,利用开源的Word2vec工具可以根据给定的语料,通过优化后的训练模型快速有效地将一个词语表达成向量形式,这样就可以将语义空间离散的问答数据给统一到同一维度下,从而可以进行对话相似度计算与对话可替换程度的参考标准。除此之外,利用开源的Kmeans算法可以将相同话题的对话聚类到一个类索引中,让话题聚集。目前在对话热点发现方法中 ...
【技术保护点】
1.一种对话语料的热点抽取方法,其特征在于,包括以下步骤:/n(1)、利用获取的初始数据,根据语料特性,归纳建立处理规则,并根据规则依赖预处理初始数据得到对话语料A,语料A中某一对话片段S形如:/nS
【技术特征摘要】
1.一种对话语料的热点抽取方法,其特征在于,包括以下步骤:
(1)、利用获取的初始数据,根据语料特性,归纳建立处理规则,并根据规则依赖预处理初始数据得到对话语料A,语料A中某一对话片段S形如:
S1[Q1,A1,A2,Q2,Q3,A3,Q4,A4,A5];
(2)、利用步骤(1)中获取的语料A,考虑数据特征,采用进栈思维将非结构化分散的问答合并为问与答的标准对,把分散的问答分别合并到一组得到集合B,过程形如:
L1{[Q1,(A1,A2)],[(Q2,Q3),A3],[Q4,(A4,A5)]}→Li[(Qi,Ai)];
(3)、从步骤(2)中所获得的标准问答对Li[(Qi,Ai)],根据数据特征以及反馈选取合并策略,将相同的问答对合并,并在合并后的问答对添加合并数目,得到结果集C,形如:
Li[(Qi,Ai),num],
其中Q代表问,A代表答,num代表频次;
(4)、根据步骤(3)中所除此合并得到的结果Li[(Qi,Ai),num],根据数据特征,并利用向量空间模型和同义词词林计算相似度将问答再次合并,合并的数目添加到问答集C中字段num上,把被合并的问题添加num字段后面;此时结果形如:
Li[(Qi,Ai),num,[Q0,…,Qk]];
所述的词林计算公式为
(5)、将步骤(4)所得的结果使用Kmeans算法聚类,把同一话题的问答收束到一个类别中,得到结果集合D,形如:
Li[Seed,Keyword,(Qi,Ai),num,[Q0…Qk]];
其中Seed为类索引号,Keyword为该类问答的关键词;
(6)、重复上述步骤(4)-步骤(5),直到问答聚类结果稳定且问答总条数不再因合并而减少为止;
(7)、将步骤(6)中所得的稳定合并的结果,以num为排序关键字排序,即类与类之间按照该类所有num的总和降序排序,在一个类中按照某一个问答对的num降序排序;
(8)、根据步骤(7)所得的结果;观察到热点倾向、热点数目以及热点散度和热点频次,结合上述结果,更新步骤(2)和步骤(3)中规则依赖、调整步骤(4)关于词林计算中公式所涉及的同义词词表并额外添加词权重、优化步骤(5)中Kmeans聚类中关键词抽取策略。
2.根据权利要求1所述的一种对话语料的热点抽取方法,其特征在于,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。