当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于柔性语义相似性度量的中文新闻故事分割方法技术

技术编号:10053945 阅读:317 留言:0更新日期:2014-05-16 02:39
本发明专利技术公开了一种基于柔性语义相似性度量的中文新闻故事分割方法,所述方法包括以下步骤:输入目标文集,对文集中的每个新闻故事脚本Ti进行分词;建立上下文关系图;通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;使用所述柔性语义相似性对中文新闻故事进行分割。本发明专利技术提出的柔性度量方法能够更加合理的表示词语之间以及词语集合之间的语义相似性。实验结果表明,在中文新闻故事分割技术中,基于相同的分割准则,与传统的相似性度量方法相比,使用该柔性语义相似性度量方法能够将分割精度提高到3%-10%。

【技术实现步骤摘要】
一种基于柔性语义相似性度量的中文新闻故事分割方法
本专利技术涉及中文新闻故事分割领域,特别涉及一种基于柔性语义相似性度量的中文新闻故事分割方法。
技术介绍
随着网络的普及和发展,例如:广播新闻、会议记录、网上公开课之类的多媒体内容正在急速增加,现在急需一种有效的方法将这类多媒体数据进行自动的组织,以用于基于主题的文本检索和分析。一个多媒体的文档,例如一小时的广播新闻节目,通常由多个故事(Story)组成,为了进行高效率的语义检索,指导使用者去找到他们感兴趣主题的开始和结束是很重要的,同时,一个分割好的多媒体文档是进行主题跟踪[1]、分类和总结[2]等高层次的语义浏览的重要前提条件。新闻故事分割技术的目的就在于将新闻故事脚本分割成主题一致的故事。从技术上讲,新闻故事分割技术的效率与两个因素相关:一是词语之间的相似性以及此语句集合之间的相似性的度量方法;二是分割新闻故事脚本的准则。之前的许多工作都着眼于设计合理的分割准则,例如:TextTiling[3][4]最小归一化分割准则(MinimumNCuts)[5][6]、最大词汇连接准则[7]等。与广泛研究的分割准则相比,现阶段的大多数工作都使用简单的基于重复的硬性相似性度量方式,即相同词语之间的相似性为1,不同词语之间的相似性为0。很明显这种基于重复的硬性相似性度量方法忽略了不同词语之间潜在的语义相关性,使得语义关系度量不准确,得到的中文新闻故事分割结果不准确。因此需要提出一种更加合理的语义相似性度量方式以助于提高分割的效率和精度。
技术实现思路
本专利技术提供了一种基于柔性语义相似性度量的中文新闻故事分割方法,本专利技术能够合理的表示词语之间的语义相似性,并且可以显著提高中文新闻故事分割技术的精度,详见下文描述:一种基于柔性语义相似性度量的中文新闻故事分割方法,所述方法包括以下步骤:(1)输入目标文集对文集中的每个新闻故事脚本Ti进行分词;(2)建立上下文关系图;(3)通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;(4)通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;(5)使用所述柔性语义相似性对中文新闻故事进行分割。所述建立上下文关系图的步骤具体为:1)依次读入每个新闻故事脚本,对所包含的词语进行词频统计;2)根据定义好的词频阈值,将高频词语和低频词语删除;3)将保留下的词语作为上下文关系图中的结点,其集合即为V;4)判断集合中的任意两个词语是否同时出现在某一新闻故事脚本中,且这两个词语之间的距离小于或等于距离阈值,如果是则在这两个词语之间建立边,边的集合即为E;如果否重新判断其他任意两个词语,直至整个集合中的词语都被遍历;5)边的权值SC由词语之间的权值simC(a,b)、词语本身的权值simC(a,a)表示;6)所述上下文关系图表示为G=V,E,SC。所述词语之间的权值simC(a,b)具体为:其中,freq(a,b)表示词语a和词语b同时出现的次数,freqmax=max(i,j){freq(i,j)}表示词对(i,j)的频率最大值,ε是一个常数用以确保0≤simC(a,b)≤1。所述词语本身的权值simC(a,a)=1。所述通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵的步骤具体为:1)定义上下文关系图中词语之间的语义相似性为simS(a,b),满足以下三条准则:词语与它本身的相似性为1,即simS(a,a)=1;simS(a,b)与simC(a,b)正相关;simS(a,b)与他们邻居之间的相似性成正比;2)定义语义相似性的迭代传播过程:其中,u~a,v~b表示u和v在上下文关系图中分别是词语a和词语b的邻居节点,Z是归一化因子,c是控制因子,表示第t次迭代时词语a和词语b的语义相似性,表示第t-1次迭代时词语a和词语b的语义相似性,表示初始化;3)使用快速排序算法求解2)中定义的关系式,获取语义相关性,对每两个词语都求取语义相关性,若干个语义相关性组成了柔性语义相关性矩阵,该相关性矩阵记为SS。所述通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义的步骤具体为:其中si和sj分别表示句子,||fi||和||fj||分别表示两个句子词频向量的二范数,T为转置。本专利技术提供的技术方案的有益效果是:本专利技术通过快速排序算法提出一种非监督式的语义相似性度量方法,对传统的余弦相似性进行改进以使之能够融入词语之间的潜在语义关系,并利用该柔性语义相似性改进中文新闻故事分割技术。本专利技术提出的柔性度量方法能够更加合理的表示词语之间以及词语集合之间的语义相似性。实验结果表明,在中文新闻故事分割技术中,基于相同的分割准则,与传统的相似性度量方法相比,使用该柔性语义相似性度量方法能够将分割精度提高到3%-10%。附图说明图1为基于柔性语义相似性的中文新闻故事分割技术的流程图;图2为上下文关系图的示意图;图3为在标准数据集CCTV和TDT2上故事之间和故事内部句子相似性比值的对比图;图4为在标准数据集CCTV-75-s上中文新闻故事分割算法在100组随机参数上使用三种不同相似性度量方式的结果对比图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。语义相似性的度量是自然语言处理中一个极具挑战性的研究课题。现有的方法主要分为两类:监督式和非监督式。监督式的方法主要包括WordNet[8][9]和DISCO。WordNet用于度量任意两个英文词语之间的相似性。WordNet依靠标识好的文集,将名次、动词、形容词和副词进行层次划分,划分的依据是语言专家对这些词的语义定义。由于WordNet的简洁性和有效性,WordNet已经被广泛应用到自然语言处理任务中。与WordNet类似,DISCO作为另一种常用的监督式方法,用于检索任意给定的两个词之间的相似性。与WordNet相比,DISCO支持更丰富的语种,例如:英语、德语、法语、西班牙语等。监督式的方法能够直接被用于提前定义好的语言空间,不需要任何额外的计算,同时,监督式的方法也几乎覆盖了全部的常用词。不过,监督式的方法依赖于语言学家的知识,词语之间相似性的度量通常由主观意识所定义,同时,监督式的方法不适用于基于特定文集的应用。非监督式的方法主要包括PMI、LSA和pLSA。PMI通过查询网站搜索引擎获取到的统计数据,统计两个词同时出现在同一个网页中的次数,次数越多,那么这两个词的PMI得分就越高。LSA也是一种非监督式的语义相似性度量方法,它融入了人类学习知识的机理去获取词语或者文本段落之间的相本文档来自技高网...
一种基于柔性语义相似性度量的中文新闻故事分割方法

【技术保护点】

【技术特征摘要】
1.一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述方法包括以下步骤:(1)输入目标文集对文集中的每个新闻故事脚本Ti进行分词;(2)建立上下文关系图;(3)通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;(4)通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;(5)使用所述柔性语义相似性对中文新闻故事进行分割;所述建立上下文关系图的步骤具体为:1)依次读入每个新闻故事脚本,对所包含的词语进行词频统计;2)根据定义好的词频阈值,将高频词语和低频词语删除;3)将保留下的词语作为上下文关系图中的结点,其集合即为V;4)判断集合中的任意两个词语是否同时出现在某一新闻故事脚本中,且这两个词语之间的距离小于或等于距离阈值,如果是则在这两个词语之间建立边,边的集合即为E;如果否重新判断其他任意两个词语,直至整个集合中的词语都被遍历;5)边的权值SC由词语之间的权值simC(a,b)、词语本身的权值simC(a,a)表示;6)所述上下文关系图表示为G=<V,E,SC>。2.根据权利要求1所述的方法,其特征在于,所述词语之间的权值simC(a,b)具体为:其中,freq(a,b)表示词语a和词语b同时出现的次数,freqmax=max(i,j){freq(i,j)}表示词对(i,j)的频率最大值,ε是一个常数用以确保0≤simC(a,b)≤1。3.根据权利要求1所述的方法,其特征在于,所述词...

【专利技术属性】
技术研发人员:冯伟万亮聂学成高晓妮党建武
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1