一种基于柔性语义相似性度量的中文新闻故事分割方法技术

技术编号：10053945 阅读：345 留言：0更新日期：2014-05-16 02:39

本发明专利技术公开了一种基于柔性语义相似性度量的中文新闻故事分割方法，所述方法包括以下步骤：输入目标文集，对文集中的每个新闻故事脚本Ti进行分词；建立上下文关系图；通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵；通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义；使用所述柔性语义相似性对中文新闻故事进行分割。本发明专利技术提出的柔性度量方法能够更加合理的表示词语之间以及词语集合之间的语义相似性。实验结果表明，在中文新闻故事分割技术中，基于相同的分割准则，与传统的相似性度量方法相比，使用该柔性语义相似性度量方法能够将分割精度提高到3%-10%。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于柔性语义相似性度量的中文新闻故事分割方法
本专利技术涉及中文新闻故事分割领域，特别涉及一种基于柔性语义相似性度量的中文新闻故事分割方法。
技术介绍
随着网络的普及和发展，例如：广播新闻、会议记录、网上公开课之类的多媒体内容正在急速增加，现在急需一种有效的方法将这类多媒体数据进行自动的组织，以用于基于主题的文本检索和分析。一个多媒体的文档，例如一小时的广播新闻节目，通常由多个故事（Story）组成，为了进行高效率的语义检索，指导使用者去找到他们感兴趣主题的开始和结束是很重要的，同时，一个分割好的多媒体文档是进行主题跟踪[1]、分类和总结[2]等高层次的语义浏览的重要前提条件。新闻故事分割技术的目的就在于将新闻故事脚本分割成主题一致的故事。从技术上讲，新闻故事分割技术的效率与两个因素相关：一是词语之间的相似性以及此语句集合之间的相似性的度量方法；二是分割新闻故事脚本的准则。之前的许多工作都着眼于设计合理的分割准则，例如：TextTiling[3][4]最小归一化分割准则（MinimumNCuts）[5][6]、最大词汇连接准则[7]等。与广泛研究的分割准则相比...
一种基于柔性语义相似性度量的中文新闻故事分割方法

【技术保护点】

【技术特征摘要】
1.一种基于柔性语义相似性度量的中文新闻故事分割方法，其特征在于，所述方法包括以下步骤：(1)输入目标文集对文集中的每个新闻故事脚本Ti进行分词；(2)建立上下文关系图；(3)通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵；(4)通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义；(5)使用所述柔性语义相似性对中文新闻故事进行分割；所述建立上下文关系图的步骤具体为：1)依次读入每个新闻故事脚本，对所包含的词语进行词频统计；2)根据定义好的词频阈值，将高频词语和低频词语删除；3)将保留下的词语作为上下文关系图中的结点，其集合即为V；4)判断集合中的任意两个词语是否同时出现在某一新闻故事脚本中，且这两个词语之间的距离小于或等于距离阈值，如果是则在这两个词语之间建立边，边的集合即为E；如果否重新判断其他任意两个词语，直至整个集合中的词语都被遍历；5)边的权值SC由词语之间的权值simC(a,b)、词语本身的权值simC(a,a)表示；6)所述上下文关系图表示为G＝<V,E,SC>。2.根据权利要求1所述的方法，其特征在于，所述词语之间的权值simC(a,b)具体为：其中，freq(a,b)表示词语a和词语b同时出现的次数，freqmax＝max(i,j){freq(i,j)}表示词对(i,j)的频率最大值，ε是一个常数用以确保0≤simC(a,b)≤1。3.根据权利要求1所述的方法，其特征在于，所述词...

【专利技术属性】
技术研发人员：冯伟，万亮，聂学成，高晓妮，党建武，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人