一种短文本间语义距离的计算机辅助计算方法技术

技术编号:7633508 阅读:205 留言:0更新日期:2012-08-03 21:32
一种短文本间语义距离的计算方法属于汉语文字信息处理技术领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算:在对文本进行包括去除网页标记、变异短文本处理以及分词处理以后得到的一系列词串,根据词语相似度矩阵对两个短文本中的对应的词串进行语义对齐,根据对其过程中的词语调节次数得到了句法结构距离;再利用《同义词词林扩展版》中词语的五级结构,同时引入中文关键词和近义词概念,以便在语义对齐的基础上,用词语为单位,对各词语进行包括插入、删除或替换等五种操作,加入权重后的各种操作次数之和的权值来表示词语串之间的单元语义距离。本发明专利技术的文本语义距离的相对正确率要高于经典的编辑距离算法。

【技术实现步骤摘要】

本专利技术涉及一 种新型短文本语义距离计算方法及系统,属于文字信息处理领域。
技术介绍
当前,随着自主媒体的兴起和参与式传媒环境的发展,网络传播内容、传播方式造成了社会范围的变革。信息的生产成为以网民为中心的模式,网民不仅有制作和发布信息的能力,而且具有与信息的使用者和阅读者进行交互的便捷条件,使信息不仅“可读”,而且“可写”和“可交互”。因此,通过对网络上的信息尤其是用户发布的内容进行分析,可以了解当前社会的热点话题以及人们对各种社会现象的观点和立场。在线评论通常开始于某个公共事件或热点话题,在表达内容方面有很强的主观性,能够反映出公众对事件的态度。在线评论具有传播快速、影响广泛、观点聚集等特点,对其进行分析研究对于政府及企业都具有重要意义政府通过对舆论进行监控,可以合理引导舆论,维护社会稳定;企业通过对产品评论进行数据分析,可以掌握产品的最新评论,促进产品更新。因此,分析研究在线评论成为分析网络舆情的重要方面,引起政府、学术界和产业界的高度重视。短信、微博、论坛评论和新闻评论等应用所产生的文本,这些文本长度一般比较短,我们称之为短文本(Short Text)。针对用户不断增长的需求,出现了很多针对短文本的信息过滤系统,包括舆情监测系统、个性化信息推荐系统、产品质量调查系统等。不论是何种系统,都必须解决一个基本的问题,即文本聚类。其基本过程是计算短文本之间的相似度,将相似度高(距离小)的文本聚集到一个主题中。其中文本相似度计算是文本聚类中一个最关键的技术问题。由于文本距离与文本相似度在文本计算中属于同一个概念,数值上二者是相反的关系,本专利技术在以后论述中不作区别,统称为文本距离。传统的短文本距离计算方法多从词语或句法结构的角度去衡量句子间的距离,如基于单元语义的计算方法、基于编辑距离的计算方法等。基于单元语义的计算方法仅考虑文本的词语而忽略其组织结构,而基于编辑距离的方法只考虑结构,而忽略词语的意义,并且对于不同长度的文本计算存在较大误差。专利技术人通过综合考虑短文本间在单元语义和句法结构两方面上的差别程度,克服了传统方法在短文本距离计算上的局限性。
技术实现思路
本专利技术的目的在于针对网络上的短文本,提出一种短文本语义距离计算方法与系统。本专利技术综合考虑短文本间在句法结构和单元语义两方面上的差别程度,提出了一种综合的语义距离计算方法,克服了传统方法在短文本距离计算上的局限性。其特征在于,是在计算机中依次按以下步骤实现的步骤(I)计算机初始化设置ICTCLAS分词算法模块和文本距离计算模块基于《同义词词林扩展版》的汉语语料库输入以句子形式表述的两类不同的短文本,所述短文本是指包括短信、微博、论坛评论和新闻评论在内的应用文本中以句子形式出现的在线评论文本的原始数据; 步骤(2)文本预处理对步骤(1)中的两类不同的在线评论文本按以下步骤进行预处理,以规范文本数据格式步骤(2. I)去除包括<html>、〈body〉、<div>在内的html网页标记,提取出html页面中的评论内容数据;步骤(2. 2)对步骤(2. I)得到的评论内容数据进行变异短文本处理所述变异短文本是指用新的符号、口语化词表达常规词义的文本,所述变异短文本处理是指对所述变异短文本中的词语的拼音、简写体、数字及标点符号进行统一规范化处理以及删除特殊符号,步骤(2. 3)利用所述ICTCLAS分词算法对经过步骤(2. 2)得到的文本进行分词处理,得到一系列的文本的词串;步骤(3)利用所述文本距离计算模块分别计算两类所述不同短文本间的句法结构距离和单元语义距离,步骤(3. I)按以下步骤计算所述两类不同短文本间的句法结构距离,以度量短文本间在句法结构上的差别程度步骤(3. I. I)计算位于所述两类不同短文本中的词串W1和词串W2的词语相似度矩阵将两类所述不同短文本中的较短文本以较长文本为标准进行语义对齐,所述语义对齐是指通过计算两类所述不同短文本中任意词语间的相似度以所述《同义词词林扩展版》中各个以五级结构表达的词语的8位语义代码为基础,计算两类算数不同短文本中任意两个词语的相似度Sim(A,B),A、B分别表示任意的两个词语「00221 Sim(A, B) = max sim{a, b)L 」a&P ,b&QP为A词语的语义集合,Q为B词语的语义集合;a为语义集合P中的任意语义,b为语义集合B中的任意语义,a e P, b e Q,Sim (a, b) = n/ (N+l)η为a、b之间的语义代码开始不同的级数,N为编码的位数,从而得到两类所述不同短文本的词语相似度矩阵矩阵的行为所述词串W1中的每个词语,列为所述词串W2中的每个词语,矩阵的元素为所得到的词语相似度Sim(A,B),步骤(3. I. 2)设所述词串W1的长度小于所述词串W2的长度,Ien (W1) < Ien (W2),则以所述较长词串W2为标准,根据步骤(3. I. I)得到的词语相似度矩阵,进行语义对齐,其步骤如下步骤(3. I. 2. I)选择所述词语相似度矩阵中词语相似度最大值,其所对应的两个词语作为相似对,步骤(3. I. 2. 2)把步骤(3. I. 2. I)中所述词串W1所对应的词语放在所述词串W2对应的词语的位置上,在所述相似度矩阵中的对应词语的行、列的元素值全部置零,步骤(3. I. 2. 3)重复步骤(3. I. 2. I)和步骤(3. I. 2. 2),直到所述词语相似度矩阵中所有元素为零,所述词串W1经过语义对齐,词语顺序调整为w/,比较词串K的词语,计算所述词串W1和所述词串W2的句法结构距离a a = t* λ其中t为所述词串W1和所述词串W2语义对齐的次数,λ为语义对齐的权值步骤(3. 2)在步骤(3. I)语义对齐的基础上,按下式计算两个所述不同类短文本间的单元语义距离,所述单元语义距离是指对两个短文本在单元语义上的差别程度,其步骤如下 步骤(3. 2. I)设定以下五种编辑操作的权值ω i为插入或删除关键词的操作权值,ω2为插入或删除非关键词的操作权值,Y i为替换关键词的操作权值,Y2为替换非关键词的操作权值,Θ为对近义词的替换代价,所述关键词是指两类所述不同短文本中的全部名词、代词、动词和形容词,所述非关键词是指除名词、代词、动词和形容词以外,包括数词、量词、副词在内的其他词性的词语,在λ、ω” ω2、Υι、γ2、Θ间的相互关系中,设定语义对齐的代价小于插入或删除的代价,表示为O1 > λ关键词操作的代价大于非关键词操作的代价,表示为> ω2, y ! > y2近义词的操作代价小于非近义词的操作代价,表示为λ > θ,ωι> θ,ω2>θ, Y ! > θ, Y2 > θ,所述近义词是根据所述《同义词词林扩展版》对词语进行同义词扩展而得到的词语,步骤(4)对步骤(3)得到的句法结构距离和单元语义距离进行归一化,步骤如下步骤(4. I)通过对两类所述不同的短文本间的任意两个词串的句法结构距离、单元语义距离的操作次数进行统计,得到了以下不同编辑操作次数的最大值和最小值max (t),min (t) ;max (a^,min (a^ ;max (a本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:杨震王来涛赖英旭高凯明张龙伯段立娟范科峰
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术