一种基于命名实体识别的新闻搜索结果相似度计算方法技术

技术编号:8959484 阅读:255 留言:0更新日期:2013-07-25 19:02
本发明专利技术提出一种基于命名实体识别的新闻搜索结果相似度计算方法,该发明专利技术采用命名实体识别技术对新闻搜索结果建立多个关键词子集,对应每个子集建立一个词项矩阵,并在各个词项矩阵中分别计算相似度,最后将多个相似度加权得到最终相似度。本发明专利技术突出了新闻的特征要素,能够有效降低词项矩阵的维数,减少相似度计算时不同类别词项之间的相互影响。本发明专利技术具有基于命名实体识别提取关键词、基于关键词子集建立多个词项矩阵、基于多个词项矩阵计算加权相似度三个特点。

【技术实现步骤摘要】

本专利技术涉及,主要应用于搜索引擎的聚类及文本分类应用,属于计算机科学

技术介绍
目前搜索引擎是用户在互联网上获取信息的主要途径,给人们带来了极大的便利。但是,随着互联网上信息量的增加,搜索引擎返回的检索结果日益繁杂,人们需要在大量的检索结果中筛选才能获取真正想要的信息。因此,一些研究人员采用信息检索中的聚类技术对搜索结果进行聚类,将其按类目呈现给用户,提高了搜索结果的可浏览性。搜索结果聚类技术的原则是最小化类内相似度,最大化类间相似度。因此,搜索结果的相似度是搜索结果聚类技术的基础。传统的搜索结果相似度度量方法是基于向量空间模型(Vector Space Model)的,即将搜索结果表示成一组关键词的集合,分析每个词在各个搜索结果出现的次数以及整个搜索结果集合中出现的次数,进而利用这些词频信息将搜索结果建模成一个词项矩阵,并利用向量之间的几何距离(如余弦距离,Jaccard距离)计算搜索结果的相似度。上述方法构建的词项矩阵中存在高维稀疏问题,并且在计算相似度的时候词与词之间会互相影响导致区分度下降。针对以上问题,本专利技术提出了,该专利技术通过命名实体识别技术对新闻搜索结果的关键词类别进行区分,对新闻相关性强的多个类别的关键词建立词项矩阵,并在多个词项矩阵中分别计算相似度,以达到数据降维和提高区分度的效果。
技术实现思路
本专利技术“一种基 于命名实体识别的新闻搜索结果相似度计算方法”的目的在于提出一种适用于新闻搜索结果的创新型相似度计算方法。技术方案如下:本专利技术由关键词提取模块、向量空间模型建模模块以及相似度加权计算模块三个部分组成。参照图1:_7] (I)关键词提取模块关键词提取模块包括命名实体识别和中文分词两个组成部分。命名实体识别针对新闻搜索结果具有时间、地点、人物等特征,提取词语,并依据时间、地点、人物等新闻相关词语,进行分类,形成时间类、地点类、人物类等词语子集(这里把这些词语子集称为关键词子集)。文档的多个关键词子集组成一个集合,该集合称为关键词集合。除这些命名实体词能够表示新闻的主题外,剩余的非命名实体类名词和动词也能较好的表征新闻的主题。因此,关键词提取模块经过命名实体别后又利用分词技术筛选出剩余的非命名实体类名词和动词,作为一个关键词子集(其它类词语)添加在关键词集合的末尾,构成最终的关键词集合。关键词提取|吴块旨在对新闻搜索结果进行关键词提取。(2)向暈空间模型建模模块向量空间模型建模模块主要包括关键词子集合并、权重计算和词项矩阵构建三个组成部分。关键词子集合并是对多个文档在关键词提取模块中形成的关键词子集按时间类、地点类、人物类、其它类等进行分别合并,形成按时间类、地点类、人物类等分类的新的关键词集合;权重计算是针对关键词集合中的每个词语按词频的数值计算对应的权重;词项矩阵构建是针对按时间类、地点类、人物类、其它等形成的多个关键词子集,分别建立多个与关键词子集对应的以词语权重为值的词项矩阵。向量空间模型建模模块旨在基于向量空间模型对新闻搜索结果进行数学建模。(3)相似度加权计算模块相似度加权计算模块主要包括子集相似度计算和相似度加权两个组成部分。子集相似度计算是针对多个文档按时间类、地点类、人物类、其它类等分类形成的词项矩阵,计算这些分类中每个类的相似度(这里称为子集相似度);相似度加权是针对子集相似度,按文档包含的多个分类相似度进行加权,以获得文档的综合相似度。相似度加权计算模块旨在获得新闻搜索文档之间的综合相似度。(4)本专利技术的执行步骤参照图2,本专利技术的具体实现步骤如下:步骤1:对输入的多个新闻搜索文档,关键词提取模块对每个文档的词语进行命名实体识别,即针对新闻文档中的时间、地点、人物等特征,提取词语,并依据时间、地点、人物等新闻相关词语,进行分类,形成时间类、地点类、人物类等关键词子集。 步骤2:关键词提取模块通过中文分词技术提取各条新闻搜索文档中非命名实体词(名词和动词),作为一个关键词子集(其它类)添加在步骤I中的关键词集中。步骤3:向量空间模型建模模块将新闻搜索多个文档中各条搜索结果的关键词集合按照地点、时间、事件、其它等类别进行关键词子集分别合并,得到新的关键词集合。这个关键词集合仍然包括多个关键词子集。步骤4:向量空间模型建模模块对步骤3中关键词集合,分别计算每个文档中各个关键词的词频作为关键词的权重。步骤5:向量空间模型建模模块对关键词集合中的各个关键子集分别建立词项矩阵,步骤6:相似度加权计算模块在步骤5得到的各个词项矩阵中分别计算关键词子集相似度,即计算任两条新闻搜索结果所对应的行向量之间的相似度距离。计算如下:通过步骤5后,一个新闻搜索结果集合S对应多个词项矩阵。假设有m条新闻搜索结果S1、S2、……、Sm,n个词项矩阵M1、M2、……、Mn。S中任意两条新闻搜索结果Si'Sj在n个词项矩阵中各对应两个行向量,计算这两个行向量之间的相似度距离作为子集相似度(S1、Sj的余弦距离)。步骤7:相似度加权计算模块将步骤6中的各个子集相似度加权,得到任意两条新闻搜索结果的综合相似度。计算如下:相似度加权计算模块将多个子集相似度加权得到两条新闻搜索结果Sp Sj的综合相似度 Sim(SilSj):Sim (Si, Sj) = B1Xdist (M1(i),M1(j))+a2Xdist( M2 (i), M2 (j))+......+anXdist(Mn(i),Mn(j))上式中,Mk(i)表示词项矩阵Mk的第i个行向量,加权参数ak由词项矩阵Mk中的关键词数目Lk (即Mk的列数)除以总的关键词数目(即n个词项矩阵的列数之和)获得。dist(Mk(i),Mk(J))表示两个行向量的相似度距离,即子集相似度。附图说明图1基于命名实体识别的新闻搜索结果相似度计算方法模块示意2基于命名实体识别的新闻搜索结果相似度计算方法步骤示意图具体实施例方式下面将结合本专利技术的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例也仅仅是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技 术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了说明基于命名实体识别的新闻搜索结果相似度计算方法,这里给出一个包含两条新闻搜索结果的实施实例。第一条新闻搜索结果是“2013年3月10日,日本神户,日本将迎来福岛核事故两周年,神户市民举行反核大游行”,用S1表示。第二条新闻搜索结果是“2013年3月10日,日本东京,在日本311大地震两周年前夕,日本民众参加反核集会”,用S2表不。结合图2,基于命名实体识别的新闻搜索结果相似度计算方法的具体处理过程如下:(I).关键词提取阶段首先,关键词提取模块对Sp S2进行分词并进行命名实体识别,标注出命名实体词。关键词提取模块把S1标注为:“2013年\时间3月10日\时间,日本\地名神户\地名,日本\地名将迎来福岛\地名核事故两周年\时间,神户\地名市民举行反核大游行”。关键词提取模块把S2标注为:“2013年\时间3月10日\时间,日本\地名东京\地名,在日本\地名311大地震两周年\时间前夕,日本\地名民众参加反核集会”。其次,关键词提取模块将Sp S2表示成关键词集合本文档来自技高网...

【技术保护点】
本专利技术是一种基于命名实体识别的新闻搜索结果相似度计算方法,由关键词提取模块、向量空间模型建模模块、相似度加权计算模块三部分组成。

【技术特征摘要】
1.本发明是一种基于命名实体识别的新闻搜索结果相似度计算方法,由关键词提取模块、向量空间模型建模模块、相似度加权计算模块三部分组成。2.根据权利要求1所述方法,其特征在于对新闻文档进行命名实体识别,对新闻搜索结果中的时间、...

【专利技术属性】
技术研发人员:陆月明党秋月张吉伟
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1