【技术实现步骤摘要】
本专利技术涉及一种计算机技术,具体说,涉及一种。
技术介绍
现在一些常用的文本检索模型,包括基于文字的检索模型和基于结构的检索模型。基于文本的检索模型又包括向量空间模型、近似模型、概率模型和统计语言检索模型;基于结构的文本检索模型又包括内部结构检索模型、外部结构检索模型。文本的相似度,即两篇文本之间相似程度的数值度量,取两篇文本D1、D2,若(Dl H D2)/ (Dl U D2)越接近I表示两篇文本的相似度越高,反之相反。在文本检索技术中,相似度计算主要用于衡量文本对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示和特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。通常使用的计算相似度的方法是VSM (向量空间模型)。这种模型通过对文本提取关键词,然后进行权值赋值,将文本表示成由权重不同的关键词构成的向量,通过计算两个文本的向量距离从而得到文本的相似度。由于关键词很可能存在同义词、一词多义等现象,所以用传统的向量空间模型方法得到的相似度计算结果精度不高,结果往往并不令人满意;关键词加权算法仅仅是寻求文本和关键词之间的关系,不能横向地联系不同文本间关键词之间的关系,给文本检索带来了如下问题(I)关键词不能准确表达用户需求。用户很难选择准确的关键词来进行搜索,因为其中涉及到查询和概念之间的语义映射问题。用户给出的查询关键词不能很好地反映用户的意图。( ...
【技术保护点】
一种基于向量空间模型的文本相似性匹配方法,包括:提取文本的关键词,对所有关键词进行聚类,生成关键词概念树;根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译参考文献库中匹配的文本。
【技术特征摘要】
1.一种基于向量空间模型的文本相似性匹配方法,包括 提取文本的关键词,对所有关键词进行聚类,生成关键词概念树; 根据构建的待翻译文本中关键词的关键词概念树计算文本的相似性,按相似性的大小得到在翻译參考文献库中匹配的文本。2.如权利要求1所述的基于向量空间模型的文本相似性匹配方法,其特征在于,所述生成关键词概念树的步骤包括 提取待分类文档和參考库中的所有关键词,得到关键词集合; 对关键词集合中的关键词进行聚类,把相同概念的关键词聚合为ー个概念类集合,根据所述概念类集合生成所述关键词概念树。3.如权利要求2所述的基于向量空间模型的文本相似性匹配方法,其特征在于,若关键词も出现的概率p Cki) >P1 ;且有,在出现ん的该文本中也出现关键词Icj的条件概率pCkj I kj >P2,则认为关键词も和Ici表达相同概念,Pl和P2为设定概率阀值。4.如权利要求3所述的基于向量空间模型的文本相似性匹配方法,其特征在于,生成所述关键词概念树的过程具体步骤包括 提取待分类文档和參考库中的所有关键词,得到关键词集合C= {kl,k2,…,kn},计算C中每个关键词k在出现的概率,出现关键词k的文本数和文本总数之比记为p (k); 根据设定阀值过滤关键词,取Pmin〈P (k) <pfflax的关键词,将其作为待合并的集合项,设符合条件的关键词个数为m个,其中Pmax和Pmin为设定好的高低限阀值; 对过滤后得到的关键词按P (k)进行降序排序,并将每ー个关键词作为ー个集合,这样得到初始的m个待合并集合,记为{kj,{k2},…,{kj ; 在这m个关键词中,计算在关键词h出现的文本中关键词Icj出现的概率,记...
【专利技术属性】
技术研发人员:江潮,
申请(专利权)人:武汉传神信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。