【技术实现步骤摘要】
本专利技术涉及一种基于语义的Web文档的特征矩阵的建立和检索方法,属于信息检索(Information Retrieval)的
技术介绍
数据库技术发展至今,对于格式化数据的检索已经比较成熟,已经可以实现基于字符串匹配功能的文档检索功能。然而对于大量的非格式化文档(主要指非数据库中的数据,如Web文档)还没有有效的检索办法。如何让用户在浩如烟海的自由文本集中以最有效的方式最准确地找到需要的信息,已经成为中文检索领域内的热点。Web搜索引擎技术的发展,使得对Internet中海量的Web页面信息检索成为可能。但是这种检索也存在自身的弊端:搜索引擎运营商的Page Rank算法的基本原理多是基于关键词匹配和网页的链入度和链出度计算出的,因此缺少对网页内容在语义上的理解。这种语义上的缺失导致查询结果的不准和不全。对于非格式化文档,目前比较先进的处理方法是潜语义分析(简称LSA)。在基于LSA的文本处理中,每篇文本首先被分词并抽取关键词词频,表示成(关键词,词频)的集合,这样一个文本库就可以表示为一个t×d的关键词-文本矩阵A=[wij]t×d,其中,一个关键 ...
【技术保护点】
一种基于语义的Web文档的特征矩阵的建立,需在以下的硬件环境中实现:该硬件环境含客户端、服务器和有线网络或无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,操作步骤: 第一步,通过搜索引擎提供的应用编程接口提交相应的查询,然后将返回的Web页面下载到本地,利用页面分析工具分析Web页面,取出其中的正文、特殊的位置信息和特殊的表现形态信息; 第二步,对于来自Web的文档集,通过分词工具对文档集合的每篇文章内容进行分词,同时对于每篇文章中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计,也即计算出tf↓[ij],分词工具为海量集团的中文 ...
【技术特征摘要】
1. 一种基于语义的Web文档的特征矩阵的建立,需在以下的硬件环境中实现:该硬件环境含客户端、服务器和有线网络或无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,操作步骤:第一步,通过搜索引擎提供的应用编程接口提交相应的查询,然后将返回的Web页面下载到本地,利用页面分析工具分析Web页面,取出其中的正文、特殊的位置信息和特殊的表现形态信息;第二步,对于来自Web的文档集,通过分词工具对文档集合的每篇文章内容进行分词,同时对于每篇文章中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计,也即计算出tfij,分词工具为海量集团的中文分词工具,http://www.hylanda.com/;第三步,根据第二步得到的结果,形成关键词-文档词频矩阵,矩阵的行表示关键词在不同文档中的词频特征,矩阵的列表示文档中所有词的词频特征,矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频;第四步,根据第三步的得到的结果,计算出每个词在整个文档集中出现该词的个数,即ni;第五步,根据第四步的结果,同时根据log2(N/ni)计算出每个词的全局权重,即idfi,这里需要注意的是,真数由1+N/ni变为N/ni,这种变化的意义基于以下假设:如果所搜索的整个文本集中每一篇文本都出现第i个关键词,那么该词在区分这些文本所能贡献的力量将趋近于0,表现在公式中就是对于所有的i都有wij=0;第六步,由第二步和第五步,根据公式wij=tfij*idfi*eij=tfij*log2(N/ni)*eij计算出每个词的权重,得到关键词-文档权重矩阵At×d,其中eij是第i个关键词在第j篇文本中的位置-特殊形态影响因子,它与第i个关键词在第j篇文本中出现的空间位置以及表现形态有关,根据关键词的重要程度,eij取不同的值,如表1所示:表1.位置-特殊形态影响因子 第i个关键词在第j篇文本中的位置或形态 eij 标题(title) 2.5 子标题(sub-title) 2 通常位置 1 加粗、特殊颜色、特殊对齐方式 2在TF-IDF计算关键词权重的基础上,对网页中出现在不同位置的关键词赋予不同的权值,对网页中特殊表现形态的关键词也赋予相应的权值,从而弥补了空间信息、表现形态信息的丢失;第七步,特种矩阵建立过程到第六步结束,将第六步得到的关键词-文档权重矩阵At×d作为特征矩阵保存。2. 一种基于语义的Web文档的特征矩阵的检索方法,需在以下的硬件环境中实现:该硬件环境含客户端、服务器和有线网络或无线网络,客户端和服务器连接在有线网络或无线网络上,其特征在于,操作步骤:第一步,用户通过便携式设备或个人电脑,向服务器提出查询请求,查询请求是一个以自然语言形式描述的...
【专利技术属性】
技术研发人员:顾君忠,杨静,李子成,贺梁,吕钊,王麒,江开忠,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。