基于语义分析的高效数据筛选方法技术

技术编号:16546851 阅读:50 留言:0更新日期:2017-11-11 11:41
本发明专利技术公开了一种基于语义分析的高效数据筛选方法,涉及互联网检索技术领域。所述方法通过结合语义分析技术,对语义空间中权值从概率角度进行处理,使其更能体现出文档间、文档与词汇间的语义关系,二次搜索的策略改善搜索结果使其更贴近用户要求,提高了检索的准确率和查准率。

Efficient data filtering method based on semantic analysis

The invention discloses an efficient data screening method based on semantic analysis, which relates to the field of Internet retrieval technology. The method by combining the semantic analysis technology, the weight of semantic space for processing from the perspective of probability, so that it can reflect the semantic relations between documents, documents and words, two search strategies to improve search results to make it more close to the user requirements, improve the retrieval accuracy and precision.

【技术实现步骤摘要】
基于语义分析的高效数据筛选方法
本专利技术涉及互联网检索
,尤其涉及一种基于语义分析的高效数据筛选方法。
技术介绍
随着Internet爆炸式增长,万维网已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,日益增长信息的方便获取拓宽了人们视野。与此同时,海量的信息也引发了诸多新的问题。例如,由各个网页间的不断转载造成的文本信息严重冗余;由现有较为有限的查找手段造成无法精确找出淹没在浩瀚的繁杂信息之中的有用信息;垃圾邮件以及垃圾短信泛滥,互联网上有害信息传播造成的信息污染。互联网上绝大多数的信息是以文本的形式保存的,互联网上文本信息的指数级增长给搜索引擎技术带来了巨大的挑战,人们越来越难以快速准确地从网上搜索到相关信息。由于自然语言中多词同义、一词多义等不确定性因素存在,相同概念可以有多种不同的表述方式。传统的基于关键词字符匹配的搜索引擎中,参与匹配的只有外在的表现形式,而非它们所表达的全部概念,用户很难简单地用关键词或关键词串来真实地表达真正需要查询的内容。把搜索引擎技术从关键词匹配的层面提高到语义的层面,从语义意义上快速有效地认知和处理用户的查询请求成为当前搜索本文档来自技高网...
基于语义分析的高效数据筛选方法

【技术保护点】
一种基于语义分析的高效数据筛选方法,其特征在于:包括以下步骤:1)创建查询处理模块、文档处理模块、匹配处理模块和二次搜索模块;2)对用户的查询信息和文档集进行文档分词和词性标注;3)提取文档关键词;4)经过分词、词性标注和权重赋值后,文档形成一组关键词的权值向量,权值向量组合在一起生成词汇‑文档矩阵;5)对词汇‑文档矩阵进行奇异值分解;6)选择前K个秩进行矩阵还原,找到文档和词汇、文档和文档之间的关联,实现基于语义上的检索;7)当用户输入的信息及词汇量很小的情况下,进行二次搜索,引导用户在先前搜索到结果中确认最符合该用户需求的文档,然后以该文档作为搜索的源信息,再次查找相关的文档,实现基于语义...

【技术特征摘要】
1.一种基于语义分析的高效数据筛选方法,其特征在于:包括以下步骤:1)创建查询处理模块、文档处理模块、匹配处理模块和二次搜索模块;2)对用户的查询信息和文档集进行文档分词和词性标注;3)提取文档关键词;4)经过分词、词性标注和权重赋值后,文档形成一组关键词的权值向量,权值向量组合在一起生成词汇-文档矩阵;5)对词汇-文档矩阵进行奇异值分解;6)选择前K个秩进行矩阵还原,找到文档和词汇、文档和文档之间的关联,实现基于语义上的检索;7)当用户输入的信息及词汇量很小的情况下,进行二次搜索,引导用户在先前搜索到结果中确认最符合该用户需求的文档,然后以该文档作为搜索的源信息,再次查找相关的文档,实现基于语义上的第二次检索。2.根据权利要求1所述的一种基于语义分析的高效数据筛选方法,其特征在于:所述步骤2)中的文档分词和词性标注采用中文粉刺系统ICTCLAS系统进行分词和词性标注,主要步骤包括:1)根据词典找出字符串中所有可能形成的词语,构造词语切分的有向无环图;2)使每个词语对应图中的一条有向边,并赋予相应的权值;3)针对切分图,从起点到终点的所有路径中求出长度值按照升序排列,依次为第1、第2、……第i、……第N的路径集合作为相应的结果集;4)如果两条及两条以上路径长度相等,那么他们的长度并列第i,且都要列入结果集中,而且不响应其他的排列序号,最后的结果集不小于N。3.根据权利要求1所述的一种基于语义分析的高效数据筛选方法,其特征在于:所述步骤3)中的关键词为对文档起到支撑作用的词语,根据语法、语句及词语在文档中的权值进行选取。4.根据权利要求1所述的一种基于语义分析的高效数据筛选方法,其特征在于:所述步骤4...

【专利技术属性】
技术研发人员:戴森
申请(专利权)人:广州市一呼百应网络技术股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1