当前位置: 首页 > 专利查询>黄斌专利>正文

一种利用语义分析实现精确搜索的方法技术

技术编号:4082944 阅读:314 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种利用语义分析实现精确搜索的方法,包括如下的步骤:(1)接受用户输入的目标信息描述词,对目标信息描述词进行分词操作;(2)判断目标信息描述词是否具有完整的语义;(3)如果是则直接进行后续的检索;如果不是,则向用户提供与目标信息描述词相关联的词汇;(4)用户进行二次输入,从而确定目标信息描述词的语义,根据该语义进行后续的检索。本网络搜索方法仅仅通过增加很少的用户操作就可以实现很精确的搜索结果,在满意度上基本能覆盖尽可能多的用户需求。

【技术实现步骤摘要】

本专利技术涉及一种网络搜索方法,尤其涉及一种利用语义分析实现精确搜索的方 法,属于网络搜索

技术介绍
互联网已经成为一个规模巨大、分布广泛的信息服务中心。当前,互联网中的数据 总量以几百兆兆字节来计算,而且仍以很快的速度增长。为了帮助用户从这个漫无边际的 数据海洋中快速获取所需的信息,搜索引擎发挥着不可替代的作用。搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,从而为用户提 供检索服务的信息服务系统。现有的搜索引擎是根据用户输入的关键词进入自身的数据库 系统进行检索,并将检索的结果反馈给用户。在这个过程中,最大的问题是用户不知道应该 输入什么样的关键词,才能准确表达自己需要搜索的信息。而搜索服务提供者需要根据用 户输入的信息进行分析判断,并根据判断结果来提供搜索信息。因此,搜索服务提供者的判 断与用户的需求之间经常是答非所问。如图1所示,搜索服务提供者根据用户输入的信息进行搜索时,往往是根据其输 入的内容进行分析,即进行分词,将输入信息分为所谓的“元词汇”后,根据这些“元词汇”来 进行大规模的检索运算。当输入的信息越多时,进行的检索运算也越多,因此搜索引擎的计 算能力开销较大。例如当用户一次输入两个词汇时,搜索引擎理论上要进行一次千万数量 级的矩阵运算。因此,现在的搜索引擎在硬件上投入越来越大,而搜索效果并未获得明显的 改善。另一方面,“元词汇”的集合,即通常所说的“词表”也在快速增加之中。目前,最大 规模的词表已达到千万数量级。对于这个集合了人类信息空间中所有“元词汇”的“元词汇 库”,最大的问题是词汇内容快速增加且有不可阻挡之势,因此这个“元词汇”已经很难起到 作为信息空间的“元数据”的作用。如果硬性地将这个词汇库规定为某一个固定范围,又不 能反映快速发展变化的社会现实,不能准确充分地满足用户的需要。随着网络搜索技术的不断发展,出现了智能搜索的概念。所谓的智能检索是利用 分词词典、同义词典、同音词典改善检索效果,进一步还可在知识层面或者概念层面上辅助 查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络, 给予用户智能知识提示,最终帮助用户获得最佳的检索效果。例如查询“计算机”,与“电脑” 相关的信息也能检索出来;还可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至 “信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,现有的某些搜 索引擎也提供所谓的“联想”功能,即根据以前的用户选择结果进行统计分析,并根据这些 分析结果进行预测,提供最可能的结果来供用户进行选择。但这实际上并不能解决网络搜 索的准确性问题,因为对于大量人群来讲,存在一定的统计规律,而对于某一个具体用户的 某一次搜索而言,统计规律并没有太多的意义。在专利申请号为200910192409.7的中国专利技术专利申请中,提出了一种基于语义3分析的智能检索系统,其包括输入模块,用于输入文字或指令;功能对象数据库,用于存 储功能对象;语义分析搜索模块,用于对所述输入模块输入的文字进行语义分析,并从功能 对象数据库中搜索出与该语义相关的功能对象;显示装置,用于显示语义分析搜索模块搜 索出的功能对象;选择调用模块,用于根据所述输入装置输入的指令从显示装置显示的功 能对象中选择目标功能对象,并调用该目标功能对象。该专利申请同时还提供了一种基于 语义分析的智能检索方法,可以根据输入文字的语义来预测用户操作意图,搜索出与该语 义相关联的功能对象并提供给用户备选,方便用户快速、准确地找到目标功能对象。从而不 再需要用户准确地记住各级菜单,也不用操作多级菜单查找目标对象。
技术实现思路
本专利技术所要解决的技术问题在于提供。该 方法首先对用户输入的内容进行语义分析和关联词汇检索,并由用户进行选择,从而进一 步明确网络搜索的目标,使搜索引擎能够准确地从数据库中将用户心目中最想要的信息提 供给用户。为实现上述的专利技术目的,本专利技术采用下述的技术方案,其特征在于包括如下的步骤(1)接受用户输入的目标信息描述词,对所述目标信息描述词进行分词操作;(2)判断所述目标信息描述词是否具有完整的语义;(3)如果是则直接进行后续的检索;如果不是,则向用户提供与所述目标信息描 述词相关联的词汇;(4)用户进行二次输入,从而确定所述目标信息描述词的语义,根据该语义进行后 续的检索。其中在所述步骤(1)中,所述分词操作采用最大化分词算法。所述步骤⑵中,在所述目标信息描述词中具有“本体”与“行为”,且“本体”与“行 为”形成关联时,认为所述目标信息描述词具有完整的语义。所述步骤(2)中,如果所述目标信息描述词不具有完整的语义,则首先确定所述 目标信息描述词中的“本体”。然后在所述步骤(4)中,通过用户的二次输入进一步确定所 述目标信息描述词对应的“行为”。所述步骤(3)中,由元词汇关联数据库存放与所述目标信息描述词相关联的词汇。在所述元词汇关联数据库中,对于某个元词汇S,用S{ci,dj}来存储其关联词汇, 并将ci作为第一层分类,dj作为第二层分类。所述步骤(4)中,用户以在与所述目标信息描述词相关联的词汇中选择的方式进 行二次输入。本专利技术所提供的网络搜索方法将现有的一步搜索分解为两步可选搜索一第一步 输入词汇,再根据系统提示进行第二步输入(或选择)后,检索数据库给出结果。与现有技 术相比较,本网络搜索方法仅仅通过增加很少的用户操作就可以实现很精确的搜索结果, 在满意度上基本能覆盖尽可能多的用户需求。附图说明下面结合附图和具体实施方式对本专利技术作进一步的详细说明。图1为现有的搜索引擎提供网络搜索服务的流程示意图;图2为本专利技术所提供的利用语义分析实现精确搜索的方法流程图。具体实施例方式本网络搜索方法的总体思路在于将现有搜索引擎所使用的“输入_分词_检索” 的处理方式转换为“输入_分词_语义判断_检索”的处理方式,即在分词操作之后进行语 义判断,判断输入的词是否为具有确定语义的信息,如果是则直接进行后续的检索;如果不 是,则向用户提供与输入的词相关联的词汇。用户再进行二次输入(在相关联的词汇中选 择),以便准确判断用户输入信息的真实语义,从而根据该语义获得精确的网络搜索结果。如图2所示,本网络搜索方法在实现形式上表现为绝大多数情况下需要进行两次 输入操作在用户输入最重要的目标信息描述词(第一次输入操作)后,进行关联词汇的检 索并提供给用户,由用户从中进行选择(第二次输入操作),从而明确具体的搜索目标,使 搜索引擎能够准确地从数据库中将用户心目中最想要的信息提供给用户。具体而言,本网 络搜索方法在搜索引擎中增加“元词汇关联数据库”,鼓励用户在“元词汇关联数据库”中输 入最能表示其搜索目标的词,而且这个词是他所需信息的最重要的目标描述。当搜索引擎 接受用户输入的词并进行最大分词切分后,判断其输入信息是否具有完整语义,如果有则 直接进行后续的搜索操作,如果没有则由本搜索引擎对输入的词在“元词汇关联数据库”中 进行关联分析,并根据结果为用户提供一个多项选择,使得用户通过进一步的选择更准确 地描述其所需要的目标信息。这个多项选择具本文档来自技高网
...

【技术保护点】
一种利用语义分析实现精确搜索的方法,其特征在于包括如下的步骤:(1)接受用户输入的目标信息描述词,对所述目标信息描述词进行分词操作;(2)判断所述目标信息描述词是否具有完整的语义;(3)如果是则直接进行后续的检索;如果不是,则向用户提供与所述目标信息描述词相关联的词汇;(4)用户进行二次输入,从而确定所述目标信息描述词的语义,根据该语义进行后续的检索。

【技术特征摘要】
一种利用语义分析实现精确搜索的方法,其特征在于包括如下的步骤(1)接受用户输入的目标信息描述词,对所述目标信息描述词进行分词操作;(2)判断所述目标信息描述词是否具有完整的语义;(3)如果是则直接进行后续的检索;如果不是,则向用户提供与所述目标信息描述词相关联的词汇;(4)用户进行二次输入,从而确定所述目标信息描述词的语义,根据该语义进行后续的检索。2.如权利要求1所述的利用语义分析实现精确搜索的方法,其特征在于 所述步骤(1)中,所述分词操作采用最大化分词算法。3.如权利要求1所述的利用语义分析实现精确搜索的方法,其特征在于所述步骤(2)中,在所述目标信息描述词中具有“本体”与“行为”,且“本体”与“行为” 形成关联时,认为所述目标信息描述词具有完整的语义。4.如权利要求1所述的利用语义分析实现精确搜索的方法,其特征...

【专利技术属性】
技术研发人员:黄斌
申请(专利权)人:黄斌
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1