一种基于关键词的精确检索方法技术

技术编号:16700772 阅读:111 留言:0更新日期:2017-12-02 13:08
本发明专利技术公开了一种基于关键词的精确检索方法,接收用户输入的至少一个关键词,并将所述关键词作为第一词语;获取待检索信息库中文章的名称与摘要的文字信息,并对所述文字信息中文字进行分词,将分词后得到的词语作为第二词语;计算所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。本发明专利技术中,通过计算关键词与文章中文字信息所含词语之间的词语相似度,实现关键词检索,且所述词语相似度是通过进行数据匹配时要对词语进行拆分,形成概念集合的基础上计算得到的,因此概念集合中的概念可以最大程度的涵盖词语的本质含义,所以可以有效的提高检索的精确度。

An accurate retrieval method based on key words

The invention discloses an accurate retrieval method based on keywords, at least one keyword receiving user input, and the keywords as the first name of the search words; to acquire the information in the library and the text information, and the text information Chinese word for word segmentation, word by word as the second words; word similarity between the first word and the second words; according to whether the word similarity of the first word and the second word match success. In the invention, by calculating the key words and the text information contained in word similarity between words, the keyword retrieval, and the word similarity is based on the data to split the word matching, based on the formation of concept set calculated, because the concept of this concept in the collection can cover the essential meaning of words maximum the degree, so can effectively improve the retrieval accuracy.

【技术实现步骤摘要】
一种基于关键词的精确检索方法
本专利技术信息检索领域,尤其涉及一种基于关键词的精确检索方法。
技术介绍
由于目前数据库中信息量较大,用户往往会面对需要从数据库中快速获取所需信息的需要,因此如果从大量的信息中快速检测中所需信息,是比较重要的研究方向。在现在的网络通信或数据处理过程中,常常会产生对两个词语进行相似度匹配的需求。现有技术主要采用的匹配方式为字面含义的匹配,通过相同或近似的字来判断词语是否匹配,例如“接近”和“靠近”,由于都具有“近”这个字,系统会判断这两个词匹配度较高,但是,文字的内涵博大精深,仅仅依靠字面含义进行词语匹配经常容易出现错误,从而严重影响了检索的精确度。因此,现有技术还有待进一步的改进。
技术实现思路
本专利技术提供了一种数据匹配方法。一种基于关键词的精确检索方法,其中,所述方法包括:接收用户输入的至少一个关键词,并将所述关键词作为第一词语;获取待检索信息库中文章的名称与摘要的文字信息,并对所述文字信息中文字进行分词,将分词后得到的词语作为第二词语;对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;若匹配成功,则将含有对应所述第一词语的文章进行显示。所述的基于关键词的精确检索方法,其中,在上述步骤中,还包括:将每个关键词作为第一词语;将文字信息分词后得到的各个词语作为第二词语;依次对每个第一词语进行概念拆分,得到与每个第一词语所对应的包含若干个概念的第一概念集合,依次对每个所述第二词语进行概念拆分,得到与每个第二词语所对应的包含若干个概念的第二概念集合;依次计算每个第一词语所属第一概念集合中的第一概念与每个第二词语所属第二概念集合中的第二概念之间的概念相似度,得到每个第一词语与任意一个第二词语之间的词语相似度。所述的基于关键词的精确检索方法,其中,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。所述的基于关键词的精确检索方法,其中,所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括:按照如下公式计算所述第一相似度Sim1(V1,V2):其中,所述(d+α)表示两个义原,d是和在义原层次体系中的路径长度,α为常数参数。所述的基于关键词的精确检索方法,其中,计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括:1)将第一概念与第二概念的语义表达式的所有独立义原任意配对,计算两两独立义原相似度;2)将相似度取值最大的一对归为一组;3)对剩余的独立义原两两执行步骤2),直至所有独立义原都完成分组;4)对各组的相似度计算平均值作为所述第二相似度。所述的基于关键词的精确检索方法,其中,所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括:按照如下公式计算所述概念相似度Sim(Si,Tj):所述的基于关键词的精确检索方法,其中,所述将含有所述第一词语的文章进行显示的步骤中包括:计算每篇文章的名称和摘要所含全部第二词语与全部第一词语之间词语相似度的总和,并按照所述词语相似度总和的高低对含有第一词语的文章进行排序,并生成检索结果。所述的基于关键词的精确检索方法,其中,所述将含有所述第一词语的文章进行显示的步骤中包括:按照计算得到的词语相似度高低对与含有相对应第二词语的文章进行排序,并生成检索结果。所述的基于关键词的精确检索方法,其中,对所述文字信息中的文字进行分词后,还包括步骤:对分词后得到的词语赋予词语编码,建立所述词语编码与词语所属文章编码之间的索引列表;所述将含有所述第一词语的文章进行显示的步骤中包括:通过所述索引列表查找与所述第二词语所对应文章。本专利技术公开了一种基于关键词的精确检索方法,接收用户输入的至少一个关键词,并将所述关键词作为第一词语;获取待检索信息库中文章的名称与摘要的文字信息,并对所述文字信息中文字进行分词,将分词后得到的词语作为第二词语;计算所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。本专利技术中,通过计算关键词与文章中文字信息所含词语之间的词语相似度,实现关键词检索,且所述词语相似度是通过进行数据匹配时要对词语进行拆分,形成概念集合的基础上计算得到的,因此概念集合中的概念可以最大程度的涵盖词语的本质含义,所以可以有效的提高检索的精确度。附图说明图1为本专利技术提供的基于关键词进行精确检索方法的步骤流程示意图。具体实施方式为了使本领域的技术人员更好的理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。请参阅图1,本专利技术所公开的一种基于关键词的精确检索方法步骤流程图,所述方法包括:101、接收用户输入的至少一个关键词,并将所述关键词作为第一词语;获取待检索信息库中文章的名称与摘要的文字信息,并对所述文字信息中文字进行分词,将分词后得到的词语作为第二词语;102、对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;103、计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;104、将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度;105、根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;若匹配成功,则将含有对应所述第一词语的文章进行显示。上述方法提供了一种基于关键词的检索方法,其针对关键词对待检索数据库中的文章名称和文章摘要进行包含的文字信息进行匹配,若匹配成功,则判定符合检索条件。上述方法中提供了一种基于词语本身概念描述相关的匹配方法,提供匹配准确性。Hownet中,对实词的概念描述由以下三种形式的描述式组成:(1)独立义原描述式:由“基本义原”或“(具体词)”表示;(2)关系义原描述式:由“关系义原=基本义原”或“关系义原=(具体词)”或者“(关系义原=具体词)”来表示,其中关系义原是指包含“EventRole|动态角色”和“EventFeatures|动态属性”这两类的义原;(3)符号义原描述式:由“关系符号基本义本文档来自技高网...
一种基于关键词的精确检索方法

【技术保护点】
一种基于关键词的精确检索方法,其特征在于,所述方法包括:接收用户输入的至少一个关键词,并将所述关键词作为第一词语;获取待检索信息库中文章的名称与摘要的文字信息,并对所述文字信息中文字进行分词,将分词后得到的词语作为第二词语;对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;若匹配成功,则将含有对应所述第一词语的文章进行显示。

【技术特征摘要】
1.一种基于关键词的精确检索方法,其特征在于,所述方法包括:接收用户输入的至少一个关键词,并将所述关键词作为第一词语;获取待检索信息库中文章的名称与摘要的文字信息,并对所述文字信息中文字进行分词,将分词后得到的词语作为第二词语;对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;若匹配成功,则将含有对应所述第一词语的文章进行显示。2.根据权利要求1所述的基于关键词的精确检索方法,其特征在于,在上述步骤中,还包括:将每个关键词作为第一词语;将文字信息分词后得到的各个词语作为第二词语;依次对每个第一词语进行概念拆分,得到与每个第一词语所对应的包含若干个概念的第一概念集合,依次对每个所述第二词语进行概念拆分,得到与每个第二词语所对应的包含若干个概念的第二概念集合;依次计算每个第一词语所属第一概念集合中的第一概念与每个第二词语所属第二概念集合中的第二概念之间的概念相似度,得到每个第一词语与任意一个第二词语之间的词语相似度。3.根据权利要求1所述的基于关键词的精确检索方法,其特征在于,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。4.根据权...

【专利技术属性】
技术研发人员:向敏明
申请(专利权)人:东莞市华睿电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1