文件检索方法及其系统技术方案

技术编号:3770820 阅读:279 留言:0更新日期:2012-04-11 18:40
提供一种文件检索方法及其系统。所述文件检索方法包括:输入至少一个用户查询;检索与所述用户查询匹配的文件;选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型;计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。

【技术实现步骤摘要】

本专利技术涉及一种自动检索文件的方法及其系统,尤其涉及一种通过语言模型来对 文件进行检索的方法及其系统。
技术介绍
近来,随着检索技术的不断发展,检索准确度越来越高,检索范围也变得越来越 宽。传统上,搜索引擎通过使用用户输入的关键字来计算文件的关键字出现频率,并按照该 频率来输出文件。也就是说,关键字出现频率越高,文件的相关度就越大。同时,由于基于关键字频率将检索的文件显示给用户,因此用户无法得知这些文 件的内容,必须由用户逐个浏览这些文件以寻找需要的文件,因此无法快速获取需要的文 件。此外,使用关键字检索的文件没有根据其内容很好地被分类,不能直观地将文件 之间的相关程度和类别显示给用户,从而给用户带来了很大的不便。
技术实现思路
本专利技术的目的在于提供一种文件检索方法,所述方法不需要复杂的处理而通过利 用预先训练的语言模型对检索的文件进行分类并输出给用户,从而用户可直观地找到需要 的文件,极大地方便了用户。本专利技术的另一目的在于提供一种文件检索系统,所述系统不需要复杂的系统配置 而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户,从而用户可直观地 找到需要的文件,极大地方便了用户。本专利技术的一方面在于提供一种文件检索方法,所述方法包括输入至少一个用户 查询;检索与所述用户查询匹配的文件;选择所述匹配的文件,根据选择的文件调用预先 训练的多个语言模型;计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述 复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。所述检索步骤可包括调用网页爬虫程序来读取相关网页,用以检索与所述用户查 询匹配的文件。所述分类步骤可包括将文件的复杂度向量输入到支持向量机SVM分类器以对文 件进行分类。所述文件检索方法,可进一步包括步骤基于分类的文件的相似度和所述分类的 文件所属网站的重要度对所述分类的文件进行排列。所述文件检索方法,可进一步包括步骤选择所述分类的文件之一和相应语言模 型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较;当所述复杂度分数 大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所 述相关语言模型进行再训练。本专利技术的另一方面提供一种网络信息检索系统,包括输入模块,用以输入至少一个用户查询;检索模块,用以检索与所述用户查询匹配的文件;文件分类模块,用以选择所 述匹配的文件,根据选择的文件调用预先训练的多个语言模型,计算所述选择的文件相对 于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文 件进行分类;输出模块,用以输出检索和分类的文件。所述检索模块可调用网页爬虫程序来读取相关网页,用以检索与所述用户查询匹 配的文件。所述文件分类模块可将文件的复杂度向量输入到支持向量机SVM分类器以对文 件进行分类。所述文件检索系统,可进一步包括排列模块,用以基于分类的文件的相似度和所 述分类的文件所属网站的重要度对所述分类的文件进行排列。所述文件检索系统,可进一步包括语言模型更新模块,用以选择所述分类的文件 之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较, 当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等 于预定阀值时,对所述相关语言模型进行再训练。附图说明通过下面结合附图进行的详细描述,本专利技术的上述和其他目的和特点将会变得更 加清楚,其中图1是示出根据本专利技术示例性实施例的文件检索系统的框图;图2是示出根据本专利技术示例性实施例的文件检索方法的流程图;图3是示出根据本专利技术示例性实施例的文件分类模块执行的分类的示例;图4是根据本专利技术示例性实施例的文件检索结果的示例;图5是根据本专利技术另一示例性实施例的文件检索系统的框图;图6是根据本专利技术另一示例性实施例的文件检索方法的流程图。具体实施例方式以下,参照附图来详细说明本专利技术的实施例。图1是示出根据本专利技术示例性实施例的文件检索系统的框图。参照图1,根据本发 明示例性实施例的文件检索系统100包括输入模块102、检索模块104、文件分类模块106 和输出模块108。用户通过输入模块102输入用户查询以检索需要的文件。检索模块104检索与所述用户查询匹配的文件。检索模块104可由检索引擎通过 调用网页爬虫(web crawler)来实现文件的检索,并且确定用户查询和文件是否匹配。如 果用户查询和文件匹配,则将该文件作为匹配的文件,如果用户查询和文件不匹配,则忽略 该文件。文件分类模块106选择所述匹配的文件,根据选择的文件调用预先训练的多个语 言模型,计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表 示为文件的复杂度向量,用以对文件进行分类。下面将详细描述文件分类模块106的功能。文件分类模块106从匹配的文件选择一个文件,并调用与选择的文件相应的一组 语言模型。该语言模型组是用训练语料预先训练的语言模型组(例如,财经类的语言模型、 娱乐类的语言模型或体育类的语言模型等)。然后,文件分类模块106利用以下等式1计算 该文件对相应的一个语言模型的复杂度分数<formula>formula see original document page 5</formula>其中,P(W)为词序列(句子)W = {Wi,i = 1,2,... ,M)的概率,如等式2所示<formula>formula see original document page 5</formula>其中,(Wi_n+1,. . . wj为曾经使用过的词序列。文件分类模块106将对一组语言模型的复杂度分数表示为复杂度向量V = {PPp i =1,2,. . .,N),以将每个文件表示为一个N维复杂度向量。此外,文件分类模块106可使 用支持向量机(SVM)分类器对这些向量进行分类,但本专利技术不限于此,可使用本领域公知 的任何其他分类器。输出模块108输出通过输入用户查询来检索和分类的文件。图2是示出根据本专利技术示例性实施例的文件检索方法的流程图。参照图2,在步 骤S201,用户通过输入模块102输入至少一个用户查询。在步骤S202,检索模块104检索 与所述用户查询匹配的文件。具体说来,检索模块104可由检索引擎通过调用网页爬虫来 实现文件的检索,并且确定用户查询和文件是否匹配。如果用户查询和文件匹配,则将该文 件作为匹配的文件,如果用户查询和文件不匹配,则忽略该文件。应注意,本专利技术不限于此, 可使用现有技术中的任何检索方法对文件进行检索。接着,在步骤S203,文件分类模块106 选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型。这是为了将文件与 多个语言模型联系起来,以随后根据文件的内容对文件进行分类。在步骤S204,文件分类模 块106计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示 为文件的复杂度向量,从而对文件进行分类。由于通过步骤S203和步骤S204分类的文件 是基于其内容来进行分类的,因此能够保证很好的分类准确度。这里,文件分类模块106可 使用支持向量机(SVM)分类器对这些向量进行分类,但本专利技术不限本文档来自技高网...

【技术保护点】
一种文件检索方法,所述方法包括步骤:  输入至少一个用户查询;  检索与所述用户查询匹配的文件;  选择所述匹配的文件,根据所选择的文件调用预先训练的多个语言模型;  计算所选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:邓菁张华朱璇史媛媛
申请(专利权)人:三星电子株式会社北京三星通信技术研究有限公司
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1