文件检索方法及其系统技术方案

技术编号：3770820 阅读：279 留言：0更新日期：2012-04-11 18:40

提供一种文件检索方法及其系统。所述文件检索方法包括：输入至少一个用户查询；检索与所述用户查询匹配的文件；选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型；计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类；输出经过分类的文件。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种自动检索文件的方法及其系统，尤其涉及一种通过语言模型来对文件进行检索的方法及其系统。
技术介绍
近来，随着检索技术的不断发展，检索准确度越来越高，检索范围也变得越来越宽。传统上，搜索引擎通过使用用户输入的关键字来计算文件的关键字出现频率，并按照该频率来输出文件。也就是说，关键字出现频率越高，文件的相关度就越大。同时，由于基于关键字频率将检索的文件显示给用户，因此用户无法得知这些文件的内容，必须由用户逐个浏览这些文件以寻找需要的文件，因此无法快速获取需要的文件。此外，使用关键字检索的文件没有根据其内容很好地被分类，不能直观地将文件之间的相关程度和类别显示给用户，从而给用户带来了很大的不便。
技术实现思路
本专利技术的目的在于提供一种文件检索方法，所述方法不需要复杂的处理而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户，从而用户可直观地找到需要的文件，极大地方便了用户。本专利技术的另一目的在于提供一种文件检索系统，所述系统不需要复杂的系统配置而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户，从而用户可直观地找到需要的文件，极大地方便了用户。本专利技术的一方面在于提供一种文件检索方法，所述方法包括输入至少一个用户查询；检索与所述用户查询匹配的文件；选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型；计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类；输出经过分类的文件。所述检索步骤可包括调用网页爬虫程序来读取相关网页，用以检索与...

【技术保护点】
一种文件检索方法，所述方法包括步骤：　　输入至少一个用户查询；　　检索与所述用户查询匹配的文件；　　选择所述匹配的文件，根据所选择的文件调用预先训练的多个语言模型；　　计算所选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类；输出经过分类的文件。

【技术特征摘要】

【专利技术属性】
技术研发人员：邓菁，张华，朱璇，史媛媛，
申请(专利权)人：三星电子株式会社，北京三星通信技术研究有限公司，
类型：发明
国别省市：KR[韩国]

全部详细技术资料下载我是这个专利的主人