一种基于自然语言的信息搜索方法技术

技术编号：12883148 阅读：80 留言：0更新日期：2016-02-17 15:33

本发明专利技术提供了一种基于自然语言的信息搜索方法，该方法包括：接收用户输入的至少第一和第二关键词，对第一和第二关键词分别进行检索，获得包含所述关键词相应第一和第二的文档数量；对第一和第二关键词进行与操作的结果进行检索，获得包含与操作结果的第三文档数量；根据所述第一、第二和第三文档数量计算所述第一和第二关键词的近似性。本发明专利技术提出了一种自然语言检索方法，不需要人工干预；而且易于应用到金融信息检索相关的工作中，提高检索扩展任务的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别涉及一种自然语言检索方法。
技术介绍
关键词语义近似性的研究在文本搜索应用中都是一个重要的问题。例如主题检测、推荐查询等。近年来随着网络的快速发展，在许多基于金融领域的Web相关任务中关键词语义近似性的计算也越来越重要。现有金融相关搜索引擎都提供一系列相关词来帮助用户找到最想要的结果，从而改善用户的搜索体验和检索效率。在金融信息领域，关键词语义近似性的计算也起着重要的作用。然而现有的基于Web的关键词语义近似性的计算方法没有考虑到搜索引擎反馈的结果中存在干扰和重复。干扰的来源主要是关键词随机地出现在一些文档中，这将会降低文档搜索数量的准确度。很多重复出现的文档使得搜索结果数量不可信。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了，包括:接收用户输入的至少第一和第二关键词，对第一和第二关键词分别进行检索，获得包含所述关键词相应第一和第二的文档数量；对第一和第二关键词进行与操作的结果进行检索，获得包含与操作结果的第三文档数量；根据所述第一、第二和第三文档数量计算所述第一和第二关键词的近似性。优选地，所述对第一和第二关键词进行与操作的结果进行检索，进一步包括:在第一关键词a和第二关键词b的与操作的检索结果a n b中，将关键词a和b在同一个语句中共同出现的检索结果分段表示为语义分段，并计算所述语义分段在前η个分段中的比例，记为K(a Π b)，其中η为预设分段数；利用N(a Π b)表示检索与操作结果“a AND b”的第三文档数量；利用N(a Π b)*K(a Π b)计算关键词之间的近似性:SimK...

【技术保护点】
一种基于自然语言的信息搜索方法，其特征在于，包括：接收用户输入的至少第一和第二关键词，对第一和第二关键词分别进行检索，获得包含所述关键词相应第一和第二的文档数量；对第一和第二关键词进行与操作的结果进行检索，获得包含与操作结果的第三文档数量；根据所述第一、第二和第三文档数量计算所述第一和第二关键词的近似性。

【技术特征摘要】

【专利技术属性】
技术研发人员：李垚霖，
申请(专利权)人：成都博睿德科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人