一种文档检索方法、装置、系统和介质制造方法及图纸

技术编号:38615738 阅读:20 留言:0更新日期:2023-08-26 23:43
本申请提供一种文档检索方法、装置、系统和介质,可应用于人工智能领域、大数据领域或金融领域。建立第一信息文档基础属性信息和第二信息文档正文信息之间的映射关系;对第一信息进行筛选得到与待检索字段第一相似度大于第一预设值的第一筛选信息;根据映射关系筛选第一筛选信息对应的第二信息,得到各个第二筛选信息;分别计算各个第二筛选信息和待检索字段的第二相似度,将第二相似度中相似度大于第二预设值的第二筛选信息对应的文档作为检索文档。采用第一信息和第二信息的方式对文档的基础属性信息和正文信息进行存储,利用相似度计算进行检索,避免使用全文检索的方式对数据进行存储和检索,提升文档存取检索的准确度、效率和灵活性。效率和灵活性。效率和灵活性。

【技术实现步骤摘要】
一种文档检索方法、装置、系统和介质


[0001]本申请涉及计算机
,特别涉及一种文档检索方法、装置、系统和介质。

技术介绍

[0002]传统的文档库的存储和索引大多依靠全文检索引擎的方式,即将文档按照全文检索引擎的格式进行初步索引,对索引后的数据独立存储到服务器中。
[0003]当文档库需要扩容增加新的文档时,利用全文检索引擎的方式建立的文档库一般需要经过重新全量索引,并且由于服务节点数的不同,在多个服务节点间进行建立,容易出现索引建立失败,或漏建立索引的情况出现。
[0004]传统的通过索引进行检索的方式,效率和灵活性较低,且可能导致出现搜索结果不一致的问题,文档检索准确度较低。
[0005]因此,如何提高文档检索的效率、灵活性和准确度,是本领域需要解决的技术问题。

技术实现思路

[0006]有鉴于此,本申请的目的在于提供一种文档检索方法、装置、系统和介质,可以提高提高文档检索的效率、灵活性和准确度。
[0007]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档检索方法,其特征在于,包括:将文档的基础属性信息作为第一信息存储;将所述文档的正文信息作为第二信息存储;建立所述第一信息和所述第二信息之间的映射关系;获取文档检索请求,所述文档检索请求中包括待检索字段;根据所述文档检索请求,对所述第一信息进行筛选得到与所述待检索字段第一相似度大于第一预设值的第一筛选信息;根据所述映射关系筛选所述第一筛选信息对应的所述第二信息,得到各个第二筛选信息;分别计算所述各个第二筛选信息和所述待检索字段的第二相似度,并进行排序,将所述第二相似度中相似度大于第二预设值的第二筛选信息对应的文档作为检索文档。2.根据权利要求1所述的方法,其特征在于,所述对所述第一信息进行筛选得到与所述待检索字段第一相似度大于第一预设值的第一筛选信息,包括:将所述待检索字段、所述待检索字段在所述第一信息中出现的次数、所述待检索字段在所述第一信息中出现的位置、所述待检索字段对应的文档数量和所述第一信息作为输入信息,输入文本相似度计算模型,得到所述待检索字段和所述第一信息的第一相似度;将所述第一相似度大于所述第一预设值的所述第一信息,作为所述第一筛选信息。3.根据权利要求1所述的方法,其特征在于,所述分别计算所述各个第二筛选信息和所述待检索字段的第二相似度,包括:将所述待检索字段、所述待检索字段在所述各个第二筛选信息中出现的次数、所述待检索字段在所述各个第二筛选信息中出现的位置、所述待检索字段对应的文档数量和所述各个第二筛选信息作为输入信息,输入文本相似度计算模型,得到所述待检索字段和所述各个第二筛选信息的第二相似度。4.根据权利要求1所述的方法,其特征在于,所述基础属性信息包括所述正文信息的地址信息,所述建立所述第一信息和所述第二信息之间的映射关系,包括:根据所述地址信息,查询所述第一信息对应的所述第二信息;建立查询得到的所述第二信息和所述第一信息的所述映射关系。5.一种文档检索装置,其特征在于,包括:存储单元,用于将文档的基础属性信息作为第一信息存储;将所述文档的正文信息作为第二信息存储;建立单元,用于建立所述第一信息和所...

【专利技术属性】
技术研发人员:谭莹坤
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1