一种基于关键词的文档查询方法、装置、设备和存储介质制造方法及图纸

技术编号:36390652 阅读:35 留言:0更新日期:2023-01-18 09:55
本发明专利技术涉及金融科技领域,特别地,涉及一种基于关键词的文档查询方法、装置、设备和存储介质。其中方法包括:将关键词拆分,得到至少一个关键字符;遍历所述当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。本发明专利技术能够在用户所输入的关键词不准确的情况下,仍然能够将相关的文档查询出来,以满足用户的实际需求。足用户的实际需求。足用户的实际需求。

【技术实现步骤摘要】
一种基于关键词的文档查询方法、装置、设备和存储介质


[0001]本专利技术涉及金融科技领域,特别地,涉及一种基于关键词的文档查询方法、装置、设备和存储介质。

技术介绍

[0002]在日常工作中,用户常常不知道某一文档的全部内容,仅知道其中的关键词,现有技术可以根据相应的关键词对所有文档进行查询后,定位包含该关键词的文档即为用户所需的文档。
[0003]但是实际工作中,用户所知道的关键词可能存在不准确的情况,例如,用户想要查询的关键词为“3D建模”,但实际上用户知道的关键词为“3D模”,此时若用户输入“3D模”对所有文档进行查询,则无法查询到包含“3D建模”的关键词的文档,导致无法满足用户的实际需求。
[0004]因此,现在亟需一种基于关键词的文档查询方法,能够在用户所输入的关键词不准确的情况下,仍然能够将相关的文档查询出来,以满足用户的实际需求。

技术实现思路

[0005]本文实施例的目的在于提供一种基于关键词的文档查询方法、装置、设备和存储介质,以在用户所输入的关键词不准确的情况下,仍然能够将相关的文档查询出来,以满足用户的实际需求。
[0006]为达到上述目的,一方面,本文实施例提供了一种基于关键词的文档查询方法,包括:
[0007]将关键词拆分,得到至少一个关键字符;
[0008]遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
[0009]按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
[0010]通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
[0011]根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
[0012]优选的,所述按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号进一步包括:
[0013]将在当前文档中最先出现的字符进行编号;
[0014]按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号,其中相邻出现的两个字符编号之差为1。
[0015]优选的,所述通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符进一步包括:
[0016]滑动过程从当前文档中编号最小的字符开始,执行如下判断步骤:
[0017]判断当前一次滑动窗口中字符的最大编号是否小于等于当前文档中字符的最大编号;
[0018]若是,则提取该次滑动窗口对应的所有字符,将所述滑动窗口沿字符编号由小至大的方向滑动,滑动的距离为滑动步长,滑动后执行如上判断步骤;
[0019]若否,则提取该次滑动窗口对应的所有字符,提取后停止滑动。
[0020]优选的,所述滑动步长的确定方法包括:
[0021]判断当前一次滑动窗口中是否存在未标记的字符;
[0022]若是,则根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长;
[0023]若否,则根据当前文档中未标记的字符的编号确定所述滑动步长。
[0024]优选的,所述根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长进一步包括:
[0025]将当前一次滑动窗口中未标记的字符的最大编号作为第一选定编号;
[0026]将当前一次滑动窗口中字符的最小编号作为第二选定编号;
[0027]根据所述第一选定编号和所述第二选定编号,计算得到滑动步长。
[0028]优选的,所述根据所述第一选定编号和所述第二选定编号,计算得到滑动步长进一步包括:
[0029]通过如下公式计算得到滑动步长:
[0030]S=N

M+1;
[0031]其中S为滑动步长,N为第一选定编号,M为第二选定编号。
[0032]优选的,所述根据当前文档中未标记的字符的编号确定所述滑动步长进一步包括:
[0033]将沿字符编号由小至大的方向上位于当前一次滑动窗口后的第一个字符作为当前字符,执行如下判断步骤:
[0034]判断当前字符是否为未标记的字符;
[0035]若是,则停止判断,将当前字符的编号作为第一标定编号;
[0036]若否,则将沿字符编号由小至大的方向上位于当前字符后的第一个字符作为当前字符,执行如上判断步骤;
[0037]将当前一次滑动窗口中字符的最小编号作为第二标定编号;
[0038]根据所述第一标定编号和所述第二标定编号,计算得到滑动步长。
[0039]优选的,所述根据所述第一标定编号和所述第二标定编号,计算得到滑动步长进一步包括:
[0040]通过如下公式计算得到滑动步长:
[0041]S=N

M+1;
[0042]其中S为滑动步长,N为第一标定编号,M为第二标定编号。
[0043]优选的,所述关键字符为一个数字、字母、汉字、符号或标点。
[0044]优选的,所述根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档进一步包括:
[0045]组合每次滑动时滑动窗口对应的所有字符,得到该次滑动对应的字符串;
[0046]若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串;
[0047]根据整个滑动过程中的所有选定字符串,分析确定当前文档是否为用户所需的目标文档。
[0048]优选的,所述若所述字符串与关键词的相关性大于设定相关性,则将所述字符串确定为选定字符串进一步包括:
[0049]若所述字符串中已标记的字符的数量占所有字符数量的比值大于设定比值,则所述字符串与关键词的相关性大于设定相关性,将所述字符串确定为选定字符串。
[0050]另一方面,本文实施例提供了一种基于关键词的文档查询装置,所述装置包括:
[0051]拆分模块,用于将关键词拆分,得到至少一个关键字符;
[0052]标记模块,用于遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;
[0053]编号模块,用于按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;
[0054]滑动模块,用于通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;
[0055]分析模块,用于根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。
[0056]又一方面,本文实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
[0057]又一方面,本文实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
[0058]由以上本文实施例提供的技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词的文档查询方法,其特征在于,包括:将关键词拆分,得到至少一个关键字符;遍历当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。2.根据权利要求1所述的基于关键词的文档查询方法,其特征在于,所述按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号进一步包括:将在当前文档中最先出现的字符进行编号;按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号,其中相邻出现的两个字符编号之差为1。3.根据权利要求1所述的基于关键词的文档查询方法,其特征在于,所述通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符进一步包括:滑动过程从当前文档中编号最小的字符开始,执行如下判断步骤:判断当前一次滑动窗口中字符的最大编号是否小于等于当前文档中字符的最大编号;若是,则提取该次滑动窗口对应的所有字符,将所述滑动窗口沿字符编号由小至大的方向滑动,滑动的距离为滑动步长,滑动后执行如上判断步骤;若否,则提取该次滑动窗口对应的所有字符,提取后停止滑动。4.根据权利要求3所述的基于关键词的文档查询方法,其特征在于,所述滑动步长的确定方法包括:判断当前一次滑动窗口中是否存在未标记的字符;若是,则根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长;若否,则根据当前文档中未标记的字符的编号确定所述滑动步长。5.根据权利要求4所述的基于关键词的文档查询方法,其特征在于,所述根据当前一次滑动窗口中未标记的字符的编号确定所述滑动步长进一步包括:将当前一次滑动窗口中未标记的字符的最大编号作为第一选定编号;将当前一次滑动窗口中字符的最小编号作为第二选定编号;根据所述第一选定编号和所述第二选定编号,计算得到滑动步长。6.根据权利要求5所述的基于关键词的文档查询方法,其特征在于,所述根据所述第一选定编号和所述第二选定编号,计算得到滑动步长进一步包括:通过如下公式计算得到滑动步长:S=N

M+1;其中S为滑动步长,N为第一选定编号,M为第二选定编号。7.根据权利要求4所述的基于关键词的文档查询方法,其特征在于,所述根据当前文档中未标记的字符的编号确定所述滑动步长进一步包括:
将沿字符编号由小至大的方向上位于当前一次滑动窗口后的第一个字符作为当前字符,执行如下判断步骤:判断当前字符是否为未标记的字符;若是,则停止判断,将当前字符的编号作为第一标...

【专利技术属性】
技术研发人员:陈钊
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1