System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档内容的搜索方法、装置、处理器以及电子设备制造方法及图纸_技高网

文档内容的搜索方法、装置、处理器以及电子设备制造方法及图纸

技术编号:40265973 阅读:11 留言:0更新日期:2024-02-02 22:54
本申请公开了一种文档内容的搜索方法、装置、处理器以及电子设备。涉及人工智能领域或其他相关领域,该方法包括:获取用户从Z个候选文档中搜索目标目录字段时使用的搜索字段,并根据搜索字段从Z个候选文档的目录中确定M个候选目录字段;根据搜索字段与每个候选目录字段的匹配程度,计算搜索字段与每个候选目录字段之间的关联度得分,得到M个关联度得分;对M个关联度得分进行降序排序,得到检索排列,并将检索排列中预设位序的关联度得分关联的候选目录字段确定为目标目录字段,并展示目标目录字段下的文档内容。通过本申请,解决了相关技术中从候选文档中检索文档内容时检索成本高、检索结果的准确率低的问题。

【技术实现步骤摘要】

本申请涉及人工智能领域或其他相关领域,具体而言,涉及一种文档内容的搜索方法、装置、处理器以及电子设备


技术介绍

1、随着企业对企业制度的不断完善,为了方便企业用户学习到各项规章制度,企业通常会将设置的多份制度文档存放至企业网站的数据库中,当用户需要查看某项制度时,可以通过下载该制度的制度文档。但若用户不确定想了解的制度在哪份文档中,则需要下载多个制度文档依次打开查看,同时,用户也不能直接获取制度关联的条例结果。

2、因此,为了解决用户检索文档不方便的问题,相关技术中通过将全部制度文档导入全文检索应用中,将得分高的文档和相关段落返回给用户;或通过人工整理的方法,将用户查询语句与所配置的标准问相似问进行语义匹配,匹配上后返回配置的答案返回给用户;或使用深度神经网络进行摘要抽取与匹配,对文档进行检索后将结果返回给用户。但以上方法仍存在着检索粒度过大导致定位不精准的问题、成本高,抽取效果较差导致准确率低的问题。

3、针对相关技术中从候选文档中检索文档内容时检索成本高、检索结果的准确率低的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请的主要目的在于提供一种文档内容的搜索方法、装置、处理器以及电子设备,以解决相关技术中从候选文档中检索文档内容时检索成本高、检索结果的准确率低的问题。

2、为了实现上述目的,根据本申请的一个方面,提供了一种文档内容的搜索方法。该方法包括:获取用户从z个候选文档中搜索目标目录字段时使用的搜索字段,并根据搜索字段从z个候选文档的目录中确定m个候选目录字段,其中,每个候选文档包括多级目录,每级目录下关联有文档内容,m、z为正整数;根据搜索字段与每个候选目录字段的匹配程度,计算搜索字段与每个候选目录字段之间的关联度得分,得到m个关联度得分;对m个关联度得分进行降序排序,得到检索排列,并将检索排列中预设位序的关联度得分关联的候选目录字段确定为目标目录字段,并展示目标目录字段下的文档内容。

3、可选地,根据搜索字段从z个候选文档的目录中确定m个候选目录字段包括:从z个候选文档中提取标准目录字段,得到y个标准目录字段,其中,标准目录字段的目录等级至少包括以下之一:文档目录、章节目录以及条例目录,y为正整数;分别将每个标准目录字段与搜索字段进行相似度计算,得到y个相似度数据,并将y个相似度数据进行降序排序,得到相似度排列,从相似度排列中获取预设数量的相似度数据关联的标准目录字段,得到m个候选目录字段。

4、可选地,从z个候选文档中提取标准目录字段,得到y个标准目录字段包括:获取z个候选文档关联的文档目录字段以及多个章节目录字段,其中,每个文档目录字段包括一个文档目录,每个章节目录字段包括一个文档目录以及一个章节目录;获取z个候选文档内每个章节关联的多个条例目录字段,其中,每个条例目录字段包括一个文档目录、一个章节目录以及一个条例目录;将z个候选文档关联的文档目录字段、多个章节目录字段以及多个条例目录字段确定为y个标准目录字段。

5、可选地,根据搜索字段与每个候选目录字段的匹配程度,计算搜索字段与每个候选目录字段之间的关联度得分包括:根据搜索字段与每个候选目录字段的匹配程度确定第一关联度得分;对于每个候选目录字段,将候选目录字段进行分句处理,得到x个分句,将搜索字段与每个分句进行相似度计算,得到x个相似度数据,并将x个相似度数据中数值最大的相似度数据确定为目标相似度,由目标相似度确定第二关联度得分,其中,x为正整数;获取每个候选目录字段的点击率数据,得到m个点击率,根据m个点击率确定第三关联度得分;确定搜索字段的n个搜索词,计算n个搜索词的核心词指标,得到n个核心词指标,并根据n个核心词指标确定第四关联度得分,其中,n为正整数;由第一关联度得分、第二关联度得分、第三关联度得分以及第四关联度得分确定关联度得分。

6、可选地,候选文档为规章制度文档,由第一关联度得分、第二关联度得分、第三关联度得分以及第四关联度得分确定关联度得分包括:对于一个候选文档,获取用户的岗位信息,计算岗位信息与候选文档的相关关系,并根据相关关系判断候选文档是否为岗位信息关联的文档;在候选文档为岗位信息关联的文档的情况下,将第一关联度得分、第二关联度得分、第三关联度得分以及第四关联度得分进行求和计算,得到检索总和,并计算检索总和与预设权重的乘积,得到关联度得分;在候选文档不为岗位信息关联的文档的情况下,将检索总和确定为关联度得分。

7、可选地,根据搜索字段与每个候选目录字段的匹配程度确定第一关联度得分包括:将搜索字段进行分词处理,得到n个搜索词,并从n个搜索词中分别获取与m个候选目录字段匹配的词语,得到m组匹配词,其中,每组匹配词是与一个候选目录字段匹配的搜索词;计算每组匹配词内每个匹配词词长的子权重,并计算每组匹配词内所有匹配词词长的子权重的总和,得到词长权重;获取搜索字段的搜索权重以及字段权重,计算词长权重与字段权重的总和,得到第一总和,并计算第一总和与搜索权重的乘积,得到第一关联度得分,其中,搜索权重是根据预设搜索程序确定的,字段权重是由每个候选目录字段的目录等级确定。

8、可选地,计算n个搜索词的核心词指标,得到n个核心词指标,并根据n个核心词指标确定第四关联度得分包括:对于一个候选文档,获取候选文档中每个搜索词的数量,得到n组搜索词总数,并获取每个候选文档的长度以及平均文档长度,计算每组搜索词总数与候选文档的总词数的比值,得到n组词汇比值,并计算长度与平均文档长度的比值,得到文档比值;获取包含至少一个搜索词的候选文档的数量,得到文档数量,并计算z与文档数量的比值的对数值,得到比值对数值;计算n组词汇比值和文档比值的乘积,得到n组预设比值,计算n组预设比值、比值对数值与n组词汇比值的乘积,得到n个核心词指标;由每个候选目录字段关联的文本段确定文段比值、文段比值对数值,并由文段比值、文段比值对数值以及文档比值确定m个核心词指标,将n个核心词指标以及m个核心词指标进行加权求和计算,得到第四关联度得分。

9、可选地,在根据搜索字段从z个候选文档的目录中确定m个候选目录字段之后,方法还包括:判断y个相似度数据中是否存在大于预设阈值的相似度数据;在y个相似度数据中不存在大于预设阈值的相似度数据的情况下,执行根据搜索字段与每个候选目录字段的匹配程度,计算搜索字段与每个候选目录字段之间的关联度得分的步骤;在y个相似度数据中存在大于预设阈值的相似度数据的情况下,从大于预设阈值的相似度数据中确定最大相似度数据,并将最大相似度数据关联的标准目录字段确定为目标目录字段。

10、为了实现上述目的,根据本申请的另一方面,提供了一种文档内容的搜索装置。该装置包括:获取单元,用于获取用户从z个候选文档中搜索目标目录字段时使用的搜索字段,并根据搜索字段从z个候选文档的目录中确定m个候选目录字段,其中,每个候选文档包括多级目录,每级目录下关联有文档内容,m、z为正整数;计算单元,用于根据搜索字段与每个候选目录字段的匹配程本文档来自技高网...

【技术保护点】

1.一种文档内容的搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述搜索字段从所述Z个候选文档的目录中确定M个候选目录字段包括:

3.根据权利要求2所述的方法,其特征在于,从所述Z个候选文档中提取标准目录字段,得到Y个标准目录字段包括:

4.根据权利要求1所述的方法,其特征在于,根据所述搜索字段与每个候选目录字段的匹配程度,计算所述搜索字段与每个候选目录字段之间的关联度得分包括:

5.根据权利要求4所述的方法,其特征在于,所述候选文档为规章制度文档,由所述第一关联度得分、所述第二关联度得分、所述第三关联度得分以及所述第四关联度得分确定所述关联度得分包括:

6.根据权利要求4所述的方法,其特征在于,根据所述搜索字段与每个候选目录字段的匹配程度确定第一关联度得分包括:

7.根据权利要求4所述的方法,其特征在于,计算所述N个搜索词的核心词指标,得到N个核心词指标,并根据所述N个核心词指标确定第四关联度得分包括:

8.根据权利要求2所述的方法,其特征在于,在根据所述搜索字段从所述Z个候选文档的目录中确定M个候选目录字段之后,所述方法还包括:

9.一种文档内容的搜索装置,其特征在于,包括:

10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的文档内容的搜索方法。

11.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至8中任意一项所述的文档内容的搜索方法。

...

【技术特征摘要】

1.一种文档内容的搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述搜索字段从所述z个候选文档的目录中确定m个候选目录字段包括:

3.根据权利要求2所述的方法,其特征在于,从所述z个候选文档中提取标准目录字段,得到y个标准目录字段包括:

4.根据权利要求1所述的方法,其特征在于,根据所述搜索字段与每个候选目录字段的匹配程度,计算所述搜索字段与每个候选目录字段之间的关联度得分包括:

5.根据权利要求4所述的方法,其特征在于,所述候选文档为规章制度文档,由所述第一关联度得分、所述第二关联度得分、所述第三关联度得分以及所述第四关联度得分确定所述关联度得分包括:

6.根据权利要求4所述的方法,其特征在于,根据所述搜索字段与每个候选目录字段的匹配程度确定第一关联度得...

【专利技术属性】
技术研发人员:袁旺柳孙雨辰敖建
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1