文档碎化方法、数据检索方法、装置及电子设备制造方法及图纸

技术编号:33040508 阅读:17 留言:0更新日期:2022-04-15 09:21
本申请公开了一种文档碎化方法、数据检索方法、装置及电子设备,该文档碎化方法包括:获取待碎化的目标文档;将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;将生成的子文档作为所述目标文档的碎化结果存储到数据库中。通过对文档的碎化处理,获得了更加细粒度的章节层级的内容,从而能够在数据检索时以章节为最小检索对象,进而将检索结果定位到具体的章节,使得用户可以直观看到需要参考的章节知识,让知识的定位与推荐更精准。知识的定位与推荐更精准。知识的定位与推荐更精准。

【技术实现步骤摘要】
文档碎化方法、数据检索方法、装置及电子设备


[0001]本申请涉及文档处理
,尤其涉及一种文档碎化方法、数据检索方法、装置及电子设备。

技术介绍

[0002]在进行数据搜索和数据推荐时,一般会以一篇完整的文档作为最小的检索对象,将检索条件与数据库中的文档进行匹配,返回满足检索条件的文档,在展示检索结果时也是以文档为最小单位进行展示,因此用户只能定位到具体的文档。

技术实现思路

[0003]本申请实施例提供一种文档碎化方法、装置、电子设备及存储介质,以及基于碎化后的文档实现的数据检索方法、装置、电子设备及存储介质,通过对文档的碎化处理,获得了更加细粒度的章节层级的内容,进而将检索结果定位到具体的章节,使得用户可以直观看到需要参考的章节知识,让知识的定位与推荐更精准。
[0004]一方面,本申请一实施例提供了一种文档碎化方法,包括:
[0005]获取待碎化的目标文档;
[0006]将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;
[0007]基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;
[0008]将生成的子文档作为所述目标文档的碎化结果存储到数据库中。
[0009]可选地,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
[0010]获取所述目标文档的目录信息,所述目录信息包括章节之间的层级关系以及每个章节在所述目标文档中的起始位置;
[0011]从所述目录信息中提取章节层级不高于碎化层级深度的章节,作为碎化章节;
[0012]针对每个碎化章节,从所述目标文档中提取出位于该碎化章节的起始位置和下一个碎化章节的起始位置之间的内容,作为该碎化章节的正文内容。
[0013]可选地,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
[0014]以段落为单位,将所述目标文档划分成多个碎化章节,每个碎化章节包含的段落数量不超过段落数量阈值;
[0015]针对每个碎化章节,从所述目标文档中提取该碎化章节包含的段落内容,作为该碎化章节的正文内容;
[0016]可选地,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:
[0017]从所述目标文本中抽取出多个主题,每个主题对应一个碎化章节;
[0018]获取所述目标文档中每个段落与各主题之间的相似度,基于获取的相似度将各个
段落划分到最相似的主题下;
[0019]针对每个碎化章节,从所述目标文档中提取该碎化章节对应的主题下的段落内容,作为该碎化章节的正文内容。
[0020]可选地,所述方法还包括:
[0021]建立子文档和所述目标文档之间的索引关系,并存储到所述数据库中。
[0022]一方面,本申请一实施例提供了一种文档碎化装置,包括:
[0023]获取模块,用于获取待碎化的目标文档;
[0024]碎化模块,用于将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;
[0025]生成模块,用于基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;
[0026]存储模块,用于将生成的子文档作为所述目标文档的碎化结果存储到数据库中。
[0027]一方面,本申请一实施例提供了一种数据检索方法,包括:
[0028]获取检索条件;
[0029]从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;
[0030]按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。
[0031]可选地,所述从数据库中检索满足所述检索条件的检索结果,包括:
[0032]获取配置的检索对象层级,所述检索对象层级包括知识条目、文档和碎化章节中的至少一种;
[0033]从数据库中符合所述检索对象层级规定的数据中,获取满足所述检索条件的检索结果;
[0034]可选地,通过如下方式配置检索对象层级:
[0035]基于用户历史浏览记录,获取用户浏览各种层级数据的次数;
[0036]基于用户浏览各种层级数据的次数,确定用户偏好的数据层级;
[0037]基于所述用户偏好的数据层级配置检索对象层级。
[0038]可选地,所述获取检索条件包括:
[0039]获取目标用户所属的专业和执行的目标任务;
[0040]获取所述目标任务所属的专业;
[0041]获取所述目标任务相关的参考资料,从所述参考资料中提取关键词;
[0042]基于所述目标任务的任务标题、所述目标用户所属的专业、所述目标任务所属的专业和提取的关键词,生成所述检索条件。
[0043]可选地,当所述显示方式为平铺显示时,逐条展示所述检索结果中的数据;当所述显示方式为合并显示时,按照知识条目、文档和碎化章节之间的关联层级关系,以树结构的形式展示所述检索结果中的数据。
[0044]一方面,本申请一实施例提供了一种数据检索装置,包括:
[0045]检索条件获取模块,用于获取检索条件;
[0046]检索模块,用于从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;
[0047]展示模块,用于按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。
[0048]一方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种文档碎化方法或数据检索方法的步骤。
[0049]一方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种文档碎化方法或数据检索方法的步骤。
[0050]一方面,本申请一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种TCP传输性能的控制的各种可选实现方式中提供的方法。
[0051]本申请实施例提供的技术方案,首先,基于文档的结构将文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;然后,基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档碎化方法,其特征在于,包括:获取待碎化的目标文档;将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容;基于每个碎化章节对应的正文内容,生成每个碎化章节对应的子文档;将生成的子文档作为所述目标文档的碎化结果存储到数据库中。2.根据权利要求1所述的方法,其特征在于,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:获取所述目标文档的目录信息,所述目录信息包括章节之间的层级关系以及每个章节在所述目标文档中的起始位置;从所述目录信息中提取章节层级不高于碎化层级深度的章节,作为碎化章节;针对每个碎化章节,从所述目标文档中提取出位于该碎化章节的起始位置和下一个碎化章节的起始位置之间的内容,作为该碎化章节的正文内容。3.根据权利要求1所述的方法,其特征在于,所述将所述目标文档划分成多个碎化章节,并确定每个碎化章节对应的正文内容,包括:以段落为单位,将所述目标文档划分成多个碎化章节,每个碎化章节包含的段落数量不超过段落数量阈值;针对每个碎化章节,从所述目标文档中提取该碎化章节包含的段落内容,作为该碎化章节的正文内容;或者,从所述目标文本中抽取出多个主题,每个主题对应一个碎化章节;获取所述目标文档中每个段落与各主题之间的相似度,基于获取的相似度将各个段落划分到最相似的主题下;针对每个碎化章节,从所述目标文档中提取该碎化章节对应的主题下的段落内容,作为该碎化章节的正文内容。4.一种数据检索方法,其特征在于,包括:获取检索条件;从数据库中检索满足所述检索条件的检索结果,所述数据库中包括知识条目、文档和碎化章节这三种层级的数据,其中,每个知识条目关联多个文档,每个文档关联的碎化章节是基于权利要求1至3任一项所述的文档碎化方法获得的;按照配置的显示方式展示所述检索结果,其中,文档的展示信息中包括文档所属的知识条目,碎化章节的展示信息中包括碎化章节所属的文档和知识条目。5.根据权利要求4所述的方法,其特征在于,所述从数据库中检索满足所述检索条件的检索结果,包括:获取配置...

【专利技术属性】
技术研发人员:杨金刚薛乾生冷叙辰李义章
申请(专利权)人:北京索为系统技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1