【技术实现步骤摘要】
基于关键语句的内容块检索方法、装置、设备和介质
[0001]本专利技术涉及数据处理领域,尤其涉及基于关键语句的内容块检索方法、装置、设备和介质。
技术介绍
[0002]为了能够在待检索文档中获取用户需要的内容,需要用户在文档工具中手动输入关键词,从而在待检索文档中查找到关键词相关的位置。以WORD文档为例,可以利用WORD文档自带的“查找”功能,在文档中确定关键词的查找结果。例如关键词所在语句等。检索准确度较低。
技术实现思路
[0003]本专利技术实施例提供的基于关键语句的内容块检索方法、装置、设备和介质,可以提高文档的内容块检索准确度。
[0004]第一方面,提供一种基于关键语句的内容块检索方法、装置、设备和介质方法,包括:基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分,其中,内容块包括文字段落、标题、表格、图表、图片中的至少一个;基于内容块与关键语句的相关度评分,从内容块中确定关键语句相关的目标内容块;将目标内容块作为待检索文档中关键语句的内容块检索结果。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于关键语句的内容块检索方法,其特征在于,所述方法包括:基于所述关键语句的相关度评分模型,得到待检索文档的内容块与所述关键语句的相关度评分,其中,所述内容块包括文字段落、标题、表格、图表、图片中的至少一个;基于所述内容块与所述关键语句的相关度评分,从所述内容块中确定所述关键语句相关的目标内容块;将所述目标内容块作为所述待检索文档中所述关键语句的内容块检索结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述关键语句的相关度评分模型,得到待检索文档的内容块与所述关键语句的相关度评分,包括:提取所述待检索文档的内容块的特征;将所述内容块的特征输入至所述相关度评分模型,得到所述内容块与关键语句的相关度评分。3.根据权利要求2所述的方法,其特征在于,所述内容块的特征包括以下至少一者:所述内容块的词特征,所述内容块的上下文词特征和所述内容块对应的标题的上级标题的词特征。4.根据权利要求2所述的方法,其特征在于,所述提取所述待检索文档的内容块的特征,包括:若所述特征包括所述内容块的词特征,对所述内容块执行预处理操作,并获取预处理后的内容块的词特征,所述预处理操作包括分词操作和/或去掉冗余文字的操作;若所述特征包括所述内容块的上下文词特征,基于所述内容块以及所述内容块的相邻内容块,得到所述内容块的上下文词特征;若所述特征包括所述内容块的上级标题的词特征,基于所述内容块的上级标题,得到所述内容块的上级标题的词特征。5.根据权利要求4所述的方法,其特征在于,所述基于所述内容块的上级标题,得到所述内容块的上级标题的词特征,包括:基于标题逻辑树确定所述内容块的上级标题;基于所述内容块的上级标题,得到所述内容块的上级标题的词特征。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取所述待检索文档的标题有序序列;将所述标题有序中序列的标题依次作为第一...
【专利技术属性】
技术研发人员:林得苗,
申请(专利权)人:北京庖丁科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。