本发明专利技术公开了一种文档相似段落的标记查询方法、系统、设备及存储介质,上述方法包括:判断标记文本的长度是否大于第一长度阈值;若标记文本的长度小于第一长度阈值,则根据标记文本对文档库中的文档进行匹配获得查询结果并输出;或;若标记文本的长度大于第一长度阈值,则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。本发明专利技术将标记文本按照长度不同分为不同种类的标记文本,针对不同长度的标记文本采用不同的匹配策略,使查询结果更加准确。
【技术实现步骤摘要】
一种文档相似段落的标记查询方法、系统、设备及存储介质
本专利技术涉及数据分析
,尤其涉及一种文档相似段落的标记查询方法、系统、设备及存储介质。
技术介绍
如今,很多企业都有大量的文档文本数据,包括产品手册,商业合同,部署文档等等专业性很强的文档。而为了便于统一管理,很多公司都会将这些文档数据集中起来,并且提供查询,阅读,推荐等智能化服务。通过提供文本相似段落的自动查询匹配服务可以帮助用户更好的利用文档库中的文本资源,提升文档资源的价值。文本相似段落自动查询匹配服务的基本功能是:用户在阅读时手动标记一段文字,标记后,系统通过使用NLP等相关技术,在后台从文档库的所有文档中自动匹配与标记段落内容相似的段落返回给用户。用户可以根据匹配结果找到内容相似的段落或文本作为参考。现有技术大部分是类似于文本查重的解决方案。例如SimHash,大致计算过程如下:1.对文档提取特征及特征对应的权重;2.对特征进行hash,生成对应的hash值;3.hash值加权:对特征hash值的每一位做循环处理:如果该位值为1,则用weight代替,否则,用-weight代替;4.求和:将特征hash加权后的结果,按位求和,然后将结果按位二值化:大于0则为1,否则为0,即得到最后的SimHash值。得到文档的SimHash值后,计算两篇文档SimHash值的海明距离,作为两篇文档的相似度。但是,SimHash本身是Google用于对海量网页去重的算法,适用于整篇文档的相似性计算。而对于较短的文本段落,SimHash往往不能达到很好的效果。此外,SimHash并没有将文本的语义信息考虑进去,对于如中文这种表述方式非常灵活的语言环境,并且仅仅是同样涉及某一个或几个概念,而非大段内容相似的情况,SimHash无法得到准确的相似性结果。
技术实现思路
本专利技术针对上述的现有技术无法针对较短的文本段落进行相似性计算以及没有考虑文本的语义信息的技术问题,提出一种文档相似段落的标记查询方法、系统、设备及存储介质。第一方面,本申请实施例提供了一种文档相似段落的标记查询方法,包括:长度判断步骤S1:判断标记文本的长度是否大于第一长度阈值;查询结果获得步骤S2:若所述标记文本的长度小于所述第一长度阈值,则根据所述标记文本对文档库中的文档进行匹配获得查询结果并输出;或;查询结果获得步骤S2':若所述标记文本的长度大于所述第一长度阈值,则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。上述文档相似段落的标记查询方法,其中,所述查询结果获得步骤S2包括:若所述标记文本的长度小于所述第一长度阈值,则在所述文档库中的全部文档中搜索所述标记文本,将所述标记文本所在的句子、所述句子在文档中的位置以及对应的文档名作为查询结果并输出。上述文档相似段落的标记查询方法,其中,所述查询结果获得步骤S2'包括:分割步骤S21':根据所述标记文本的长度对所述文档进行段落分割获得多个分割文本段落;相似度计算步骤S22':根据所述标记文本的长度对所述标记文本与所述分割文本段落的相似度进行计算获得多个相似度;相似度比较步骤S23':将多个所述相似度与一相似度阈值进行比较后将所述相似度高于所述相似度阈值的所述分割文本段落、所述分割文本段落在文档中的位置以及对应的文档名作为查询结果并输出。上述文档相似段落的标记查询方法,其中,所述相似度计算步骤S22'包括:中长文本相似度计算步骤S221':若所述标记文本长度大于所述第一长度阈值,且小于第二长度阈值,通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述标记文本与所述分割文本段落的相似度;或;长文本相似度计算步骤S222':若所述标记文本长度大于所述第二长度阈值,通过LAD主题模型得到所述标记文本与所述分割文本段落的相似度。第二方面,本申请实施例提供了一种文档相似段落的标记查询系统,包括:长度判断单元:判断标记文本的长度是否大于第一长度阈值;查询结果获得单元:若所述标记文本的长度小于所述第一长度阈值,所述查询结果获得单元则根据所述标记文本对文档库中的文档进行匹配获得查询结果并输出;若所述标记文本的长度大于所述第一长度阈值,所述查询结果获得单元则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。上述文档相似段落的标记查询系统,其中,若所述标记文本的长度小于所述第一长度阈值,所述查询结果获得单元则在所述文档库中的全部文档中搜索所述标记文本,将所述标记文本所在的句子、所述句子在文档中的位置以及对应的文档名作为查询结果并输出。上述文档相似段落的标记查询系统,其中,所述查询结果获得单元包括:分割模块:根据所述标记文本的长度对所述文档进行段落分割获得多个分割文本段落;相似度计算模块:根据所述标记文本的长度对所述标记文本与所述分割文本段落的相似度进行计算获得多个相似度;相似度比较模块:将多个所述相似度与一相似度阈值进行比较后将所述相似度高于所述相似度阈值的所述分割文本段落、所述分割文本段落在文档中的位置以及对应的文档名作为查询结果并输出。上述文档相似段落的标记查询系统,其中,若所述标记文本长度大于所述第一长度阈值,且小于第二长度阈值,所述相似度计算模块通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述标记文本与所述分割文本段落的相似度;若所述标记文本长度大于所述第二长度阈值,所述相似度计算模块通过LAD主题模型得到所述标记文本与所述分割文本段落的相似度。第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的文档相似段落的标记查询方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的文档相似段落的标记查询方法。与现有技术相比,本专利技术的优点和积极效果在于:1.本专利技术将标记文本按照长度不同分为不同种类的标记文本,针对不同长度的标记文本采用不同的匹配策略,使查询结果更加准确;2.本专利技术属于深度学习
,对于中长文本与长文本,进行相似度计算时充分考虑语义信息,大大提升了匹配效果,提高了用户体验。附图说明图1为本专利技术提供的一种文档相似段落的标记查询方法的步骤示意图;图2为本专利技术提供的基于图1中步骤S2’的流程图;图3为本专利技术提供的基于图2中步骤S22’的流程图;图4为本专利技术提供的一种文档相似段落的标记查询方法一实施例流程示意图;图5为本专利技术提供的一种文档相似段落的标记查询系统的框架图;图6为根据本申请实施例的计算机设备的框架图。其中,附图标记为:1、长度判断单元;2、查询结果获得单元;21、分割模块;本文档来自技高网...
【技术保护点】
1.一种文档相似段落的标记查询方法,其特征在于,包括:/n长度判断步骤S1:判断标记文本的长度是否大于第一长度阈值;/n查询结果获得步骤S2:若所述标记文本的长度小于所述第一长度阈值,则根据所述标记文本对文档库中的文档进行匹配获得查询结果并输出;或;/n查询结果获得步骤S2':若所述标记文本的长度大于所述第一长度阈值,则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。/n
【技术特征摘要】
1.一种文档相似段落的标记查询方法,其特征在于,包括:
长度判断步骤S1:判断标记文本的长度是否大于第一长度阈值;
查询结果获得步骤S2:若所述标记文本的长度小于所述第一长度阈值,则根据所述标记文本对文档库中的文档进行匹配获得查询结果并输出;或;
查询结果获得步骤S2':若所述标记文本的长度大于所述第一长度阈值,则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。
2.根据权利要求1所述的一种文档相似段落的标记查询方法,其特征在于,所述查询结果获得步骤S2包括:若所述标记文本的长度小于所述第一长度阈值,则在所述文档库中的全部文档中搜索所述标记文本,将所述标记文本所在的句子、所述句子在文档中的位置以及对应的文档名作为查询结果并输出。
3.根据权利要求1所述的一种文档相似段落的标记查询方法,其特征在于,所述查询结果获得步骤S2'包括:
分割步骤S21':根据所述标记文本的长度对所述文档进行段落分割获得多个分割文本段落;
相似度计算步骤S22':根据所述标记文本的长度对所述标记文本与所述分割文本段落的相似度进行计算获得多个相似度;
相似度比较步骤S23':将多个所述相似度与一相似度阈值进行比较后将所述相似度高于所述相似度阈值的所述分割文本段落、所述分割文本段落在文档中的位置以及对应的文档名作为查询结果并输出。
4.根据权利要求3所述的一种文档相似段落的标记查询方法,其特征在于,所述相似度计算步骤S22'包括:
中长文本相似度计算步骤S221':若所述标记文本长度大于所述第一长度阈值,且小于第二长度阈值,通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述标记文本与所述分割文本段落的相似度;或;
长文本相似度计算步骤S222':若所述标记文本长度大于所述第二长度阈值,通过LAD主题模型得到所述标记文本与所述分割文本段落的相似度。
5.一种文档相似段落的标记查询系统,其特征在于,包括:
长度判断单元:判断标记文本的长度是否大于第一长度阈值;
【专利技术属性】
技术研发人员:刘俊辰,尤旸,
申请(专利权)人:北京明略昭辉科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。