一种文档相似段落的标记查询方法、系统、设备及存储介质技术方案

技术编号：29331388 阅读：21 留言：0更新日期：2021-07-20 17:48

本发明专利技术公开了一种文档相似段落的标记查询方法、系统、设备及存储介质，上述方法包括：判断标记文本的长度是否大于第一长度阈值；若标记文本的长度小于第一长度阈值，则根据标记文本对文档库中的文档进行匹配获得查询结果并输出；或；若标记文本的长度大于第一长度阈值，则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。本发明专利技术将标记文本按照长度不同分为不同种类的标记文本，针对不同长度的标记文本采用不同的匹配策略，使查询结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档相似段落的标记查询方法、系统、设备及存储介质
本专利技术涉及数据分析
，尤其涉及一种文档相似段落的标记查询方法、系统、设备及存储介质。
技术介绍
如今，很多企业都有大量的文档文本数据，包括产品手册，商业合同，部署文档等等专业性很强的文档。而为了便于统一管理，很多公司都会将这些文档数据集中起来，并且提供查询，阅读，推荐等智能化服务。通过提供文本相似段落的自动查询匹配服务可以帮助用户更好的利用文档库中的文本资源，提升文档资源的价值。文本相似段落自动查询匹配服务的基本功能是：用户在阅读时手动标记一段文字，标记后，系统通过使用NLP等相关技术，在后台从文档库的所有文档中自动匹配与标记段落内容相似的段落返回给用户。用户可以根据匹配结果找到内容相似的段落或文本作为参考。现有技术大部分是类似于文本查重的解决方案。例如SimHash，大致计算过程如下：1.对文档提取特征及特征对应的权重；2.对特征进行hash，生成对应的hash值；3.hash值加权：对特征hash值的每一位做循环处理：如果该位值为1，则用weight代替，否则，用-weight代替；4.求和：将特征hash加权后的结果，按位求和，然后将结果按位二值化：大于0则为1，否则为0，即得到最后的SimHash值。得到文档的SimHash值后，计算两篇文档SimHash值的海明距离，作为两篇文档的相似度。但是，SimHash本身是Google用于对海量网页去重的算法，适用于整篇文档的相似性计算。而对于较短...

【技术保护点】
1.一种文档相似段落的标记查询方法，其特征在于，包括：/n长度判断步骤S1：判断标记文本的长度是否大于第一长度阈值；/n查询结果获得步骤S2：若所述标记文本的长度小于所述第一长度阈值，则根据所述标记文本对文档库中的文档进行匹配获得查询结果并输出；或；/n查询结果获得步骤S2'：若所述标记文本的长度大于所述第一长度阈值，则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。/n

【技术特征摘要】
1.一种文档相似段落的标记查询方法，其特征在于，包括：
长度判断步骤S1：判断标记文本的长度是否大于第一长度阈值；
查询结果获得步骤S2：若所述标记文本的长度小于所述第一长度阈值，则根据所述标记文本对文档库中的文档进行匹配获得查询结果并输出；或；
查询结果获得步骤S2'：若所述标记文本的长度大于所述第一长度阈值，则将文档库中的文档进行段落分割后通过相似度比较获得查询结果并输出。

2.根据权利要求1所述的一种文档相似段落的标记查询方法，其特征在于，所述查询结果获得步骤S2包括：若所述标记文本的长度小于所述第一长度阈值，则在所述文档库中的全部文档中搜索所述标记文本，将所述标记文本所在的句子、所述句子在文档中的位置以及对应的文档名作为查询结果并输出。

3.根据权利要求1所述的一种文档相似段落的标记查询方法，其特征在于，所述查询结果获得步骤S2'包括：
分割步骤S21'：根据所述标记文本的长度对所述文档进行段落分割获得多个分割文本段落；
相似度计算步骤S22'：根据所述标记文本的长度对所述标记文本与所述分割文本段落的相似度进行计算获得多个相似度；
相似度比较步骤S23'：将多个所述相似度与一相似度阈值进行比较后将所述相似度高于所述相似度阈值的所述分割文本段落、所述分割文本段落在文档中的位置以及对应的文档名作为查询结果并输出。

4.根据权利要求3所述的一种文档相似段落的标记查询方法，其特征在于，所述相似度计算步骤S22'包括：
中长文本相似度计算步骤S221'：若所述标记文本长度大于所述第一长度阈值，且小于第二长度阈值，通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述标记文本与所述分割文本段落的相似度；或；
长文本相似度计算步骤S222'：若所述标记文本长度大于所述第二长度阈值，通过LAD主题模型得到所述标记文本与所述分割文本段落的相似度。

5.一种文档相似段落的标记查询系统，其特征在于，包括：
长度判断单元：判断标记文本的长度是否大于第一长度阈值；

【专利技术属性】
技术研发人员：刘俊辰，尤旸，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人