检索和相似度分析一体化的方法、装置和存储介质制造方法及图纸

技术编号：24035730 阅读：36 留言：0更新日期：2020-05-07 01:51

本发明专利技术公开了检索和相似度分析一体化的方法、装置和存储介质，方法包括以下步骤：获取输入文本，并根据输入文本确定检索词；根据检索词，确定若干个匹配文档；根据匹配文档和输入文本，确定输入文本与每一匹配文档的相似度；根据匹配文档返回每一匹配文档的摘要文本。通过本发明专利技术根据输入文本确定检索词，利用检索词确定匹配文档，并返回匹配文档的摘要文本，即使输入文本包含大量的内容，也能够正常进行检索找到匹配文档，并返回摘要文本，不会出现崩溃的情况；同时能够根据匹配文档和输入文本，确定输入文本与匹配文档的相似度，在检索正常的情况下又支持相似度分析，便捷且用户体验好。本发明专利技术可广泛应用于数据处理领域。

Method, device and storage medium of integration of retrieval and similarity analysis

全部详细技术资料下载

【技术实现步骤摘要】
检索和相似度分析一体化的方法、装置和存储介质
本专利技术涉及数据处理领域，尤其是一种检索和相似度分析一体化的方法、装置和存储介质。
技术介绍
在自然语言处理中，经常会涉及到文本检索和对检索到的文本进行相似度分析的需求。现有的检索系统，通常只能输入少量几个词来检索特定内容，使检索系统能够返回摘要文本，而不支持大量文本的输入，例如“百度”仅支持38个汉字以内，当输入的内容较多时，检索系统会出现崩溃，而通常我们在需要对手上的文本与检索到的特定文本进行相似度分析时(例如查重等)，必然需要输入大量的内容与检索到的特定文本进行对比，也就是说，现有的检索系统不能同时支持检索和相似度分析，不便捷，用户体验差。
技术实现思路
有鉴于此，为了解决上述技术问题，本专利技术的目的是提供便捷且同时满足检索和相似度分析的检索和相似度分析一体化的方法、装置和存储介质。本专利技术采用的技术方案是：检索和相似度分析一体化的方法，包括以下步骤：获取输入文本，并根据输入文本确定检索词；根据检索词，确定若干个匹配文档；根据匹配文档和输入文本，确定输入文本与每一匹配文档的相似度；根据匹配文档返回每一匹配文档的摘要文本。进一步，所述根据输入文本确定检索词的步骤中，包括以下步骤：对第一文本进行分词处理，获得第一名词和第二名词；分别为第一名词和第二名词配置第一分值和第二分值；根据第一分值、第二分值和第一预设阈值，确定预设第一阈值数量的检索词；其中，第一名词包括地点名...

【技术保护点】
1.检索和相似度分析一体化的方法，其特征在于，包括以下步骤：/n获取输入文本，并根据输入文本确定检索词；/n根据检索词，确定若干个匹配文档；/n根据匹配文档和输入文本，确定输入文本与每一匹配文档的相似度；/n根据匹配文档返回每一匹配文档的摘要文本。/n

【技术特征摘要】
1.检索和相似度分析一体化的方法，其特征在于，包括以下步骤：
获取输入文本，并根据输入文本确定检索词；
根据检索词，确定若干个匹配文档；
根据匹配文档和输入文本，确定输入文本与每一匹配文档的相似度；
根据匹配文档返回每一匹配文档的摘要文本。

2.根据权利要求1所述检索和相似度分析一体化的方法，其特征在于：所述根据输入文本确定检索词的步骤中，包括以下步骤：
对第一文本进行分词处理，获得第一名词和第二名词；
分别为第一名词和第二名词配置第一分值和第二分值；
根据第一分值、第二分值和第一预设阈值，确定预设第一阈值数量的检索词；
其中，第一名词包括地点名词、人名、纯数字中的至少一种，第一分值大于第二分值，第二名词包括检索词和第一名词。

3.根据权利要求2所述检索和相似度分析一体化的方法，其特征在于：所述根据第一分值、第二分值和第一预设阈值，确定预设第一阈值数量的检索词的步骤中，包括以下步骤：
若第一名词和第二名词的数量小于第一预设阈值，通过TextRank算法获取输入文本的关键词；
根据第一分值、第二分值和关键词，确定预设第一阈值数量的检索词。

4.根据权利要求1所述检索和相似度分析一体化的方法，其特征在于：所述根据检索词，确定若干个匹配文档的步骤中，包括以下步骤：
根据检索词进行检索，获取每一检索词对应的初步匹配文档和初步匹配文档的初步匹配分值；
将相同的初步匹配文档的初步匹配分值进行累加，得到初步匹配文档的匹配分值；
根据匹配分值和第二预设阈值，确定若干个匹配文档。

5.根据权利要求4所述检索和相似度分析一体化的方法，其特征在于：所述根据匹配分值和第二预设阈值，确定若干个匹配文档的步骤中，具体地：
将匹配分值由高至低排名的排名不大于第二预设阈值的初步匹配文档作为匹配文档。

6.根据权利要求1所述检索和相似度分析一体化的方法，其特征在于：所述根据匹配文档和输入文本，确定输入文本与每一匹配文档的相似度的步骤中，包括以下步骤：
根据输入文本获取输入文本的第一主题关键词集合，根据匹配文档分别获取每一匹配文档对应的第二主题关键词集合；
根据输入文本和匹配文档，分别获取输入文本相对每一匹配文档相似的第一句子的第一数量，以及分别获取每一匹配文档相对输入文本相似的第二句子的第二数量；
分别获取输入文本与每一匹配文...

【专利技术属性】
技术研发人员：卢达沛，罗乐滔，蓝飘，汤强，梁瑜灏，
申请(专利权)人：广州广电运通信息科技有限公司，广州广电运通金融电子股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人