一种基于大数据平台的文本匹配和检索的方法及系统技术方案

技术编号：41139941 阅读：3 留言：0更新日期：2024-04-30 18:10

本发明专利技术公开了一种基于大数据平台的文本匹配和检索的方法及系统，应用于文本处理技术领域。本发明专利技术包括：数据处理和存储步骤：对待存储的文本数据进行预处理，并将预处理后的文本数据存储在预先建立的备份信息库；数据二次核对步骤：判断存储的文本数据信息是否为冗余信息；模型建立和训练步骤：将判断后的文本数据分为训练集和测试集，建立文本匹配模型，并将训练集输入至文本匹配模型来完成模型训练；文本匹配步骤：将测试集输入至训练好的文本匹配模型来实现文本匹配，并使用各种指标对模型的性能进行评估。本发明专利技术有效的保证文本数据的匹配和检索效率，从而便于工作人员进行相关的档案管理工作。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本处理，更具体的说是涉及一种基于大数据平台的文本匹配和检索的方法及系统。

技术介绍

1、档案管理亦称档案工作。是档案馆(室)直接对档案实体和档案信息进行管理并提供利用服务的各项业务工作的总称，也是国家档案事业最基本的组成部分；目前，档案管理模式主要采用手工管理模式，包括档案接收、整理、鉴定、保管、利用、编研等，都以手工为主，管理不是很科学、工作效率低，档案信息化有一定基础，但离真正的网络(局域网、互联网)平台上的“虚拟档案馆”还有很大距离。在已有信息化系统里，因为一些系统缺少必要的系统控制，造成录入的信息不全。并且存在各系统的衔接问题，这些问题给实现文档一体化造成了间接的困难。

2、在现有技术中，档案管理系统著录与查询往往需要较多工作者进行参与，并需要相关的工作者对其进行数据的监控，实际的工作过程中，会有录入的信息不能得到快速编著的问题，使得录入的信息不能被有效的进行编辑，会存在重复信息存储在在线空间的问题，不利于空间的实际存储效率的同时，还会影响后续的档案的查询工作，从而会影响档案管理系统著录、文本匹配与查询的实际工作效率。

3、因此，提出一种基于大数据平台的文本匹配和检索的方法及系统，解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种基于大数据平台的文本匹配和检索的方法及系统，有效的保证文本数据的匹配和检索效率，从而便于工作人员进行相关的档案管理工作。

2、为了实现上述目

3、一种基于大数据平台的文本匹配和检索的方法，包括以下步骤：

4、s1、数据处理和存储步骤：对待存储的文本数据进行预处理，并将预处理后的文本数据存储在预先建立的备份信息库；

5、s2、数据二次核对步骤：判断s1中存储的文本数据信息是否为冗余信息；

6、s3、模型建立和训练步骤：将s2中判断后的文本数据分为训练集和测试集，建立文本匹配模型，并将训练集输入至文本匹配模型来完成模型训练；

7、s4、文本匹配步骤：将s3中的测试集输入至训练好的文本匹配模型来实现文本匹配，并使用各种指标对模型的性能进行评估。

8、可选的，s1中对待存储的文本数据进行预处理包括：对文本数据进行清洗、去重、分词的处理。

9、可选的，s1中还包括：将存储的文本数据通过备份信息库上传至云平台中，云平台中设置有主题检测空间和内容检索空间。

10、可选的，s2中数据二次核对具体包括：

11、对云平台中的主题检测空间和内容检索空间的重复文本数据信息进行筛选，并对筛选出的文本数据信息进行标注，判断筛选出的文本数据信息是否为冗余信息，若文本数据信息为冗余信息则对信息进行删除处理，若文本数据信息不是冗余信息则进行信息标注，并对标注信息进行解释。

12、可选的，还包括对主题检测空间和内容检索空间的文本数据信息进行检索号的建立，检索号与主题检测空间和内容检索空间的文本数据信息一一对应，然后根据训练好的文本匹配模型对文本数据进行检索。

13、可选的，文本匹配模型的结构具体为：包括word representation层，contextrepresentation层，matching层，aggregation层以及prediction层。

14、一种基于大数据平台的文本匹配和检索的系统，执行任一项上述的一种基于大数据平台的文本匹配和检索的方法，包括依次连接的数据处理和存储模块、数据二次核对模块、模型建立和训练模块、文本匹配模块；其中，

15、数据处理和存储模块，用于对待存储的文本数据进行预处理，并将预处理后的文本数据存储在预先建立的备份信息库；

16、数据二次核对模块，用于判断数据处理和存储模块中存储的文本数据信息是否为冗余信息；

17、模型建立和训练模块，用于将数据二次核对模块中判断后的文本数据分为训练集和测试集，建立文本匹配模型，并将训练集输入至文本匹配模型来完成模型训练；

18、文本匹配模块，用于将模型建立和训练模块中的测试集输入至训练好的文本匹配模型来实现文本匹配，并使用各种指标对模型的性能进行评估。

19、经由上述的技术方案可知，与现有技术相比，本专利技术公开提供了一种基于大数据平台的文本匹配和检索的方法及系统，具有以下有益效果：

20、本专利技术通过主题检测空间和内容检索空间的对应建立，能够及时的对数据进行分析整理，同时通过文本匹配模型进行文本的匹配，从而保证数据在进行检索和匹配的过程中，对无关的数据进行筛选剔除，有效的保证文本数据的匹配和检索效率，从而便于工作人员进行相关的档案管理工作。

本文档来自技高网...

【技术保护点】

1.一种基于大数据平台的文本匹配和检索的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，S1中对待存储的文本数据进行预处理包括：对文本数据进行清洗、去重、分词的处理。

3.根据权利要求1所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，S1中还包括：将存储的文本数据通过备份信息库上传至云平台中，云平台中设置有主题检测空间和内容检索空间。

4.根据权利要求3所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，S2中数据二次核对具体包括：

5.根据权利要求4所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，还包括对主题检测空间和内容检索空间的文本数据信息进行检索号的建立，检索号与主题检测空间和内容检索空间的文本数据信息一一对应，然后根据训练好的文本匹配模型对文本数据进行检索。

6.根据权利要求5所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，文本匹配模型的结构具体为：包括Word Representation层，Conte

7.一种基于大数据平台的文本匹配和检索的系统，其特征在于，执行权利要求1-6任一项所述的一种基于大数据平台的文本匹配和检索的方法，包括依次连接的数据处理和存储模块、数据二次核对模块、模型建立和训练模块、文本匹配模块；其中，

...

【技术特征摘要】

1.一种基于大数据平台的文本匹配和检索的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，s1中对待存储的文本数据进行预处理包括：对文本数据进行清洗、去重、分词的处理。

3.根据权利要求1所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，s1中还包括：将存储的文本数据通过备份信息库上传至云平台中，云平台中设置有主题检测空间和内容检索空间。

4.根据权利要求3所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，s2中数据二次核对具体包括：

5.根据权利要求4所述的一种基于大数据平台的文本匹配和检索的方法，其特征在于，还包括对主题检测空间和...

【专利技术属性】
技术研发人员：熊松泉，徐莹，马长安，
申请(专利权)人：宁波财经学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人