文本批量处理方法、系统、终端设备及计算机存储介质技术方案

技术编号：27743541 阅读：33 留言：0更新日期：2021-03-19 13:37

本公开提供一种文本批量处理方法、系统、终端设备及计算机可读存储介质，其中，所述方法包括：创建文本语义数据库，所述文本语义数据库中包括若干分区；在接收到若干待处理文本后，将所述若干待处理文本分别匹配到相应的分区中；以及，分别对每个分区中的待处理文本进行批量处理。本公开实施例通过构建划分若干分区的投诉语义数据库，对接收到的待处理文本自动匹配分区，进而分别对每个分区的待处理文本进行同步批量处理，提高文本处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本批量处理方法、系统、终端设备及计算机存储介质
本公开涉及数据处理
，尤其涉及一种文本批量处理方法、一种文本批量处理系统、一种终端设备以及一种计算机可读存储介质。
技术介绍
随着通信技术的不断发展，互联网平台需要处理大批量的文本数据。尤其对于电信运营商平台及电商平台等，通常需要处理大量的用户的投诉文本，而随着运营商平台业务范围不断扩大，人工回复投诉问题需要对投诉处理人员进行不停地培训与扩充，人工成本逐渐升高，而自动回复投诉的方法对算法准确性要求很高，有时不能准确匹配用户提出的问题，无法及时有效地解决投诉。因此，当前运营商面临着投诉文本信息量大，文本处理不及时、效率低等问题。
技术实现思路
本公开提供了一种文本批量处理方法、系统、终端设备及计算机可读存储介质，以至少解决上述问题。根据本公开实施例的一方面，提供一种文本批量处理方法，包括：创建文本语义数据库，所述文本语义数据库中包括若干分区；在接收到若干待处理文本后，将所述若干待处理文本分别匹配到相应的分区中；以及，分别对每个分区中的待处理文本进行批量处理。在一种实施方式中，所述创建文本语义数据库，包括：获取若干源文本数据；分别对所述若干源文本数据进行预处理，得到各源文本数据的特征向量；基于各源文本数据的特征向量划分若干分区；分别将各源文本数据的特征向量导入到各自对应的分区中；以及，基于导入了相应源文本数据的特征向量的若干分区创建文本语义数据库。在一种实施方...

【技术保护点】
1.一种文本批量处理方法，其特征在于，包括：/n创建文本语义数据库，所述文本语义数据库中包括若干分区；/n在接收到若干待处理文本后，将所述若干待处理文本分别匹配到相应的分区中；以及，/n分别对每个分区中的待处理文本进行批量处理。/n

【技术特征摘要】
1.一种文本批量处理方法，其特征在于，包括：
创建文本语义数据库，所述文本语义数据库中包括若干分区；
在接收到若干待处理文本后，将所述若干待处理文本分别匹配到相应的分区中；以及，
分别对每个分区中的待处理文本进行批量处理。

2.根据权利要求1所述的方法，其特征在于，所述创建文本语义数据库，包括：
获取若干源文本数据；
分别对所述若干源文本数据进行预处理，得到各源文本数据的特征向量；
基于各源文本数据的特征向量划分若干分区；
分别将各源文本数据的特征向量导入到各自对应的分区中；以及，
基于导入了相应源文本数据的特征向量的若干分区创建文本语义数据库。

3.根据权利要求2所述的方法，其特征在于，所述分别对所述源文本数据进行预处理，得到各源文本数据的特征向量，包括：
分别对所述若干源文本数据进行文本分词；
分别对经过文本分词的若干源文本数据进行词频分析，得到各源文本数据的词频分析结果；以及，
基于各源文本数据的词频分析结果，生成各源文本数据的特征向量。

4.根据权利要求2所述的方法，其特征在于，所述将所述若干待处理文本分别匹配到相应的分区中，包括：
分别对所述若干待处理文本进行预处理，得到各待处理文本的特征向量；
计算每个待处理文本的特征向量分别与各源文本数据的特征向量之间的相似度，得到每个待处理文本的相似度结果；以及，
基于所述每个待处理文本的相似度结果，将所述若干待处理文本分别匹配到与其相似度最高的源文本数据的特征向量对应的分区中。

5.根据权利要求4所述的方法，其特征在于，所述计算每个待处理文本的特征向量分别与各源文本数据的特征向量之间的相似度，包括：
将所述若干待处理文本的特征向量与所述若干源文本数据的特征向量作为数据集，针对...

【专利技术属性】
技术研发人员：蔡一欣，许翀，张溶芳，李堃，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人