文本批量处理方法、系统、终端设备及计算机存储介质技术方案

技术编号:27743541 阅读:33 留言:0更新日期:2021-03-19 13:37
本公开提供一种文本批量处理方法、系统、终端设备及计算机可读存储介质,其中,所述方法包括:创建文本语义数据库,所述文本语义数据库中包括若干分区;在接收到若干待处理文本后,将所述若干待处理文本分别匹配到相应的分区中;以及,分别对每个分区中的待处理文本进行批量处理。本公开实施例通过构建划分若干分区的投诉语义数据库,对接收到的待处理文本自动匹配分区,进而分别对每个分区的待处理文本进行同步批量处理,提高文本处理效率。

【技术实现步骤摘要】
文本批量处理方法、系统、终端设备及计算机存储介质
本公开涉及数据处理
,尤其涉及一种文本批量处理方法、一种文本批量处理系统、一种终端设备以及一种计算机可读存储介质。
技术介绍
随着通信技术的不断发展,互联网平台需要处理大批量的文本数据。尤其对于电信运营商平台及电商平台等,通常需要处理大量的用户的投诉文本,而随着运营商平台业务范围不断扩大,人工回复投诉问题需要对投诉处理人员进行不停地培训与扩充,人工成本逐渐升高,而自动回复投诉的方法对算法准确性要求很高,有时不能准确匹配用户提出的问题,无法及时有效地解决投诉。因此,当前运营商面临着投诉文本信息量大,文本处理不及时、效率低等问题。
技术实现思路
本公开提供了一种文本批量处理方法、系统、终端设备及计算机可读存储介质,以至少解决上述问题。根据本公开实施例的一方面,提供一种文本批量处理方法,包括:创建文本语义数据库,所述文本语义数据库中包括若干分区;在接收到若干待处理文本后,将所述若干待处理文本分别匹配到相应的分区中;以及,分别对每个分区中的待处理文本进行批量处理。在一种实施方式中,所述创建文本语义数据库,包括:获取若干源文本数据;分别对所述若干源文本数据进行预处理,得到各源文本数据的特征向量;基于各源文本数据的特征向量划分若干分区;分别将各源文本数据的特征向量导入到各自对应的分区中;以及,基于导入了相应源文本数据的特征向量的若干分区创建文本语义数据库。在一种实施方式中,所述分别对所述源文本数据进行预处理,得到各源文本数据的特征向量,包括:分别对所述若干源文本数据进行文本分词;分别对经过文本分词的若干源文本数据进行词频分析,得到各源文本数据的词频分析结果;以及,基于各源文本数据的词频分析结果,生成各源文本数据的特征向量。在一种实施方式中,所述将所述若干待处理文本分别匹配到相应的分区中,包括:分别对所述若干待处理文本进行预处理,得到各待处理文本的特征向量;计算每个待处理文本的特征向量分别与各源文本数据的特征向量之间的相似度,得到每个待处理文本的相似度结果;以及,基于所述每个待处理文本的相似度结果,将所述若干待处理文本分别匹配到与其相似度最高的源文本数据的特征向量对应的分区中。在一种实施方式中,所述计算每个待处理文本的特征向量分别与各源文本数据的特征向量之间的相似度,包括:将所述若干待处理文本的特征向量与所述若干源文本数据的特征向量作为数据集,针对所述数据集利用FCM聚类算法计算每个待处理文本的特征向量分别与各源文本数据的特征向量之间的相似度。根据本公开实施例的另一方面,提供一种文本批量处理系统,包括:创建模块,其设置为创建文本语义数据库,所述文本语义数据库中包括若干分区;匹配模块,其设置为在接收到若干待处理文本后,将所述若干待处理文本匹配到相应的分区中;以及,处理模块,其设置为分别对每个分区中的待处理文本进行批量处理。在一种实施方式中,所述创建模块,包括:获取单元,其设置为获取若干源文本数据;预处理单元,其设置为分别对所述若干源文本数据进行预处理,得到各源文本数据的特征向量;分区单元,其设置为基于各源文本数据的特征向量划分若干分区;导入单元,其设置为分别将各源文本数据的特征向量导入到各自对应的分区中;以及,创建单元,其设置为基于导入了相应源文本数据的特征向量的若干分区创建文本语义数据库。在一种实施方式中,所述预处理单元,包括:分词子单元,其设置为分别对所述若干源文本数据进行文本分词;分析子单元,其设置为分别对经过文本分词的若干源文本数据进行词频分析,得到各源文本数据的词频分析结果;以及,生成子单元,其设置为基于各源文本数据的词频分析结果,生成各源文本数据的特征向量。根据本公开实施例的又一方面,提供一种终端设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行所述的文本批量处理方法。根据本公开实施例的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行所述的文本批量处理方法。本公开的实施例提供的技术方案可以包括以下有益效果:本公开实施例提供的文本批量处理方法,通过创建文本语义数据库,所述文本语义数据库中包括若干分区;在接收到若干待处理文本后,将所述若干待处理文本分别匹配到相应的分区中;以及,分别对每个分区中的待处理文本进行批量处理。本公开实施例通过构建划分若干分区的投诉语义数据库,对接收到的待处理文本自动匹配分区,进而分别对每个分区的待处理文本进行同步批量处理,提高文本处理效率。本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。图1为本公开实施例提供的一种文本批量处理方法的流程示意图;图2为本公开另一实施例提供的一种文本批量处理方法的流程示意图;图3为图2中步骤S202的流程示意图;图4为本公开实施例提供的一种文本批量处理系统的结构示意图;图5为本公开实施例提供的一种终端设备的结构示意图。具体实施方式为使本公开实施例的目的、技术方案和优点更加清楚,以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序;并且,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。目前,运营商处理文本投诉信息通常采用传统回复投诉的方法,由投诉处理人员人工进行回复,需要投诉处理人员保持在线、储备各项业务知识、具备分析与解决问题的能力。此外,还有采用自动回复的投诉处理方法,通过对文本信息进行语义分析,自动匹配回复内容,自动回复的投诉处理方法算法准确性要求很高,有时不能准确匹配用户提出的问题。为解决上述问题,本公开实施例提供一种文本批量处理方法,通过标准化投诉文本特征向量与划分若干分区,构建投诉语义数据库,系统可利用分区批量处理文本投诉信息,或者以分区标签形式,结合人工处理用户利用分区标签批量处理文本投诉信本文档来自技高网...

【技术保护点】
1.一种文本批量处理方法,其特征在于,包括:/n创建文本语义数据库,所述文本语义数据库中包括若干分区;/n在接收到若干待处理文本后,将所述若干待处理文本分别匹配到相应的分区中;以及,/n分别对每个分区中的待处理文本进行批量处理。/n

【技术特征摘要】
1.一种文本批量处理方法,其特征在于,包括:
创建文本语义数据库,所述文本语义数据库中包括若干分区;
在接收到若干待处理文本后,将所述若干待处理文本分别匹配到相应的分区中;以及,
分别对每个分区中的待处理文本进行批量处理。


2.根据权利要求1所述的方法,其特征在于,所述创建文本语义数据库,包括:
获取若干源文本数据;
分别对所述若干源文本数据进行预处理,得到各源文本数据的特征向量;
基于各源文本数据的特征向量划分若干分区;
分别将各源文本数据的特征向量导入到各自对应的分区中;以及,
基于导入了相应源文本数据的特征向量的若干分区创建文本语义数据库。


3.根据权利要求2所述的方法,其特征在于,所述分别对所述源文本数据进行预处理,得到各源文本数据的特征向量,包括:
分别对所述若干源文本数据进行文本分词;
分别对经过文本分词的若干源文本数据进行词频分析,得到各源文本数据的词频分析结果;以及,
基于各源文本数据的词频分析结果,生成各源文本数据的特征向量。


4.根据权利要求2所述的方法,其特征在于,所述将所述若干待处理文本分别匹配到相应的分区中,包括:
分别对所述若干待处理文本进行预处理,得到各待处理文本的特征向量;
计算每个待处理文本的特征向量分别与各源文本数据的特征向量之间的相似度,得到每个待处理文本的相似度结果;以及,
基于所述每个待处理文本的相似度结果,将所述若干待处理文本分别匹配到与其相似度最高的源文本数据的特征向量对应的分区中。


5.根据权利要求4所述的方法,其特征在于,所述计算每个待处理文本的特征向量分别与各源文本数据的特征向量之间的相似度,包括:
将所述若干待处理文本的特征向量与所述若干源文本数据的特征向量作为数据集,针对...

【专利技术属性】
技术研发人员:蔡一欣许翀张溶芳李堃
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1