一种文本信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40528602 阅读：7 留言：0更新日期：2024-03-01 13:48

本发明专利技术实施例公开了一种文本信息处理方法、装置、电子设备及存储介质。其中，文本信息处理方法包括：对待处理目标文本信息提取目标短文本信息；对所述目标短文本信息进行单字划分，得到单字划分数据；采用n‑gram模型对所述单字划分数据进行拼接，得到单字划分拼接数据；采用MinHash算法对所述单字划分拼接数据和所述待处理目标文本信息匹配的基准目标文本信息计算相似度；根据相似度计算结果，确定所述待处理目标文本信息的分类结果。本发明专利技术实施例的技术方案能够降低文本分类处理的计算复杂度，提高文本分类处理的效率和精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及数据处理和人工智能，尤其涉及一种文本信息处理方法、装置、电子设备及存储介质。

技术介绍

1、无论是在企事业单位的大规模数据应用还是日常的数据处理应用中，文本分类处理都是一种普遍的数据处理手段。

2、在文本分类处理方法中，常用的文本分类处理方法有基于文本相似度的方法和基于时间关联关系的方法等。目前，基于文本相似度的告警收敛方法一般包括以下步骤：(1)、数据预处理：对文本数据进行清洗和标准化，如去除停用词和标点符号等。(2)、特征提取：通过词袋模型、tf-idf(term frequency-inverse document frequency，词频-逆文档频率)以及word2vec(word embeddings，词向量)等方法将文本表示为数值特征向量。(3)、相似度计算：使用相似度度量算法，如余弦相似度、编辑距离、jaccard(杰卡德相似度)相似系数等，计算文本信息之间的相似度。(4)、文本聚类：基于相似度计算结果，采用聚类算法，如k-means(k均值聚类算法)、层次聚类等，将相似的文本聚集在一起。(5)、文本分类收敛：在每个聚类中，选择代表文本，将其他相似的文本与代表文本进行合并或丢弃，从而实现文本分类收敛。

3、专利技术人在实现本专利技术的过程中，发现现有技术存在如下缺陷：目前，基于文本相似度的文本分类处理方法在长文本信息上表现较好，比如文本长度大于10个字符，或者大于8个英语单词的文本信息中，上述基于文本相似度的方法在特征提取时，会得到多个不同的数值特征向量，可以产生成千上万

技术实现思路

1、本专利技术实施例提供一种文本信息处理方法、装置、电子设备及存储介质，能够降低文本分类处理的计算复杂度，提高文本分类处理的效率和精度。

2、根据本专利技术的一方面，提供了一种文本信息处理方法，包括：

3、对待处理目标文本信息提取目标短文本信息；

4、对所述目标短文本信息进行单字划分，得到单字划分数据；

5、采用n-gram模型对所述单字划分数据进行拼接，得到单字划分拼接数据；

6、采用minhash算法对所述单字划分拼接数据和所述待处理目标文本信息匹配的基准目标文本信息计算相似度；

7、根据相似度计算结果，确定所述待处理目标文本信息的分类结果。

8、根据本专利技术的另一方面，提供了一种文本信息处理装置，包括：

9、目标短文本信息提取模块，用于对待处理目标文本信息提取目标短文本信息；

10、目标短文本信息划分模块，用于对所述目标短文本信息进行单字划分，得到单字划分数据；

11、单字划分数据拼接模块，用于采用n-gram模型对所述单字划分数据进行拼接，得到单字划分拼接数据；

12、相似度计算模块，用于采用minhash算法对所述单字划分拼接数据和所述待处理目标文本信息匹配的基准目标文本信息计算相似度；

13、分类结果确定模块，用于根据相似度计算结果，确定所述待处理目标文本信息的分类结果。

14、根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括：

15、至少一个处理器；以及

16、与所述至少一个处理器通信连接的存储器；其中，

17、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的文本信息处理方法。

18、根据本专利技术的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的文本信息处理方法。

19、本专利技术实施例通过对待处理目标文本信息提取目标短文本信息，以对目标短文本信息进行单字划分，得到单字划分数据，并采用n-gram模型对单字划分数据进行拼接，得到单字划分拼接数据，进而采用minhash算法对单字划分拼接数据和待处理目标文本信息匹配的基准目标文本信息计算相似度，最终根据相似度计算结果，确定待处理目标文本信息的分类结果，解决现有文本分类处理方法处理短文本数据时存在的准确率和效率较低等问题，能够降低文本分类处理的计算复杂度，提高文本分类处理的效率和精度。

20、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理目标文本信息提取目标短文本信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标短文本信息进行单字划分，得到单字划分数据，包括：

4.根据权利要求1所述的方法，其特征在于，采用n-gram模型对所述单字划分数据进行拼接，得到单字划分拼接数据，包括：

5.根据权利要求1所述的方法，其特征在于，在所述采用n-gram模型对所述单字划分数据进行拼接之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据相似度计算结果，确定所述待处理目标文本信息的分类结果，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，所述待处理目标文本信息包括待分类告警信息，所述基准目标文本信息包括收敛告警信息。

8.一种文本信息处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有

...

【技术特征摘要】

1.一种文本信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理目标文本信息提取目标短文本信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标短文本信息进行单字划分，得到单字划分数据，包括：

4.根据权利要求1所述的方法，其特征在于，采用n-gram模型对所述单字划分数据进行拼接，得到单字划分拼接数据，包括：

5.根据权利要求1所述的方法，其特征在于，在所述采用n-gram模型对所述单字划分数据进行拼接之前，还包括：

6.根据...

【专利技术属性】
技术研发人员：程捷，
申请(专利权)人：北京博睿宏远数据科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人