System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本信息处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种文本信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40528602 阅读:7 留言:0更新日期:2024-03-01 13:48
本发明专利技术实施例公开了一种文本信息处理方法、装置、电子设备及存储介质。其中,文本信息处理方法包括:对待处理目标文本信息提取目标短文本信息;对所述目标短文本信息进行单字划分,得到单字划分数据;采用n‑gram模型对所述单字划分数据进行拼接,得到单字划分拼接数据;采用MinHash算法对所述单字划分拼接数据和所述待处理目标文本信息匹配的基准目标文本信息计算相似度;根据相似度计算结果,确定所述待处理目标文本信息的分类结果。本发明专利技术实施例的技术方案能够降低文本分类处理的计算复杂度,提高文本分类处理的效率和精度。

【技术实现步骤摘要】

本专利技术实施例涉及数据处理和人工智能,尤其涉及一种文本信息处理方法、装置、电子设备及存储介质


技术介绍

1、无论是在企事业单位的大规模数据应用还是日常的数据处理应用中,文本分类处理都是一种普遍的数据处理手段。

2、在文本分类处理方法中,常用的文本分类处理方法有基于文本相似度的方法和基于时间关联关系的方法等。目前,基于文本相似度的告警收敛方法一般包括以下步骤:(1)、数据预处理:对文本数据进行清洗和标准化,如去除停用词和标点符号等。(2)、特征提取:通过词袋模型、tf-idf(term frequency-inverse document frequency,词频-逆文档频率)以及word2vec(word embeddings,词向量)等方法将文本表示为数值特征向量。(3)、相似度计算:使用相似度度量算法,如余弦相似度、编辑距离、jaccard(杰卡德相似度)相似系数等,计算文本信息之间的相似度。(4)、文本聚类:基于相似度计算结果,采用聚类算法,如k-means(k均值聚类算法)、层次聚类等,将相似的文本聚集在一起。(5)、文本分类收敛:在每个聚类中,选择代表文本,将其他相似的文本与代表文本进行合并或丢弃,从而实现文本分类收敛。

3、专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:目前,基于文本相似度的文本分类处理方法在长文本信息上表现较好,比如文本长度大于10个字符,或者大于8个英语单词的文本信息中,上述基于文本相似度的方法在特征提取时,会得到多个不同的数值特征向量,可以产生成千上万个不同的词句组合,再通过特征构建后,可以生成多个不同的高维特征,最后在高维空间中对向量进行相似度比对。但短文本相较于普通长文本来说,存在文本分词后特征向量太少的特点。短文本信息经过分词后,往往只能产生10个甚至更少的不同词句组合,生成特征维度较少,从而导致准确率下降。而如果针对短文信息也采用和长文本信息同样的处理方式,对短文产生的海量稀疏向量使用欧式距离进行相似度比对,则会使得整个过程的时间成本急剧上升,从而影响文本分类处理的速度。故而针对短文本信息场景下,较低的准确率和较慢的速度无法满足大型系统数据处理的需求。


技术实现思路

1、本专利技术实施例提供一种文本信息处理方法、装置、电子设备及存储介质,能够降低文本分类处理的计算复杂度,提高文本分类处理的效率和精度。

2、根据本专利技术的一方面,提供了一种文本信息处理方法,包括:

3、对待处理目标文本信息提取目标短文本信息;

4、对所述目标短文本信息进行单字划分,得到单字划分数据;

5、采用n-gram模型对所述单字划分数据进行拼接,得到单字划分拼接数据;

6、采用minhash算法对所述单字划分拼接数据和所述待处理目标文本信息匹配的基准目标文本信息计算相似度;

7、根据相似度计算结果,确定所述待处理目标文本信息的分类结果。

8、根据本专利技术的另一方面,提供了一种文本信息处理装置,包括:

9、目标短文本信息提取模块,用于对待处理目标文本信息提取目标短文本信息;

10、目标短文本信息划分模块,用于对所述目标短文本信息进行单字划分,得到单字划分数据;

11、单字划分数据拼接模块,用于采用n-gram模型对所述单字划分数据进行拼接,得到单字划分拼接数据;

12、相似度计算模块,用于采用minhash算法对所述单字划分拼接数据和所述待处理目标文本信息匹配的基准目标文本信息计算相似度;

13、分类结果确定模块,用于根据相似度计算结果,确定所述待处理目标文本信息的分类结果。

14、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:

15、至少一个处理器;以及

16、与所述至少一个处理器通信连接的存储器;其中,

17、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的文本信息处理方法。

18、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的文本信息处理方法。

19、本专利技术实施例通过对待处理目标文本信息提取目标短文本信息,以对目标短文本信息进行单字划分,得到单字划分数据,并采用n-gram模型对单字划分数据进行拼接,得到单字划分拼接数据,进而采用minhash算法对单字划分拼接数据和待处理目标文本信息匹配的基准目标文本信息计算相似度,最终根据相似度计算结果,确定待处理目标文本信息的分类结果,解决现有文本分类处理方法处理短文本数据时存在的准确率和效率较低等问题,能够降低文本分类处理的计算复杂度,提高文本分类处理的效率和精度。

20、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本信息处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对待处理目标文本信息提取目标短文本信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述目标短文本信息进行单字划分,得到单字划分数据,包括:

4.根据权利要求1所述的方法,其特征在于,采用n-gram模型对所述单字划分数据进行拼接,得到单字划分拼接数据,包括:

5.根据权利要求1所述的方法,其特征在于,在所述采用n-gram模型对所述单字划分数据进行拼接之前,还包括:

6.根据权利要求5所述的方法,其特征在于,所述根据相似度计算结果,确定所述待处理目标文本信息的分类结果,包括:

7.根据权利要求1-6任一所述的方法,其特征在于,所述待处理目标文本信息包括待分类告警信息,所述基准目标文本信息包括收敛告警信息。

8.一种文本信息处理装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一所述的文本信息处理方法。

...

【技术特征摘要】

1.一种文本信息处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对待处理目标文本信息提取目标短文本信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述目标短文本信息进行单字划分,得到单字划分数据,包括:

4.根据权利要求1所述的方法,其特征在于,采用n-gram模型对所述单字划分数据进行拼接,得到单字划分拼接数据,包括:

5.根据权利要求1所述的方法,其特征在于,在所述采用n-gram模型对所述单字划分数据进行拼接之前,还包括:

6.根据...

【专利技术属性】
技术研发人员:程捷
申请(专利权)人:北京博睿宏远数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1