一种社会治理文本数据的分类方法、装置、设备及介质制造方法及图纸

技术编号：36040263 阅读：15 留言：0更新日期：2022-12-21 10:46

本发明专利技术公开了一种社会治理文本数据的分类方法、装置、设备及介质，该方法包括：获取多条原始文本数据；识别每一条原始文本数据中包含的所有词汇的词性；将原始文本数据中每一个词汇的词性与目标词性进行比对，当存在与目标词性一致的第一词汇时，将第一词汇从原始文本数据中剔除后，以生成目标文本数据，其中，第一词汇为原始文本数据中的某一个词汇，目标文本数据中包含至少一个词汇；基于目标文本数据中包含的至少一个词汇生成与目标文本数据对应的目标词向量；对所有的目标文本数据分别对应的目标词向量进行分类，生成分类结果，分类结果用于对原始文本数据进行分类。果用于对原始文本数据进行分类。果用于对原始文本数据进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种社会治理文本数据的分类方法、装置、设备及介质

[0001]本专利技术涉及计算机处理领域，具体涉及一种社会治理文本数据的分类方法、装置、设备及介质。

技术介绍

[0002]在某些特定的场景下，收集到海量数据后，需要通过对数据进行人工标注的形式获取所需的数据；但海量的文本数据，会耗费大量的人工成本和时间成本，且分类结果也不是很准确，从而导致对数据的分类效率较为低下。

技术实现思路

[0003]因此，本专利技术要解决的技术问题在于克服现有技术中耗费成本且效率低下的缺陷，从而提供一种社会治理文本数据的分类方法、装置、设备及介质。
[0004]第一方面，本专利技术提供了一种社会治理文本数据的分类方法，包括：
[0005]获取多条原始文本数据；识别每一条原始文本数据中包含的所有词汇的词性；将原始文本数据中每一个词汇的词性与目标词性进行比对，当存在与目标词性一致的第一词汇时，将第一词汇从原始文本数据中剔除后，以生成目标文本数据，其中，第一词汇为原始文本数据中的某一个词汇，目标文本数据中包含至少一个词汇；基于目标文本数据中包含的至少一个词汇生成与目标文本数据对应的目标词向量；对所有的目标文本数据分别对应的目标词向量进行分类，生成分类结果；基于分类结果对原始文本数据进行分类。
[0006]本专利技术首先识别原始文本数据中包含的所有词汇的词性，并将与目标词性一致的词汇从原始文本数据中剔除，生成文本特征度较高的目标文本数据；然后根据目标文本数据中包含的所有的词汇生成与该目标文本数据对应的目标词向...

【技术保护点】

【技术特征摘要】
1.一种社会治理文本数据的分类方法，其特征在于，包括：获取多条原始文本数据；识别每一条所述原始文本数据中包含的所有词汇的词性；将所述原始文本数据中每一个词汇的词性与目标词性进行比对，当存在与所述目标词性一致的第一词汇时，将所述第一词汇从所述原始文本数据中剔除后，以生成目标文本数据，其中，所述第一词汇为所述原始文本数据中的某一个词汇，所述目标文本数据中包含至少一个词汇；基于所述目标文本数据中包含的至少一个词汇生成与所述目标文本数据对应的目标词向量；对所有的所述目标文本数据分别对应的目标词向量进行分类，生成分类结果；基于所述分类结果，对所述原始文本数据进行分类。2.根据权利要求1所述的社会治理文本数据的分类方法，其特征在于，所述获取多条原始文本数据之后，还包括：将每一条所述原始文本数据中包含的词汇与预构建的停用表中的停用词进行匹配；当确定第一原始文本数据中包含所述停用词时，从所述第一原始文本数据中剔除所述停用词，生成第一文本数据，以便后续将所述第一文本数据中每一个词汇的词性与目标词性进行比对，其中，所述第一原始文本数据为多条原始文本数据中的任一条原始文本数据。3.根据权利要求1所述的社会治理文本数据的分类方法，其特征在于，所述基于所述目标文本数据中的至少一个词汇生成与所述目标文本数据对应的目标词向量，包括：分别生成与至少一个词汇中每一个词汇分别对应的词向量；基于至少一个词汇中所有词汇分别对应的词向量，生成与所述目标文本数据对应的目标词向量。4.根据权利要求3所述的社会治理文本数据的分类方法，其特征在于，所述基于至少一个词汇中所有词汇分别对应的词向量，生成与所述目标文本数据对应的目标词向量，包括：基于至少一个词汇中所有词汇分别对应的词向量生成与所述目标文本数据对应的目标矩阵；基于所述目标矩阵，生成与所述目标文本数据对应的目标词向量。5.根据权利要求1
‑
4任一项所述的社会治理文本数据的分类方法，其特征在于，所述对所有的所述目标文本数据分别对应的目标词向量进行分类，生成分类结果，包括：利用聚类算法对所有的所述目标词向量进行分类，生成分类...

【专利技术属性】
技术研发人员：肖刚，吴振刚，姜国晨，孔凡尘，韩府澎，
申请(专利权)人：高创安邦北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人