一种社会治理文本数据的分类方法、装置、设备及介质制造方法及图纸

技术编号:36040263 阅读:15 留言:0更新日期:2022-12-21 10:46
本发明专利技术公开了一种社会治理文本数据的分类方法、装置、设备及介质,该方法包括:获取多条原始文本数据;识别每一条原始文本数据中包含的所有词汇的词性;将原始文本数据中每一个词汇的词性与目标词性进行比对,当存在与目标词性一致的第一词汇时,将第一词汇从原始文本数据中剔除后,以生成目标文本数据,其中,第一词汇为原始文本数据中的某一个词汇,目标文本数据中包含至少一个词汇;基于目标文本数据中包含的至少一个词汇生成与目标文本数据对应的目标词向量;对所有的目标文本数据分别对应的目标词向量进行分类,生成分类结果,分类结果用于对原始文本数据进行分类。果用于对原始文本数据进行分类。果用于对原始文本数据进行分类。

【技术实现步骤摘要】
一种社会治理文本数据的分类方法、装置、设备及介质


[0001]本专利技术涉及计算机处理领域,具体涉及一种社会治理文本数据的分类方法、装置、设备及介质。

技术介绍

[0002]在某些特定的场景下,收集到海量数据后,需要通过对数据进行人工标注的形式获取所需的数据;但海量的文本数据,会耗费大量的人工成本和时间成本,且分类结果也不是很准确,从而导致对数据的分类效率较为低下。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有技术中耗费成本且效率低下的缺陷,从而提供一种社会治理文本数据的分类方法、装置、设备及介质。
[0004]第一方面,本专利技术提供了一种社会治理文本数据的分类方法,包括:
[0005]获取多条原始文本数据;识别每一条原始文本数据中包含的所有词汇的词性;将原始文本数据中每一个词汇的词性与目标词性进行比对,当存在与目标词性一致的第一词汇时,将第一词汇从原始文本数据中剔除后,以生成目标文本数据,其中,第一词汇为原始文本数据中的某一个词汇,目标文本数据中包含至少一个词汇;基于目标文本数据中包含的至少一个词汇生成与目标文本数据对应的目标词向量;对所有的目标文本数据分别对应的目标词向量进行分类,生成分类结果;基于分类结果对原始文本数据进行分类。
[0006]本专利技术首先识别原始文本数据中包含的所有词汇的词性,并将与目标词性一致的词汇从原始文本数据中剔除,生成文本特征度较高的目标文本数据;然后根据目标文本数据中包含的所有的词汇生成与该目标文本数据对应的目标词向量,最后对所有的目标文本数据对应的目标词向量进行分类,生成分类结果,通过分类结果可直接确定哪些目标词向量属于一个类,所以可根据分类结果找到与目标词向量对应的原始文本数据,从而实现对原始文本数据的分类;在上述方案实施过程中,由计算机自动识别原始文本数据中包含的每一个词汇的词性,并完成对与目标词性一致词汇的剔除,在此过程中不需要耗费任何人工成本;由于使用计算机对大量的数据进行处理,也大大降低了时间成本;且将原始文本数据转化为与之对应的目标词向量,将传统的依据语义理解对原始文本数据进行分类转变为依据目标词向量对原始文本数据分类,此过程大大提高了分类结果的准确性,从而使得在面对海量数据时,能够快速,准确且低成本的实现对数据的分类,极大提高了文本分类的效率。
[0007]结合第一方面,在第一方面的第一实施例中,获取多条原始文本数据之后,还包括:
[0008]将每一条原始文本数据中包含的词汇与预构建的停用表中的停用词进行匹配;当确定第一原始文本数据中包含停用词时,从第一原始文本数据中剔除停用词,生成第一文本数据,以便后续将第一文本数据中每一个词汇的词性与目标词性进行比对,其中,第一原
始文本数据为多条原始文本数据中的任一条原始文本数据。
[0009]本实施例在获取到原始文本数据之后,通过每一条原始文本数据中包含的词汇与预构建的停用词表中词汇的匹配结果,将一些不影响语义且没有实际意义的词汇从原始文本数据中剔除,从而实现了对原始文本数据的初步筛选,一方面,剔除掉停用词后,减少了后续词性识别的工作量,也间接提高了识别效率;另一方面,剔除停用词,直接提高了原始文本数据的文本特征度,文本特征度越高,依据词汇转化的词向量的特征度越高,从而使得分类的结果更准确。
[0010]结合第一方面,在第一方面的第二实施例中,基于目标文本数据中的至少一个词汇生成与目标文本数据对应的目标词向量,包括:
[0011]分别生成与至少一个词汇中每一个词汇分别对应的词向量;基于至少一个词汇中所有词汇分别对应的词向量,生成与目标文本数据对应的目标词向量。
[0012]结合第一方面,在第一方面的第三实施例中,基于至少一个词汇中所有词汇分别对应的词向量,生成与目标文本数据对应的目标词向量,包括:
[0013]基于至少一个词汇中所有词汇分别对应的词向量生成与目标文本数据对应的目标矩阵;基于目标矩阵,生成与目标文本数据对应的目标词向量。
[0014]本实施例通过将目标文本数据中包含的所有词汇全部转化为与之对应的词向量,并由词向量形成与目标文本数据对应的目标矩阵,再基于目标矩阵生成与该目标文本数据对应的目标词向量;将每一条目标文本数据均转化为与之对应的目标词向量,便于计算各条文本数据对应的各个目标词向量间的相似度,从而根据目标词向量间的相似度实现对文本数据的分类,从而提高分类结果的准确性。
[0015]结合第一方面,在第一方面的第四实施例中,对所有的目标文本数据分别对应的目标词向量进行分类,生成分类结果,包括:
[0016]利用聚类算法对所有的目标词向量进行分类,生成分类结果。
[0017]第二方面,本专利技术提供了一种社会治理文本数据的分类装置,包括:
[0018]获取模块,用于获取多条原始文本数据;识别模块,用于识别每一条原始文本数据中包含的所有词汇的词性;第一剔除模块,用于将原始文本数据中每一个词汇的词性与目标词性进行比对,当存在与目标词性一致的第一词汇时,将第一词汇从原始文本数据中剔除后,以生成目标文本数据,其中,第一词汇为原始文本数据中的某一个词汇,目标文本数据中包含至少一个词汇;第一生成模块,用于基于目标文本数据中的至少一个词汇生成与目标文本数据对应的目标词向量;第二生成模块,用于对所有的目标文本数据分别对应的目标词向量进行分类,生成分类结果;分类模块,用于基于分类结果,对原始文本数据进行分类。
[0019]结合第二方面,在第二方面的第一实施例中,所述装置,还包括:
[0020]匹配模块,用于将每一条原始文本数据中包含的停用词词汇与预构建的停用表中的停用词进行匹配;第二剔除模块,用于当确定第一原始文本数据中包含停用词时,从第一原始文本数据中剔除停用词,生成第一文本数据,以便后续将第一文本数据中每一个词汇的词性与目标词性进行比对,其中,第一原始文本数据为多条原始文本数据中的任一条原始文本数据。
[0021]结合第二方面,在第二方面的第二实施例中,第一生成模块,包括:
[0022]第一生成子模块,用于分别生成与至少一个词汇中每一个词汇分别对应的词向量;第二生成子模块,用于基于至少一个词汇中所有词汇分别对应的词向量,生成与目标文本数据对应的目标词向量。
[0023]第三方面,本专利技术提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器用于存储计算机程序,计算机程序被处理器执行时,使处理器执行如
技术实现思路
中任一项的社会治理文本数据的分类方法。
[0024]第四方面,本专利技术提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机指令,当计算机指令被处理器执行时,实现如
技术实现思路
中任一项的社会治理文本数据的分类方法。
附图说明
[0025]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社会治理文本数据的分类方法,其特征在于,包括:获取多条原始文本数据;识别每一条所述原始文本数据中包含的所有词汇的词性;将所述原始文本数据中每一个词汇的词性与目标词性进行比对,当存在与所述目标词性一致的第一词汇时,将所述第一词汇从所述原始文本数据中剔除后,以生成目标文本数据,其中,所述第一词汇为所述原始文本数据中的某一个词汇,所述目标文本数据中包含至少一个词汇;基于所述目标文本数据中包含的至少一个词汇生成与所述目标文本数据对应的目标词向量;对所有的所述目标文本数据分别对应的目标词向量进行分类,生成分类结果;基于所述分类结果,对所述原始文本数据进行分类。2.根据权利要求1所述的社会治理文本数据的分类方法,其特征在于,所述获取多条原始文本数据之后,还包括:将每一条所述原始文本数据中包含的词汇与预构建的停用表中的停用词进行匹配;当确定第一原始文本数据中包含所述停用词时,从所述第一原始文本数据中剔除所述停用词,生成第一文本数据,以便后续将所述第一文本数据中每一个词汇的词性与目标词性进行比对,其中,所述第一原始文本数据为多条原始文本数据中的任一条原始文本数据。3.根据权利要求1所述的社会治理文本数据的分类方法,其特征在于,所述基于所述目标文本数据中的至少一个词汇生成与所述目标文本数据对应的目标词向量,包括:分别生成与至少一个词汇中每一个词汇分别对应的词向量;基于至少一个词汇中所有词汇分别对应的词向量,生成与所述目标文本数据对应的目标词向量。4.根据权利要求3所述的社会治理文本数据的分类方法,其特征在于,所述基于至少一个词汇中所有词汇分别对应的词向量,生成与所述目标文本数据对应的目标词向量,包括:基于至少一个词汇中所有词汇分别对应的词向量生成与所述目标文本数据对应的目标矩阵;基于所述目标矩阵,生成与所述目标文本数据对应的目标词向量。5.根据权利要求1

4任一项所述的社会治理文本数据的分类方法,其特征在于,所述对所有的所述目标文本数据分别对应的目标词向量进行分类,生成分类结果,包括:利用聚类算法对所有的所述目标词向量进行分类,生成分类...

【专利技术属性】
技术研发人员:肖刚吴振刚姜国晨孔凡尘韩府澎
申请(专利权)人:高创安邦北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1