数据分类方法、装置、设备和存储介质制造方法及图纸

技术编号:32799343 阅读:19 留言:0更新日期:2022-03-23 20:03
本公开涉及一种数据分类方法、装置、设备和存储介质,包括:接收用户输入的文本数据;对文本数据进行编码,得到与文本数据对应的第一字向量、第一字位置向量和第一文本向量;对文本数据进行分词处理,得到一个或多个分词;响应于确定一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量;将第一字向量表示、第一字位置向量、第一文本向量、第二字向量和第二字位置向量进行拼接,得到拼接的向量;利用预设的目标分类模型,确定拼接的向量的第一特征表示向量;利用预设的分类器,基于第一特征表示向量,确定文本数据的分类结果。确定文本数据的分类结果。确定文本数据的分类结果。

【技术实现步骤摘要】
数据分类方法、装置、设备和存储介质


[0001]本公开涉及数据分类
,尤其涉及一种数据分类方法、装置、设备和存储介质。

技术介绍

[0002]目前,在对数据进行分类时,通常会采用数据标注方法,即对数据池的样本数据交予标注者进行人工标注,然后使用标注后的样本扩充已标注数据池。
[0003]由于人工标注对数据的理解差异性较大,当采用通用领域的样本数据进行标注扩充某个具体领域中的数据池时,会存在比较大的差异性,且在通用领域标注的同义词不一定适用于具体领域,即容易引入脏数据,导致标注出来的数据参差不齐,降低分类结果的准确性。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据分类方法、装置、设备和存储介质,提高分类精度。
[0005]第一方面,本公开实施例提供了一种数据分类方法,包括:接收用户输入的文本数据;对所述文本数据进行编码,得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量;对所述文本数据进行分词处理,得到一个或多个分词;响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量;将所述第一字向量表示、所述第一字位置向量、所述第一文本向量、所述第二字向量和所述第二字位置向量进行拼接,得到拼接的向量;利用预设的目标分类模型,确定所述拼接的向量的第一特征表示向量;利用预设的分类器,基于所述第一特征表示向量,确定所述文本数据的分类结果。
[0006]第二方面,本公开实施例提供一种数据分类装置,包括:文本数据接收模块,用于接收用户输入的文本数据;第一向量确定模块,用于对所述文本数据进行编码,得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量;处理模块,用于对所述文本数据进行分词处理,得到一个或多个分词;第二向量确定模块,用于响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量;拼接向量确定模块,用于将所述第一字向量表示、所述第一字位置向量、所述第一
文本向量、所述第二字向量和所述第二字位置向量进行拼接,得到拼接的向量;第一特征表示向量确定模块,用于利用预设的目标分类模型,确定所述拼接的向量的第一特征表示向量;分类模块,用于利用预设的分类器,基于所述第一特征表示向量,确定所述文本数据的分类结果。
[0007]第三方面,本公开实施例提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的数据分类方法。
[0008]第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述的数据分类方法。
[0009]本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例提供的数据分类方法、装置、设备和存储介质,目标分类模型的输入不仅仅包括文本数据对应的第一字向量、第一字位置向量、第一文本向量,还包括文本数据对应的第二字向量以及第二字位置向量,由于目标分类模型的输入中还包括文本数据对应的种子词字向量(第二字向量)以及种子词字位置向量(第二字位置向量),在提取了文本数据在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义,能根据句子上下文获取文本数据对应的语义信息以及该文本数据中种子词在文本数据中的具体位置,能够显著提高数据分类结果的准确性。
附图说明
[0010]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0011]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是本公开实施例提供的一种数据分类方法的流程示意图;图2是本公开实施例提供的另一种数据分类方法的流程示意图;图3是本公开实施例提供的又一种数据分类方法的流程示意图;图4是本公开实施例提供的又一种数据分类方法的流程示意图;图5是本公开实施例提供的又一种数据分类方法的流程示意图;图6是本公开实施例提供的一种数据分类模型训练方法的流程示意图;图7是本公开实施例提供的一种数据分类装置的结构示意图;图8是本公开实施例提供的一种数据分类模型训练装置的结构示意图;图9是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0013]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案
进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0014]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0015]本公开的技术方案可以应用于电子设备,其中,电子设备可以是电脑、平板、手机或者其他智能终端设备等。该电子设备具有显示屏,其中,显示屏可以是触摸屏,也可以是非触摸屏,对于具有触摸屏的电子设备,用户可以通过手势、手指或者触控工具(例如,触控笔)实现与电子设备的交互操作。对于非触摸屏的电子设备,可以通过外部设备(例如,鼠标、键盘或者摄像头等)或者语音识别或者表情识别等实现与电子设备的交互操作。
[0016]其中,本公开对电子设备的操作系统的类型不做限定。例如,Android系统、Linux系统、Windows系统、iOS系统等。
[0017]图1是本公开实施例提供的一种数据分类方法的流程示意图,本实施例可适用于对数据进行分类的情况。本实施例方法可由数据分类装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中,可实现本申请任意实施例所述的数据分类方法。
[0018]现有技术中在对数据进行分类时,通常采用人工标注的方法,根据人工标注的样本数据训练分类模型,然后通过分类模型对数据进行分类。当采用人工标注的数据进行具体领域的数据分类时,由于人工标注对数据的理解差异性较大,容易引入脏数据,进而影响数据分类结果的准确性,基于此,本公开实施例提供一种数据分类方法,该数据分类方法应用于具体领域对数据进行分类的情况,提高数据分类结果的准确性。
[0019]如图1所示,该方法具体包括如下:S10、接收用户输入的文本数据。
[0020]文本数据可以为一段话,也可以为一句话。
[0021]具体的,用户输入的文本数据是通用领域中的某个具体领域,例如,教育领域、通信领域或游戏领域等。
[0022]S20、对文本数据进行编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:接收用户输入的文本数据;对所述文本数据进行编码,得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量;对所述文本数据进行分词处理,得到一个或多个分词;响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量;将所述第一字向量表示、所述第一字位置向量、所述第一文本向量、所述第二字向量和所述第二字位置向量进行拼接,得到拼接的向量;利用预设的目标分类模型,确定所述拼接的向量的第一特征表示向量;利用预设的分类器,基于所述第一特征表示向量,确定所述文本数据的分类结果。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行编码,得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量,包括:对所述文本数据进行分词得到文本单词;将分词得到的所述文本单词进行编码,得到各所述文本单词对应的第一字向量、第一字位置向量和第一文本向量。3.根据权利要求2所述的方法,其特征在于,所述响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量,包括:针对所述一个或多个分词,采用标注方法将与目标领域的至少一个预设种子词存在关联关系的一个或多个分词进行标注;基于标注的所述一个或多个分词与目标领域的至少一个预设种子词的关联关系,获取所述至少一个所述预设种子词中每个预设种子词的第二字向量和第二字位置向量。4.根据权利要求1所述的方法,其特征在于,所述响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系,获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量之前,还包括:基于所述目标领域的至少一个预设种子词与候选词的相似度,确定所述预设种子词对应的候选词;根据所述预设种子词以及所述预设种子词对应的所述候选词,由所述预设种子词验核所述预设种子词对应的候选词组成所述预设种子词在所述目标领域的核心词。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标领域的至少一个预设种子词与候选词的相似度,确定所述预设种子词对应的候选词,包括:获取目标领域的历史文本数据,对所述历史文本数据进行分词得到多个候选分词;获取各所述候选分词的特征表示向量以及所述目标领域的预设种子词的特征表示向量;根据所述候选分词的特征表示向量和所述预设种子词的特征表示向量,采用滑动窗口的方式确定预设种子词对应的第一候选分词。6.根据权利要求5所述的方法,其特征在于,所述根据所述候选分词的特征表示向量和所述预设种子词的特征表示向量,采用滑动窗口的方式确定所述预设种子词对应的第一候
选...

【专利技术属性】
技术研发人员:张璐
申请(专利权)人:北京新唐思创教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1