数据分类方法、装置、设备和存储介质制造方法及图纸

技术编号：32799343 阅读：19 留言：0更新日期：2022-03-23 20:03

本公开涉及一种数据分类方法、装置、设备和存储介质，包括：接收用户输入的文本数据；对文本数据进行编码，得到与文本数据对应的第一字向量、第一字位置向量和第一文本向量；对文本数据进行分词处理，得到一个或多个分词；响应于确定一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系，获取至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量；将第一字向量表示、第一字位置向量、第一文本向量、第二字向量和第二字位置向量进行拼接，得到拼接的向量；利用预设的目标分类模型，确定拼接的向量的第一特征表示向量；利用预设的分类器，基于第一特征表示向量，确定文本数据的分类结果。确定文本数据的分类结果。确定文本数据的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
数据分类方法、装置、设备和存储介质

[0001]本公开涉及数据分类
，尤其涉及一种数据分类方法、装置、设备和存储介质。

技术介绍

[0002]目前，在对数据进行分类时，通常会采用数据标注方法，即对数据池的样本数据交予标注者进行人工标注，然后使用标注后的样本扩充已标注数据池。
[0003]由于人工标注对数据的理解差异性较大，当采用通用领域的样本数据进行标注扩充某个具体领域中的数据池时，会存在比较大的差异性，且在通用领域标注的同义词不一定适用于具体领域，即容易引入脏数据，导致标注出来的数据参差不齐，降低分类结果的准确性。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种数据分类方法、装置、设备和存储介质，提高分类精度。
[0005]第一方面，本公开实施例提供了一种数据分类方法，包括：接收用户输入的文本数据；对所述文本数据进行编码，得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量；对所述文本数据进行分词处理，得到一个或多个分词；响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系，获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量；将所述第一字向量表示、所述第一字位置向量、所述第一文本向量、所述第二字向量和所述第二字位置向量进行拼接，得到拼接的向量；利用预设的目标分类模型，确定所述拼接的向量的第一特征表示向量；利用预设的分类器，基于所述第一特征表示向量，确定所述文本数据的...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法，其特征在于，包括：接收用户输入的文本数据；对所述文本数据进行编码，得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量；对所述文本数据进行分词处理，得到一个或多个分词；响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系，获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量；将所述第一字向量表示、所述第一字位置向量、所述第一文本向量、所述第二字向量和所述第二字位置向量进行拼接，得到拼接的向量；利用预设的目标分类模型，确定所述拼接的向量的第一特征表示向量；利用预设的分类器，基于所述第一特征表示向量，确定所述文本数据的分类结果。2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行编码，得到与所述文本数据对应的第一字向量、第一字位置向量和第一文本向量，包括：对所述文本数据进行分词得到文本单词；将分词得到的所述文本单词进行编码，得到各所述文本单词对应的第一字向量、第一字位置向量和第一文本向量。3.根据权利要求2所述的方法，其特征在于，所述响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系，获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量，包括：针对所述一个或多个分词，采用标注方法将与目标领域的至少一个预设种子词存在关联关系的一个或多个分词进行标注；基于标注的所述一个或多个分词与目标领域的至少一个预设种子词的关联关系，获取所述至少一个所述预设种子词中每个预设种子词的第二字向量和第二字位置向量。4.根据权利要求1所述的方法，其特征在于，所述响应于确定所述一个或多个分词中的至少一个分词与目标领域的至少一个预设种子词存在关联关系，获取所述至少一个预设种子词中每个预设种子词的第二字向量和第二字位置向量之前，还包括：基于所述目标领域的至少一个预设种子词与候选词的相似度，确定所述预设种子词对应的候选词；根据所述预设种子词以及所述预设种子词对应的所述候选词，由所述预设种子词验核所述预设种子词对应的候选词组成所述预设种子词在所述目标领域的核心词。5.根据权利要求4所述的方法，其特征在于，所述基于所述目标领域的至少一个预设种子词与候选词的相似度，确定所述预设种子词对应的候选词，包括：获取目标领域的历史文本数据，对所述历史文本数据进行分词得到多个候选分词；获取各所述候选分词的特征表示向量以及所述目标领域的预设种子词的特征表示向量；根据所述候选分词的特征表示向量和所述预设种子词的特征表示向量，采用滑动窗口的方式确定预设种子词对应的第一候选分词。6.根据权利要求5所述的方法，其特征在于，所述根据所述候选分词的特征表示向量和所述预设种子词的特征表示向量，采用滑动窗口的方式确定所述预设种子词对应的第一候
选...

【专利技术属性】
技术研发人员：张璐，
申请(专利权)人：北京新唐思创教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人