System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类语料库的构建方法及其系统技术方案_技高网
当前位置: 首页 > 专利查询>湘南学院专利>正文

文本分类语料库的构建方法及其系统技术方案

技术编号:40052511 阅读:10 留言:0更新日期:2024-01-16 21:25
本申请涉及智能文本分类领域,其具体公开了一种文本分类语料库的构建方法及其系统,其以网页内容数据以及以网页主题数据的标签数据作为语料库构建参照数据,并提取出各个语料库构建参照数据的基于全局的动态变化多尺度关联特征,进而以此来构建语料库构建参照数据中的多尺度网页数据关联特征与网页主题的标签之间的数据特征库。再以用户提供的文本数据在高维空间中的全局关联特征作为查询特征,以此来从数据特征库中查询出文本的主题的标签数据特征,进而根据所述主题输出语料库。这样,将基于深度学习的人工智能技术与大数据算法相结合,对待分类文本自动进行主题分类,来智能构建文本语料库,降低了人为因素的影响,提高了语料库构建的准确性。

【技术实现步骤摘要】

本申请涉及智能文本分类领域,且更为具体的涉及一种文本分类语料库的构建方法及其系统


技术介绍

1、互联网上的信息量庞大且不断增长,搜索引擎通过索引和组织这些信息,使得用户可以更轻松地找到他们需要的内容。搜索引擎提供了一个简单易用的界面,用户可以通过输入关键词或短语来搜索相关信息。搜索引擎会根据用户的查询返回相关的结果,帮助用户快速找到他们需要的内容。但是,因为要索引网页的数据过于庞大,传统的搜索引擎往往是根据用户指定的分类来进行搜索。对传统的搜索引擎而言,往往是根据专家事先定义好的分类方式,通过人工的方法来根据用户输入的关联词来标注出训练语料来训练分类器。传统的标注方法需要耗费很大的人工成本和时间成本,容易受到人为主观因素的影响,而且需要根据分类方式的变化来进行重新分类。

2、因此,期待一种优化的文本分类语料库的构建方法。


技术实现思路

1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种文本分类语料库的构建方法及其系统,其以网页内容数据以及以网页主题数据的标签数据作为语料库构建参照数据,并提取出各个语料库构建参照数据的基于全局的动态变化多尺度关联特征,进而以此来构建语料库构建参照数据中的多尺度网页数据关联特征与网页主题的标签之间的数据特征库。再以用户提供的文本数据在高维空间中的全局关联特征作为查询特征,以此来从数据特征库中查询出文本的主题的标签数据特征,进而根据所述主题输出语料库。这样,将基于深度学习的人工智能技术与大数据算法相结合,对待分类文本自动进行主题分类,来智能构建文本语料库,降低了人为因素的影响,提高了语料库构建的准确性。

2、根据本申请的一个方面,提供了一种文本分类语料库的构建方法,其包括:

3、获取用户提供的文本数据;

4、获取网页主题的标签数据以及网页内容数据;

5、将所述用户提供的文本数据通过包含嵌入层的基于转换器的上下文编码器以得到查询特征向量;

6、将所述网页主题的标签数据以及网页内容数据通过包含嵌入层的基于转换器的上下文编码器以得到多个网页特征向量;

7、将所述多个网页特征向量二维排列为网页特征矩阵后通过包含多个混合卷积层的卷积神经网络模型以得到多尺度网页特征矩阵;

8、将所述查询特征向量与所述多尺度网页特征矩阵进行相乘以得到分类特征向量;

9、对所述分类特征向量进行秩序先验化以得到优化分类特征矩阵;

10、将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示文本的主题的标签;

11、基于所述分类结果输出语料库。

12、在上述的文本分类语料库的构建方法中,将所述用户提供的文本数据通过包含嵌入层的基于转换器的上下文编码器以得到查询特征向量,包括:

13、对所述用户提供的文本数据进行分词处理以获得多个用户词;

14、将所述多个用户词通过嵌入层以将所述多个用户词中各个用户词转化为用户词嵌入向量以得到用户词嵌入向量的序列,其中,所述嵌入层使用可学习的嵌入矩阵对所述各个用户词进行嵌入编码;

15、将所述用户词嵌入向量的序列输入所述基于转换器的上下文编码器以得到所述多个用户特征向量;

16、将所述多个用户特征向量进行级联以得到所述查询特征向量。

17、3.根据权利要求2所述的文本分类语料库的构建方法,其特征在于,将所述用户词嵌入向量的序列输入所述基于转换器的上下文编码器以得到所述多个用户特征向量,包括:

18、将所述用户词嵌入向量的序列排列为输入向量;

19、将所述输入向量通过可学习嵌入矩阵分别转化为查询向量和关键向量;

20、计算所述查询向量和所述关键向量的转置向量之间的乘积以得到自注意关联矩阵;

21、对所述自注意关联矩阵进行标准化处理以得到标准化自注意关联矩阵;

22、将所述标准化自注意关联矩阵输入softmax激活函数进行激活以得到自注意力特征矩阵;

23、将所述自注意力特征矩阵与以所述用户词嵌入向量的序列中各个用户词嵌入向量作为值向量分别进行相乘以得到所述多个用户特征向量。

24、在上述的文本分类语料库的构建方法中,将所述网页主题的标签数据以及网页内容数据通过包含嵌入层的基于转换器的上下文编码器以得到多个网页特征向量,包括:

25、分别将所述网页主题的标签数据以及网页内容数据通过所述基于转换器的上下文编码器的嵌入层进行独热编码,以将所述网页主题的标签数据以及网页内容数据分别转化为输入向量以获得输入向量的序列;

26、使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个网页特征向量。

27、在上述的文本分类语料库的构建方法中,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个网页特征向量,包括:

28、计算所述输入向量的序列与所述输入向量的序列中各个输入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;

29、分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;

30、将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过softmax分类函数以得到多个概率值;

31、分别以所述多个概率值中各个概率值作为权重对所述输入向量的序列中各个输入向量进行加权以得到所述多个网页特征向量。

32、在上述的文本分类语料库的构建方法中,将所述多个网页特征向量二维排列为网页特征矩阵后通过包含多个混合卷积层的卷积神经网络模型以得到多尺度网页特征矩阵,包括:

33、使用所述卷积神经网络模型的各个混合卷积层在层的正向传递中分别对输入数据进行:

34、基于第一卷积核对所述输入数据进行卷积处理以得到第一尺度特征图;

35、基于第二卷积核对所述输入数据进行卷积处理以得到第二尺度特征图,其中,所述第二卷积核为具有第一空洞率的空洞卷积核;

36、基于第三卷积核对所述输入数据进行卷积处理以得到第三尺度特征图,其中,所述第三卷积核为具有第二空洞率的空洞卷积核;

37、基于第四卷积核对所述输入数据进行卷积处理以得到第四尺度特征图,其中,所述第四卷积核为具有第三空洞率的空洞卷积核;

38、将所述第一尺度特征图、所述第二尺度特征图、所述第三尺度特征图和所述第四尺度特征图进行级联以得到多尺度特征图;

39、对所述多尺度特征图进行池化处理以得到池化特征图;

40、对所述池化特征图进行激活处理以得到激活特征图;

41、其中,所述卷积神经网络模型的最后一个混合卷积层的输出为所述多尺度网页特征矩阵。

42、在上述的文本分类语料库的构建方法中,将所述第一尺本文档来自技高网...

【技术保护点】

1.一种文本分类语料库的构建方法,其特征在于,包括:

2.根据权利要求1所述的文本分类语料库的构建方法,其特征在于,将所述用户提供的文本数据通过包含嵌入层的基于转换器的上下文编码器以得到查询特征向量,包括:

3.根据权利要求2所述的文本分类语料库的构建方法,其特征在于,将所述用户词嵌入向量的序列输入所述基于转换器的上下文编码器以得到所述多个用户特征向量,包括:

4.根据权利要求3所述的文本分类语料库的构建方法,其特征在于,将所述网页主题的标签数据以及网页内容数据通过包含嵌入层的基于转换器的上下文编码器以得到多个网页特征向量,包括:

5.根据权利要求4所述的文本分类语料库的构建方法,其特征在于,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个网页特征向量,包括:

6.根据权利要求5所述的文本分类语料库的构建方法,其特征在于,将所述多个网页特征向量二维排列为网页特征矩阵后通过包含多个混合卷积层的卷积神经网络模型以得到多尺度网页特征矩阵,包括:

7.根据权利要求6所述的文本分类语料库的构建方法,其特征在于,将所述第一尺度特征图、所述第二尺度特征图、所述第三尺度特征图和所述第四尺度特征图进行级联以得到多尺度特征图,包括:

8.根据权利要求7所述的文本分类语料库的构建方法,其特征在于,对所述分类特征向量进行秩序先验化以得到优化分类特征矩阵,包括:

9.根据权利要求8所述的文本分类语料库的构建方法,其特征在于,将所述优化分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示文本的主题的标签,包括:

10.一种文本分类语料库的构建系统,其特征在于,包括:

...

【技术特征摘要】

1.一种文本分类语料库的构建方法,其特征在于,包括:

2.根据权利要求1所述的文本分类语料库的构建方法,其特征在于,将所述用户提供的文本数据通过包含嵌入层的基于转换器的上下文编码器以得到查询特征向量,包括:

3.根据权利要求2所述的文本分类语料库的构建方法,其特征在于,将所述用户词嵌入向量的序列输入所述基于转换器的上下文编码器以得到所述多个用户特征向量,包括:

4.根据权利要求3所述的文本分类语料库的构建方法,其特征在于,将所述网页主题的标签数据以及网页内容数据通过包含嵌入层的基于转换器的上下文编码器以得到多个网页特征向量,包括:

5.根据权利要求4所述的文本分类语料库的构建方法,其特征在于,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个网页特征向量,...

【专利技术属性】
技术研发人员:徐剑波吴丹唐昊
申请(专利权)人:湘南学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1