【技术实现步骤摘要】
基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法
[0001]本专利技术涉及文本分类领域,具体是一种基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法。
技术介绍
[0002]云ERP社区问题分类是云ERP社区运行服务的关键环节,是云ERP生态圈所有个体和组织灵活、快捷的交流和分享的重要保障。然而,区别于娱乐、购物等普通生活类社区,云ERP社区具有极强的领域性、技术性、专业性特征,且涉及的主体多、范围广、内容丰富、问题杂,问题分类难,给云ERP社区的运行保障工作带来巨大困难与挑战。
[0003]考虑到云ERP社区的开放性、涉众群体的多样化和用户需求的多变性,在时间和空间维度上的领域数据众多,包括了云ERP领域知识库数据和交互数据。其中知识库数据包含39个云ERP领域的知识文档、开发者手册等;社区用户交互数据包含了人工客服会话数据、社区评论互动数据等。如此多的数据需要有效的分类,目前,目前在社区用户提问时仅将问题进行相关性检索,未在检索前对问题进行有效分类,而且问答流程仅为一问一答,答案生成难以控制,使得回复效率较低。
技术实现思路
[0004]本专利技术的目的在于克服上述
技术介绍
中提出的问题,提供了一种基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,该方法能够对云ERP社区问题进行有效分类。
[0005]本专利技术的目的主要通过以下技术方案实现:
[0006]基于BERT
‑ ...
【技术保护点】
【技术特征摘要】
1.基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,其特征在于,包括以下步骤:(1)对云ERP生态社区问题文本进行预处理;(2)将问题文本向量输入BERT预训练模型提取特征,对问题文本的特征进行基于字符级别的强抽取;(3)将问题特征向量输入文本卷积神经网络TextCNN中,捕捉临近词之间的关系;(4)通过全连接层输出问题分类结果。2.根据权利要求1所述的基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,其特征在于,所述步骤(1)中对云ERP生态社区问题文本进行预处理时,首先从数据库中抽取云ERP知识库和客服数据的问题文本,然后通过Python脚本程序对问题文本自动打标,将知识库类问题和生成类问题分别标记为“1”类和“0”类,构建云ERP领域问题分类数据集。3.根据权利要求1所述的基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,其特征在于,所述步骤(2)中BERT预训练模型由输入表示层、Transformer编码器和输出层构成。4.根据权利要求3所述的基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,其特征在于,所述Transformer编码器的词嵌入输入层(Input Embedding)用于输入词向量,并在进入编码器之前,加入了位置编码(Positional Encoding)识别语言顺序,位置编码是通过三角函数学习出来的,如式(1)和式(2)所示:学习出来的,如式(1)和式(2)所示:式(1)中pos代表语句中字的位置,i表示词向量维数,d
model
表示编码器模型维数,通过sin和cos函数便函提供模型位置信息。5.根据权利要求3所述的基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,其特征在于,所述Transformer编码器的多头自注意力层(Multi
‑
Head Self
‑
Attention)为自注意力机制随机初始化多组权重向量,其原理如式(3)所示,初始化三个权重矩阵Query(Q)查询矩阵、Key(K)键矩阵、Value(V)值矩阵,QK
T
矩阵乘法得到注意力矩阵,用将其表示成标准正态分布,得到softmax归一化后的结果给值矩阵V注意力权重,得到最后的自注意力:6.根据权利要求3所述的基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,其特征在于,所述Transformer编码器的求和与层归一化(Add&Normalize),通过残差连接将输入词嵌入与注意力向量相加,再通过层归一化将网络的隐藏层转换为标准正态分布,起到加速收敛的作用,计算原理如式(4)和式(5)所示:X
attention
=X+X
attention
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)式中X
attention
代表自注意力向量,X代表位置编码后的词向量输入,LayerNorm(x
i
)代表
层归一化函数,α和β为两个训练设置的初始化常数项参数,u
L
为以矩阵行为单位求的均值,ε常数项是为了避免分母为零。7.根据权利要求3所述的基于BERT
‑
TextCNN的云ERP社区跨领域问题分类方法,其特征在于,所述Transformer编码器的前馈神经网络,是向量通过两层线性全连接网络后由激活函数得到的,如式(6)所示,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。