一种基于神经网络架构搜索技术的对话文本情景划分方法技术

技术编号:35260791 阅读:16 留言:0更新日期:2022-10-19 10:20
本发明专利技术公开了一种基于神经网络架构搜索技术的对话文本情景划分方法,方法包括:对话文本句向量转换,构建句向量模型将对话文本语句转换为同一维度的句向量特征;将对话文本按照语义特征划分为若干段落,构建分段模型,将对话文本分段作为序列标注任务,使用三个分段符号标识一个文本段落;在模型中使用CRF约束最后输出分段符号之间的先后顺序,并基于神经网络架构搜索技术搜索循环神经网络RNN结构;将离散的文本段落按照对话情景划分和对话文本聚类,并调整最后的聚类效果形成聚类簇。本发明专利技术解决了训练样本短缺的问题,对于对话文本领域一些下游任务能提供更好的支持,有着更强的对话语义捕获能力,可以更好地将对话文本按照情景进行划分。照情景进行划分。照情景进行划分。

【技术实现步骤摘要】
一种基于神经网络架构搜索技术的对话文本情景划分方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于神经网络架构搜索技术的对话文本情景划分方法。

技术介绍

[0002]随着计算机网络的发展,一类以对话为主体的文本数据逐渐增多,如社交聊天、客服对话、医患诊断、AI问答等。通过对对话文本进行建模并其按照情景进行划分,能够更好地理解对话文本中的语义信息,对许多下游任务都能提供良好的支持。对话文本情景划分有着十分广阔的应用前景,并已经成为自然语言处理领域的研究热点。
[0003]作为自动机器学习的子领域之一,神经网络架构搜索是一种针对特定任务来设计的用于自动搜索网络模型架构的技术。神经网络架构搜索技术具有十分广阔的应用价值与研究意义,近年来得到了研究人员的广泛关注,并取得了一定的研究进展。搜索空间、搜索策略、评估是评估神经网络架构搜索技术最重要的三个方向,其中,搜索空间定义了网络架构的基本单元或者操作方式,而搜索策略则定义了从搜索空间中搜索一个完整的子架构的具体实现方法,最后评价策略负责对搜索到的子架构的最终表现进行打分,并将得分结果返回给搜索策略,指导其进行下一步的搜索过程。
[0004]强化学习是神经网络架构搜索技术中常用的一种搜索策略。基于强化学习的神经网络架构搜索方法中,通常是用循环神经网络(RNN)来采样一个子网络结构,之后在任务训练集上训练该子网络结构至收敛,根据该子网络结构最终表现算出其得分,将该得分作为强化学习中的奖励来更新RNN模型。其中搜索子网络架构的RNN模型又被称为控制器(Controller),它会按照设定在不同时间步搜索指定的网络架构参数。控制器和搜出的网络架构的权重交替更新,其中搜出的网络架构权重更新时,控制器权重参数保持不变;而在控制器更新期间,会对以往搜出的网络架构采样进行评估。
[0005]在目前对话文本情景划分方法中,对话语义捕获能力较差,不能通过构建正负样本对来提取语义信息的中句向量,且在对话语义的捕获过程中,存在训练样本短缺的问题,不能为对话文本领域相关下游任务提供更好的支持。

技术实现思路

[0006]本专利技术的目的在于克服现有技术的不足,提供一种基于神经网络架构搜索的对话文本情景划分方法,使用神经网络架构搜索技术完成了对话文本中关键模型的搜索,解决了训练样本短缺的问题,有着更强的对话语义捕获能力,并结合情景段落聚类算法,可以更好地将对话文本按照情景进行划分。
[0007]本专利技术的目的是通过以下技术方案来实现的:
[0008]一种基于神经网络架构搜索技术的对话文本情景划分方法,包括以下步骤:
[0009]步骤一:对话文本句向量转换,训练一个用于捕获对话语义信息的句向量模型,在句向量模型构建完成后,利用模型将对话文本语句转换为同一维度的句向量特征;
[0010]步骤二:将对话文本按照语义特征划分为若干段落,构建分段模型,将对话文本分段作为序列标注任务,使用三个分段符号标识一个文本段落;在分段模型中使用条件随机场CRF约束最后输出分段符号之间的先后顺序,并基于神经网络架构搜索技术搜索一种用于捕获对话语义信息的循环神经网络RNN结构;
[0011]步骤三:将离散的文本段落按照对话情景划分,基于DBSCAN算法提出一种对话段落情景聚类算法进行对话文本聚类,并通过调控密度半径和样本阈值调整最后的聚类效果,最后形成的聚类簇即可视为划分好的对话情景。
[0012]具体的,所述步骤一具体包括以下子步骤:
[0013]步骤11:构建对话文本句向量模型DSimCSE的训练样本数据集;
[0014]步骤12:以正样本对的目标函数作为句向量模型的训练目标,对句向量模型进行训练,正样本对的目标函数如下式所示:
[0015][0016]其中S
i
表示正样本对中的原始语句,S
+i
表示正样本对中的新语句,m表示对话语句个数,t表示温度超参数,sim表示余弦相似度函数;
[0017]对于负样本对,将正样本对的训练目标取相反后对句向量模型进行训练;
[0018]步骤13:将对话语句输入对话文本句向量模型DSimCSE进行句向量特征转换,获得对话语句对应的句向量特征。
[0019]具体的,所述步骤11包括以下步骤:
[0020]步骤111:将同一篇对话文本中的不同语句作为负样本对;
[0021]步骤112:在构建正样本对时,对于每条对话语句,首先通过词性判别器识别出对话语句中词性为名词或动词的单词,通过对这类单词进行重复得到新的语句,将新语句与原始语句作为一组正样本对。
[0022]具体的,所述步骤二具体包括以下子步骤:
[0023]步骤21:通过基于强化学习的神经网络架构搜索方法搜索一种新型循环神经网络架构DRNN,用于捕获对话句向量中的语义信息;
[0024]步骤22:在DRNN的输出特征矩阵之后接一层使用条件随机场CRF来约束分段符号之间的顺序,其中<S>表示段落开始语句,<M>表示段落中间的语句,<E>表示段落结束语句;对于已知输入对话序列Dialogue={s1,s2,...,s
m
},经过CRF输出的分段标记符号为T={t1,t2,...,t
m
},则T的得分可如下式所示:
[0025][0026]其中,Score(S,T)表示分段标记符号T的得分,A表示CRF的转移矩阵,P表示输出的概率矩阵;
[0027]当训练完成后,确定CRF的转移矩阵参数;输出所有序列得分并取序列得分最大的序列作为对话句向量的最终语义输出,具体如下式所示:
[0028][0029]其中,T
S
表示输入对话序列S时可以输出的所有分段标记序列;
[0030]步骤23:在训练集上优化对分段模型的参数进行优化;
[0031]步骤24:在验证集上对控制器的参数进行优化;
[0032]步骤25:得到对话文本的分段结果。
[0033]具体的,所述步骤21包括以下子步骤:
[0034]步骤211:将DRNN的搜索空间定义为一个有着N个节点的有向无环图,图中的每个节点代表一个激活函数计算节点,节点之间的有向边表示着信息的流动方向;边的起始节点代表输入特征,边的终止节点表示输出特征,从输入特征到输出特征的计算由终止节点上的激活函数决定;
[0035]步骤212:通过控制器控制DRNN的搜索过程,分两个时间步来搜索DRNN结构上的计算节点信息;在搜索节点i时,第一个时间步确定当前节点的前驱节点,确保前驱节点已经先于节点i被搜索;第二个时间步确定节点i上需要的激活函数。
[0036]具体的,所述步骤23包括以下子步骤:
[0037]步骤231:固定控制器参数;
[0038]步骤232:控制器搜索一个DRNN架构;
[0039]步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络架构搜索技术的对话文本情景划分方法,其特征在于,包括以下步骤:步骤一:对话文本句向量转换,训练一个用于捕获对话语义信息的句向量模型,在句向量模型构建完成后,利用模型将对话文本语句转换为同一维度的句向量特征;步骤二:将对话文本按照语义特征划分为若干段落,构建分段模型,将对话文本分段作为序列标注任务,使用三个分段符号标识一个文本段落;在分段模型中使用条件随机场CRF约束最后输出分段符号之间的先后顺序,并基于神经网络架构搜索技术搜索一种用于捕获对话语义信息的循环神经网络RNN结构;步骤三:将离散的文本段落按照对话情景划分,基于DBSCAN算法提出一种对话段落情景聚类算法进行对话文本聚类,并通过调控密度半径和样本阈值调整最后的聚类效果,最后形成的聚类簇即可视为划分好的对话情景。2.根据权利要求1所述的一种基于神经网络架构搜索技术的对话文本情景划分方法,其特征在于,所述步骤一具体包括以下子步骤:步骤11:构建对话文本句向量模型DSimCSE的训练样本数据集;步骤12:以正样本对的目标函数作为句向量模型的训练目标,对句向量模型进行训练,正样本对的目标函数如下式所示:其中S
i
表示正样本对中的原始语句,S
+i
表示正样本对中的新语句,m表示对话语句个数,t表示温度超参数,sim表示余弦相似度函数;对于负样本对,将正样本对的训练目标取相反后对句向量模型进行训练;步骤13:将对话语句输入对话文本句向量模型DSimCSE进行句向量特征转换,获得对话语句对应的句向量特征。3.根据权利要求2所述的一种基于神经网络架构搜索技术的对话文本情景划分方法,其特征在于,所述步骤11包括以下步骤:步骤111:将同一篇对话文本中的不同语句作为负样本对;步骤112:在构建正样本对时,对于每条对话语句,首先通过词性判别器识别出对话语句中词性为名词或动词的单词,通过对这类单词进行重复得到新的语句,将新语句与原始语句作为一组正样本对。4.根据权利要求1所述的一种基于神经网络架构搜索技术的对话文本情景划分方法,其特征在于,所述步骤二具体包括以下子步骤:步骤21:通过基于强化学习的神经网络架构搜索方法搜索一种新型循环神经网络架构DRNN,用于捕获对话句向量中的语义信息;步骤22:在DRNN的输出特征矩阵之后接一层使用条件随机场CRF来约束分段符号之间的顺序,其中<S>表示段落开始语句,<M>表示段落中间的语句,<E>表示段落结束语句;对于已知输入对话序列Dialogue={s1,s2,...,s
m
},经过CRF输出的分段标记符号为T={t1,t2,...,t
m
},则T的得分可如下式所示:
其中,Score(S,T)表示分段标记符号T的得分,A表示CRF的转移矩阵,P表示输出的概率矩阵;当训练完成后,确定CRF的转移矩阵参数;输出...

【专利技术属性】
技术研发人员:林劼李赛鹏姜铼王元芳肖新宇梁玉龙
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1