多轮对话系统的指代消解方法技术方案

技术编号:26971304 阅读:18 留言:0更新日期:2021-01-06 00:02
本发明专利技术提供的一种多轮对话系统的指代消解方法,包括以下步骤:S1.对多轮对话系统所接收到的语句进行检测,判断语句是否需要进行指代消解,如是,则进入到步骤S2中;S2.对确定为需要进行指代消解的语句进行判断,区分语句的指代类型,并从区分出指代类型的语句中筛选出候选实体;语句的指代类型包括回指语句和共指语句;S3.确定候选实体与语句中指代词的距离,并将距离最小的候选实体作为指代链接词;S4.将指代词更新为指代链接词;通过上述方法,能够对输入多轮对话系统的语句的指代进行准确的识别,并进行准确的指代消解,能有效提高多轮交互系统的顺畅性,提升用户体验。

【技术实现步骤摘要】
多轮对话系统的指代消解方法
本专利技术涉及人机对话语言处理领域,尤其涉及一种多轮对话系统的指代消解方法。
技术介绍
指代是一种常见的语言现象。在多轮对话系统中,指代和省略影响人机对话系统的流畅度和用户体验。人脑具有知识背景和记忆能力,能够很好的重现对话历史的关键信息,自动补全或者替换对方当前轮的代词,来理解对话的真正含义。同样,人机对话系统中需要指代消解模块,来理解用户输入的真正语义。指代消解方法分为基于管道的方法和基于端到端的方法。基于管道的方法是先进行指代检测,然后再进行指代消解。基于端到端的方法,对输入层编码,通过中间层的计算,输出指代消解结果,常见的基于端到端的方法有基于联合训练的方法、基于序列标注的方法、基于指针网络的方法。基于端到端的方法通常采用深度学习模型,但是需要大量带标签的标注数据,在面对领域数据缺乏时模型构建成本较高,尤其在初期是多轮指代消解标注数据缺乏,且在实际应用中遇到问题,模型修改迭代不满足线上系统的及时性。因此,为了解决上述技术问题,亟需提出一种新的技术手段加以解决。
技术实现思路
有鉴于此,本专利技术的目的是提供一种多轮对话系统的指代消解方法,能够对输入多轮对话系统的语句的指代进行准确的识别,并进行准确的指代消解,能有效提高多轮交互系统的顺畅性,提升用户体验。本专利技术提供的一种多轮对话系统的指代消解方法,包括以下步骤:S1.对多轮对话系统所接收到的语句进行检测,判断语句是否需要进行指代消解,如是,则进入到步骤S2中;S2.对确定为需要进行指代消解的语句进行判断,区分语句的指代类型,并从区分出指代类型的语句中筛选出候选实体;S3.确定候选实体与语句中指代词的距离,并将距离最小的候选实体作为指代链接词;S4.将指代词更新为指代链接词。进一步,步骤S3中,根据如下方法确定候选实体与语句中指代词的距离:D=α*(w1*D1+w2*D2);其中,D为候选实体与语句中指代词的距离,α为实体类型与待消解语句的类型匹配度,w1为实体与语句话题关联度系数,w2为实体替换后的句子概率系数,D1为待指代消解的语句的句向量和候选实体之间的语义距离,D2为候选实体与待指代消解语句之间的距离。进一步,根据如下方法计算类型匹配度α:其中,PL为指代词的指代类型的预测概率,Pm为候选实体内第m个字的字标签属性概率,k为候选实体中字的个数。进一步,根据如下方法计算实体与语句话题关联度系数w1:w1=Pt;其中,Pt为当前语句的话题的前一个话题转移到当前语句的话题的概率。进一步,所述实体替换后的句子概率系数w2计算方法为:w2=P(s1)Πi≥2P(si|si-1),其中:P(s1)为待消解语句中编号为1的词s1排在待消解语句句首的概率,P(si|si-1)为待消解语句的第i个词si排在第i-1个词si-1个词后的概率。进一步,根据如下方法确定待指代消解的语句的句向量和候选实体之间的语义距离D1:其中,Vsen为待消解语句的句向量,Vcdt为候选实体向量,n表示组成待消解语句的词的个数,r表示组成待消解语句的第r个词,q为组成候选实体的词的个数,j为组成候选实体的第j个词,vr为组成待消解语句的第r个词的词向量,vj为组成候选实体第j个词的词向量。进一步,根据如下方法确定候选实体与指代句之间的距离D2:D2=eU-V,其中,U为候选实体出现的次数,V为候选实体与待消解的语句之间的间隔字符数。进一步,步骤S1和步骤S2中,采用fasttext分类模型对语句进行检测并提取出指代词,并对语句的指代类型进行判断。进一步,步骤S2中,采用BiLSTM_CRF深度学习模型对语句中的实体进行提取。本专利技术的有益效果:通过本专利技术,能够对输入多轮对话系统的语句的指代进行准确的识别,并进行准确的指代消解,能有效提高多轮交互系统的顺畅性,提升用户体验。附图说明下面结合附图和实施例对本专利技术作进一步描述:图1为本专利技术的流程图。具体实施方式以下对本专利技术做出进一步详细说明:本专利技术提供的一种多轮对话系统的指代消解方法,包括以下步骤:S1.对多轮对话系统所接收到的语句进行检测,判断语句是否需要进行指代消解,如是,则进入到步骤S2中;其中,输入到多轮对话系统的语句可以是语音语句,也可以是文字语句;S2.对确定为需要进行指代消解的语句进行判断,区分语句的指代类型,并从区分出指代类型的语句中筛选出候选实体;S3.确定候选实体与语句中指代词的距离,并将距离最小的候选实体作为指代链接词;S4.将指代词更新为指代链接词;通过上述方法,能够对输入多轮对话系统的语句的指代进行准确的识别,并进行准确的指代消解,能有效提高多轮交互系统的顺畅性,提升用户体验。其中:步骤S1和步骤S2中,采用fasttext分类模型对语句进行检测并提取出指代词,并对语句的指代类型进行判断。步骤S2中,采用BiLSTM_CRF深度学习模型对语句中的实体进行提取。指代消解主要目的是对代词进行替换,在这之前,需对指代词进行检测及提取,其中,指代词比如“他”、“她”、“它”、“这”、“那”等等;实体比如人名、物名、地名、机构名称等;对于BiLSTM_CRF深度学习模型,此为一个现有技术,模型第一层为数据表示层,对于一段输入序列,该层将每一字符映射为向量表示,本事实例中采用word2vec;BiLSTM层。LSTM在RNN的基础上增加了输入门、遗忘门、输出门,能够根据信息特征的重要性进行保留与遗忘,解决了神经网络中长序列依赖问题。神经网络可以根据文本中词的分布式表示自动提取特征,字向量的BiLSTM-CRF模型,在BiLSTM输出预测曾后,CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束可以通过CRF层自动学习到,最后输出序列化的标签,标签第一级采用BIOES表示,其中B实体词的开始,I表示实体词的中间字或词,E表示实体词的结束,S表示单字实体,O表示为非实体字或词。二级标签采用实体类别的英文表示。例如,人名类实体标签分别为B-PER,I-PER,E-PER,S-PER,O-PER。本实施例中,步骤S3中,根据如下方法确定候选实体与语句中指代词的距离:D=α*(w1*D1+w2*D2);其中,D为候选实体与语句中指代词的距离,α为类型匹配度,w1为权重值,w2为权重值,D1为待指代消解的语句的句向量和候选实体之间的语义距离,D2为候选实体与指代句之间的距离。具体地:根据如下方法计算类型匹配度α:其中,PL为指代词的指代类型的预测概率,Pm为候选实体内第m个字的字标签属性概率,k为候选实体中字的个数,其中,指代类型比如人名、地名、产品名称、机构名称等。根据如下方法计算实体与语句话题关联度系数w1:w1=Pt;其中,Pt为当前语句的本文档来自技高网...

【技术保护点】
1.一种多轮对话系统的指代消解方法,其特征在于:包括以下步骤:/nS1.对多轮对话系统所接收到的语句进行检测,判断语句是否需要进行指代消解,如是,则进入到步骤S2中;/nS2.对确定为需要进行指代消解的语句进行判断,区分语句的指代类型,并从区分出指代类型的语句中筛选出候选实体;/nS3.确定候选实体与语句中指代词的距离,并将距离最小的候选实体作为指代链接词;/nS4.将指代词更新为指代链接词。/n

【技术特征摘要】
1.一种多轮对话系统的指代消解方法,其特征在于:包括以下步骤:
S1.对多轮对话系统所接收到的语句进行检测,判断语句是否需要进行指代消解,如是,则进入到步骤S2中;
S2.对确定为需要进行指代消解的语句进行判断,区分语句的指代类型,并从区分出指代类型的语句中筛选出候选实体;
S3.确定候选实体与语句中指代词的距离,并将距离最小的候选实体作为指代链接词;
S4.将指代词更新为指代链接词。


2.根据权利要求1所述多轮对话系统的指代消解方法,其特征在于:步骤S3中,根据如下方法确定候选实体与语句中指代词的距离:
D=α*(w1*D1+w2*D2);其中,D为候选实体与语句中指代词的距离,α为实体类型与待消解语句的类型匹配度,w1为实体与语句话题关联度系数,w2为实体替换后的句子概率系数,D1为待指代消解的语句的句向量和候选实体之间的语义距离,D2为候选实体与待指代消解语句之间的距离。


3.根据权利要求2所述多轮对话系统的指代消解方法,其特征在于:根据如下方法计算类型匹配度α:

其中,PL为指代词的指代类型的预测概率,Pm为候选实体内第m个字的字标签属性概率,k为候选实体中字的个数。


4.根据权利要求2所述多轮对话系统的指代消解方法,其特征在于:根据如下方法计算实体与语句话题关联度系数w1:
w1=Pt;其中,Pt为当前语句的话题的前一个话题转移到当前语句的话题的概率。


5.根据权利要求2所...

【专利技术属性】
技术研发人员:张会焱敖文刚刘宗敏
申请(专利权)人:重庆工商大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1