一种会话场景信息抽取方法技术

技术编号:33035024 阅读:6 留言:0更新日期:2022-04-15 09:12
本发明专利技术属于信息人工智能技术领域,尤其是一种会话场景信息抽取方法,针对会话文本中干扰信息较多的问题,现提出以下方案,包括BERT,其特征在于,所述BERT包括utterance分类单元、utterance处理单元、utterance训练单元、utterance再处理单元和utterance预测单元,所述utterance分类单元是用于对问答双方的utterances进行分类以及信息类别匹配,所述utterance处理单元是加入适当标记并捕获语义编码,同时将窗口数据格式化,所述utterance训练单元是通过编码分类utterances。本发明专利技术通过从粗到细、粗细结合的方法保证了抽取信息的准确性。确性。确性。

【技术实现步骤摘要】
一种会话场景信息抽取方法


[0001]本专利技术涉及信息人工智能
,尤其涉及一种会话场景信息抽取方法。

技术介绍

[0002]在会话场景中,会话文本中包含着很多信息,其中用户的个人基础信息、个人特征信息对于构建用户画像,从而推动业务进行极为重要。
[0003]但大多数营销会话场景下,信息干扰比较多、口语话严重,例如,会话中会出现许多人名,其中只有一个或者都不是客户的信息,或是问方提出问题,但客户表示否认,怎么区分哪些信息是用户本人的,哪些不是,哪些问题是客户确认的,哪些不是,这些都是自动抽取用户信息的关键。
[0004]针对这一问题,我们急需解决的是如何通过上下文去对非用户信息进行筛选,以达到明确信息的问题。

技术实现思路

[0005]基于
技术介绍
中提出的会话文本中干扰信息较多的技术问题,本专利技术提出了一种会话场景信息抽取方法。
[0006]本专利技术提出的一种会话场景信息抽取方法,包括BERT,所述BERT包括utterance分类单元、utterance处理单元、utterance训练单元、utterance再处理单元和utterance预测单元,所述utterance分类单元是用于对问答双方的utterances进行分类以及信息类别匹配,所述utterance处理单元是加入适当标记并捕获语义编码,同时将窗口数据格式化,所述utterance训练单元是通过编码分类utterances,并加以数据计算获取信息并识别,所述utterance再处理单元是用于获取新编码,并对其进行二次分类,所述utterance预测单元是用于将对话中即将出现的信息进行预测处理。
[0007]优选地,所述utterance分类单元中,具体包括以下步骤:
[0008]S11:问答方标注分类:一般来说,用户信息出现一般来自于两种方式,一种来自于客服的询问,用户回答,另一种来自于用户主动表达,并规定对于问答式的信息采用QA方式标注,用户信息询问的utterance问题标为Q_type,所询问的utterance问题的所有回答标注为PA_typei和NA_typei;
[0009]S12:信息分类:将用户信息归为姓名、职位、公司名、联系地址、邮寄地址、电话、性别、年龄类多种信息种类;
[0010]S13:回答识别:识别S11中标注的回答方信息,并归类用于后续信息识别;
[0011]S14:utterance信息类别匹配:将回答的信息中的所有信息按照S12中的分类分别做识别归类;
[0012]所述问答方标注分类中的type表示用户信息的种类,当姓名为Qname,地址为Qaddress,i则表示该种类问答的次序,PA_type代表肯定回答,NA_type代表否定回答,而对于用户主动表述的信息,则规定标为SA_type,含义同上。
[0013]优选地,所述utterance处理单元中,具体包括以下步骤:
[0014]S21:符号处理:对标注数据进行的utterance经过去掉emoji表情、特殊符号的预处理手段;
[0015]S22:加入标记:为了统一问答式的信息表述和主动表述的形式,则对输入加入特殊标记“[EMPTYQ]”,并规定该标记的token type和客服的token type一致,当用户是主动的信息表述,则将该标记和SA_type构成完整的QA形式;
[0016]S23:二次加入标记:加入[SPKEAR0]、[SPKEAR1]标记来表示对话角色信息;
[0017]S24:语义编码捕获:利用标记来捕获对应utterance的语义编码;
[0018]S25:窗口数据格式化:此时窗口数据将被格式化为:
[0019][0020]表示第j个utterance的第k个token;
[0021]所述二次加入标记中,[SPKEAR0]、[SPKEAR1]分别对应客服和用户。
[0022]优选地,所述utterance训练单元中,具体包括以下步骤:
[0023]S31:编码取出分类:训练时,取出所有[SPEAK]的编码接FFN做多分类,用作判断对应的utterance;
[0024]S32:类别缓解:考虑到出现类别不均衡,将采用logit指数压缩结合CorssEntropyLoss的办法缓解;
[0025]S33:数据计算:推断时则直接判断FFN的输出,考虑到首尾两句可能缺乏足够的信息判断,计算loss的时候忽略第二第三个[SPEAK]和后两个[SPEAK]的损失,只计算中间五个[SPEAK]的损失,预测是同样只关心中间五个[SPEAK]的输出,取值最大的索引作为该utterance作为相应信息类别的Q;
[0026]S34:信息识别获取:为了输出具体信息,基于本次输出的token编码结合CRF做实体识别任务,这样可获得相应utterance的实体信息;
[0027]所述utterance再处理单元中,具体包括以下步骤:
[0028]S41:信息注入:采用Condition Normalization将该utterance的信息注入到utterance训练单元中输出的token编码以获得根据信息类别编码信息的新token编码;
[0029]S42:二次分类:对各个[SPEAK]接FFN进行二次分类,判断是否是utterance训练单元中输出问题的答案;
[0030]S43:二次类别缓解:考虑到出现类别不均衡,将再次采用logit指数压缩结合CorssEntropyLoss的办法缓解;
[0031]所述utterance再处理单元中,具体包括以下步骤:
[0032]S51:新会话切分:预测时,将新的会话按照utterance分类单元的方式进行切分;
[0033]S52:实体信息获取:然后分别重复utterance处理单元和utterance训练单元的步骤拿到信息类别的Q以及各个utterance的实体信息;
[0034]S53:答案分析:再经过utterance再处理单元的步骤拿到每段的问题以及对应的答案,在没有答案或者答案是否定的情况下则该问答对的实体不作为返回,反之则返回。
[0035]本专利技术中的有益效果为:
[0036]1、该一种会话场景信息抽取方法,通过以抽取模型BERT为基础,提出一种基于上
下文理解由粗到细的用户信息抽取方法,首先从utterance级别去理解上下文语义,确定哪些utterance是表述用户信息,再从这些可能的utterance中获取具体的用户信息,例如用户的姓名、地址、职位、公司名等等,使该网络架构能在理解上下文的基础上从utterance语义上缩小信息抽取的范围,从粗到细、粗细结合的方法保证了抽取信息的准确性,该方法在会话场景中具有很好的效果。
[0037]2、该一种会话场景信息抽取方法,通过此方法的整个信息处理流程为end2end的结构方式,以一个流畅的流程瞬间处理好所有的数据,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种会话场景信息抽取方法,包括BERT,其特征在于,所述BERT包括utterance分类单元、utterance处理单元、utterance训练单元、utterance再处理单元和utterance预测单元,所述utterance分类单元是用于对问答双方的utterances进行分类以及信息类别匹配,所述utterance处理单元是加入适当标记并捕获语义编码,同时将窗口数据格式化,所述utterance训练单元是通过编码分类utterances,并加以数据计算获取信息并识别,所述utterance再处理单元是用于获取新编码,并对其进行二次分类,所述utterance预测单元是用于将对话中即将出现的信息进行预测处理。2.根据权利要求1所述的一种会话场景信息抽取方法,其特征在于,所述utterance分类单元中,具体包括以下步骤:S11:问答方标注分类:一般来说,用户信息出现一般来自于两种方式,一种来自于客服的询问,用户回答,另一种来自于用户主动表达,并规定对于问答式的信息采用QA方式标注,用户信息询问的utterance问题标为Q_type,所询问的utterance问题的所有回答标注为PA_typei和NA_typei;S12:信息分类:将用户信息归为姓名、职位、公司名、联系地址、邮寄地址、电话、性别、年龄类多种信息种类;S13:回答识别:识别S11中标注的回答方信息,并归类用于后续信息识别;S14:utterance信息类别匹配:将回答的信息中的所有信息按照S12中的分类分别做识别归类。3.根据权利要求2所述的一种会话场景信息抽取方法,其特征在于,所述问答方标注分类中的type表示用户信息的种类。4.根据权利要求3所述的一种会话场景信息抽取方法,其特征在于,所述utterance处理单元中,具体包括以下步骤:S21:符号处理:对标注数据进行的utterance经过去掉emoji表情、特殊符号的预处理手段;S22:加入标记:为了统一问答式的信息表述和主动表述的形式,则对输入加入特殊标记“[EMPTYQ]”,并规定该标记的token type和客服的token type一致,当用户是主动的信息表述,则将该标记和SA_type构成完整的QA形式;S23:二次加入标记:加入[SPKEAR0]、[SPKEAR1]标记来表示对话角色信息;S24:语义编码捕获:利用标记来捕获对应utterance的语义编码;S25:窗口数据格式化:此时窗口数据将被格式化为:S2...

【专利技术属性】
技术研发人员:赵继帆谭波
申请(专利权)人:北京尘锋信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1