一种会话场景信息抽取方法技术

技术编号：33035024 阅读：6 留言：0更新日期：2022-04-15 09:12

本发明专利技术属于信息人工智能技术领域，尤其是一种会话场景信息抽取方法，针对会话文本中干扰信息较多的问题，现提出以下方案，包括BERT，其特征在于，所述BERT包括utterance分类单元、utterance处理单元、utterance训练单元、utterance再处理单元和utterance预测单元，所述utterance分类单元是用于对问答双方的utterances进行分类以及信息类别匹配，所述utterance处理单元是加入适当标记并捕获语义编码，同时将窗口数据格式化，所述utterance训练单元是通过编码分类utterances。本发明专利技术通过从粗到细、粗细结合的方法保证了抽取信息的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种会话场景信息抽取方法

[0001]本专利技术涉及信息人工智能
，尤其涉及一种会话场景信息抽取方法。

技术介绍

[0002]在会话场景中，会话文本中包含着很多信息，其中用户的个人基础信息、个人特征信息对于构建用户画像，从而推动业务进行极为重要。
[0003]但大多数营销会话场景下，信息干扰比较多、口语话严重，例如，会话中会出现许多人名，其中只有一个或者都不是客户的信息，或是问方提出问题，但客户表示否认，怎么区分哪些信息是用户本人的，哪些不是，哪些问题是客户确认的，哪些不是，这些都是自动抽取用户信息的关键。
[0004]针对这一问题，我们急需解决的是如何通过上下文去对非用户信息进行筛选，以达到明确信息的问题。

技术实现思路

[0005]基于
技术介绍
中提出的会话文本中干扰信息较多的技术问题，本专利技术提出了一种会话场景信息抽取方法。
[0006]本专利技术提出的一种会话场景信息抽取方法，包括BERT，所述BERT包括utterance分类单元、utterance处理单元、utterance训练单元、utterance再处理单元和utterance预测单元，所述utterance分类单元是用于对问答双方的utterances进行分类以及信息类别匹配，所述utterance处理单元是加入适当标记并捕获语义编码，同时将窗口数据格式化，所述utterance训练单元是通过编码分类utterances，并加以数据计算获取信息并识别，所述utterance再处理单元是用于获取新编码，并...

【技术保护点】

【技术特征摘要】
1.一种会话场景信息抽取方法，包括BERT，其特征在于，所述BERT包括utterance分类单元、utterance处理单元、utterance训练单元、utterance再处理单元和utterance预测单元，所述utterance分类单元是用于对问答双方的utterances进行分类以及信息类别匹配，所述utterance处理单元是加入适当标记并捕获语义编码，同时将窗口数据格式化，所述utterance训练单元是通过编码分类utterances，并加以数据计算获取信息并识别，所述utterance再处理单元是用于获取新编码，并对其进行二次分类，所述utterance预测单元是用于将对话中即将出现的信息进行预测处理。2.根据权利要求1所述的一种会话场景信息抽取方法，其特征在于，所述utterance分类单元中，具体包括以下步骤：S11：问答方标注分类：一般来说，用户信息出现一般来自于两种方式，一种来自于客服的询问，用户回答，另一种来自于用户主动表达,并规定对于问答式的信息采用QA方式标注，用户信息询问的utterance问题标为Q_type，所询问的utterance问题的所有回答标注为PA_typei和NA_typei；S12：信息分类：将用户信息归为姓名、职位、公司名、联系地址、邮寄地址、电话、性别、年龄类多种信息种类；S13：回答识别：识别S11中标注的回答方信息，并归类用于后续信息识别；S14：utterance信息类别匹配：将回答的信息中的所有信息按照S12中的分类分别做识别归类。3.根据权利要求2所述的一种会话场景信息抽取方法，其特征在于，所述问答方标注分类中的type表示用户信息的种类。4.根据权利要求3所述的一种会话场景信息抽取方法，其特征在于，所述utterance处理单元中，具体包括以下步骤：S21：符号处理：对标注数据进行的utterance经过去掉emoji表情、特殊符号的预处理手段；S22：加入标记：为了统一问答式的信息表述和主动表述的形式，则对输入加入特殊标记“[EMPTYQ]”，并规定该标记的token type和客服的token type一致，当用户是主动的信息表述，则将该标记和SA_type构成完整的QA形式；S23：二次加入标记：加入[SPKEAR0]、[SPKEAR1]标记来表示对话角色信息；S24：语义编码捕获：利用标记来捕获对应utterance的语义编码；S25：窗口数据格式化：此时窗口数据将被格式化为：S2...

【专利技术属性】
技术研发人员：赵继帆，谭波，
申请(专利权)人：北京尘锋信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人