基于大数据的零指代消解方法、装置、设备及介质制造方法及图纸

技术编号:24854740 阅读:69 留言:0更新日期:2020-07-10 19:08
本发明专利技术公开了一种基于大数据的零指代消解方法,所述方法包括:对待消解句子及其上文信息执行向量化处理,得到所述待消解句子以及所述上文信息中每个字的上下文向量表示;将所述待消解句子和所述上文信息中每个字的上下文向量表示输入双向长短期记忆网络中,得到每个字增强后的上下文向量表示;遍历每个字增强后的上下文向量表示,根据bert模型中的参数向量预测每个字的回指项头字概率和回指项尾字概率;遍历每个字,构建连续文本片段,并根据计算所述连续文本片段的回指项概率;选取回指项概率最大的连续文本片段作为所述待消解句子的回指项。本发明专利技术解决了现有零指代消解技术过于依赖回指项候选集合、消解结果准确性低且不稳定的问题。

【技术实现步骤摘要】
基于大数据的零指代消解方法、装置、设备及介质
本专利技术涉及信息
,尤其涉及一种基于大数据的零指代消解方法、装置、设备及介质。
技术介绍
指代消解是自然语言领域中研究时间最长且应用场景十分广阔的技术之一。在客服机器人、对话机器人以及智能外呼平台中,指代消解都是最为核心的技术之一。指代消解包括零指代消解和共指消解两部分。在形如中文等代词缺失的语言中,能够根据上下文的关系所推断出来的部分经常被省略,而被省略的部分在句子中又承担相应的句法成分,并且回指前文中的某个语言单位。其中被省略的部分就称为是零指代项。零指代消解就是要为零指代项找到前文中对应的语言单位。零指代消解任务通常又分为两个子任务——零指代位置检测和消解。消解任务的目的是在零指代位置检测结果的基础上为具有前文回指项的零指代项识别出它的具体回指项。传统的消解模型通常是先构建回指项候选集合,然后使用分类或排序的方法从回指项候选集合中选取最可能的候选项作为最终的识别结果。回指项候选集合的构建往往是由零指代项之前两句上文中的最大名词短语和修饰性名词短语所组成的。这种做法的准确本文档来自技高网...

【技术保护点】
1.一种基于大数据的零指代消解方法,其特征在于,包括:/n获取待消解句子及其上文信息,对所述待消解句子及其上文信息执行向量化处理,得到所述待消解句子中每个字的上下文向量表示,以及所述上文信息中每个字的上下文向量表示;/n将所述待消解句子和所述上文信息中每个字的上下文向量表示输入双向长短期记忆网络中,以增强每个字的上下文表达和位置信息,得到每个字增强后的上下文向量表示;/n遍历每个字增强后的上下文向量表示,根据bert模型中的参数向量预测每个字的回指项头字概率和回指项尾字概率;/n遍历每个字,构建连续文本片段,并根据每个字的回指项头字概率和回指项尾字概率计算所述连续文本片段的回指项概率;/n从所...

【技术特征摘要】
1.一种基于大数据的零指代消解方法,其特征在于,包括:
获取待消解句子及其上文信息,对所述待消解句子及其上文信息执行向量化处理,得到所述待消解句子中每个字的上下文向量表示,以及所述上文信息中每个字的上下文向量表示;
将所述待消解句子和所述上文信息中每个字的上下文向量表示输入双向长短期记忆网络中,以增强每个字的上下文表达和位置信息,得到每个字增强后的上下文向量表示;
遍历每个字增强后的上下文向量表示,根据bert模型中的参数向量预测每个字的回指项头字概率和回指项尾字概率;
遍历每个字,构建连续文本片段,并根据每个字的回指项头字概率和回指项尾字概率计算所述连续文本片段的回指项概率;
从所述连续文本片段中选取回指项概率最大的连续文本片段作为所述待消解句子的回指项。


2.如权利要求1所述的基于大数据的零指代消解方法,其特征在于,所述对所述待消解句子及其上文信息执行向量化处理,得到所述待消解句子中每个字的上下文向量表示,以及所述上文信息中每个字的上下文向量表示包括:
对所述待消解句子及其上文信息中的每个字采用one-hot形式表征,得到所述待消解句子对应的高维离散字表示矩阵,及其上文信息对应的高维离散字表示矩阵;
采用wordembedding的方法分别将所述待消解句子对应的高维离散字表示矩阵以及将所述上文信息对应的高维离散字表示矩阵嵌入到低维稠密表征矩阵;
将所述待消解句子及其上文信息对应的低维稠密表征矩阵输入预设的bert模型进行双向编码,得到所述待消解句子及其上文信息中每个字的上下文向量表示。


3.如权利要求1或2所述的基于大数据的零指代消解方法,其特征在于,所述遍历每个字增强后的上下文向量表示,根据bert模型中的参数向量预测每个字的回指项头字概率和回指项尾字概率包括:
获取bert模型中的头字参数向量和尾字参数向量;
将每个字增强后的上下文向量表示与所述头字参数向量进行点积运算,对点积运算结果进行softmax处理得到每个字的回指项头字概率;
将每个字增强后的上下文向量表示与所述尾字参数向量进行点积运算,对点积运算结果进行softmax处理得到每个字的回指项尾字概率。


4.如权利要求3所述的基于大数据的零指代消解方法,其特征在于,所述遍历每个字,构建连续文本片段,并根据每个字的回指项头字概率和回指项尾字概率计算所述连续文本片段的回指项概率包括:
遍历每个字,以所述字作为回指项头字,以所述字及之后的字作为回指项尾字,构建连续文本片段;
计算所述连续文本片段中头字的回指项头字概率和尾字的回指项尾字概率的乘积,得到所述连续文本片段的回指项概率。


5.如权利要求4所述的基于大数据零指代消解方法,其特征在于,所述从所述连续文本片段中选取回指项概率最大的连续文本片段作为所述待消解句子...

【专利技术属性】
技术研发人员:楼星雨许开河王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1