一种生成答案摘要的方法和装置制造方法及图纸

技术编号:31228108 阅读:21 留言:0更新日期:2021-12-08 09:38
本发明专利技术公开了一种生成答案摘要的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取与用户的查询问题对应的原始答案文本,并对所述原始答案文本进行切割,得到多个答案句子;分别将所述多个答案句子与所述查询问题组合,得到多个问答对;基于所述问答对中每个字的字向量和所述字所在词的词向量,确定所述字的分布式语义向量;基于所述分布式语义向量和预设的神经网络模型,确定每个问答对中的答案句子与所述查询问题的语义相似度;根据所述语义相似度,从所述多个答案句子中确定与所述查询问题对应的答案摘要。该实施方式提高了答案摘要的精度,扩大了使用范围,克服了近义词问题和由于错别字引入的未登录词问题。录词问题。录词问题。

【技术实现步骤摘要】
一种生成答案摘要的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种生成答案摘要的方法和装置。

技术介绍

[0002]答案摘要是指在互联网普及的现状下,用户在需要了解某个问题时通过搜索引擎直接搜索,搜索引擎直接返回问题的简要核心回答,帮助用户更快捷的获取信息。目前,通常通过基于词典、统计的方式,识别句子中出现的核心词汇、短语等,提炼出词频等特征,选择统计分数较高的句子生成答案摘要,或者通过语义传达、复述等方式构建原始文档的摘要。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:用户知识水平参差不齐,会导致问答数据中经常出现错别字,而错别字会引入未登录词(未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词如人名、地名、企业名等,还有缩写词、新增词汇等等),使用通用分词工具分词,会造成词向量精度的损失,数据泛化能力较差,影响特征抽取的精度,影响摘要的准确性,也不能很好的处理近义词;识别语义的方式,对手动构造特征的质量有较大的依赖性,具有局限性,浮动性较大。<br/>
技术实现思路
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成答案摘要的方法,其特征在于,包括:获取与用户的查询问题对应的原始答案文本,并对所述原始答案文本进行切割,得到多个答案句子;分别将所述多个答案句子与所述查询问题组合,得到多个问答对;基于所述问答对中每个字的字向量和所述字所在词的词向量,确定所述字的分布式语义向量;基于所述分布式语义向量和预设的神经网络模型,确定每个问答对中的答案句子与所述查询问题的语义相似度;根据所述语义相似度,从所述多个答案句子中确定与所述查询问题对应的答案摘要。2.根据权利要求1所述的方法,其特征在于,对所述原始答案文本进行切割包括:确定所述原始答案文本中的标点符号;根据所述标点符号,对所述原始答案文本进行切割。3.根据权利要求1所述的方法,其特征在于,基于所述问答对中每个字的字向量和所述字所在词的词向量,确定所述字的分布式语义向量包括:对于所述问答对中的每个字,基于预设的字向量查找表,确定所述字的字向量;对所述问答对进行分词操作,得到多个词;基于所述多个词,确定所述字所在词;基于预设的词向量查找表,确定所述字所在词的词向量;计算所述字的字向量和所述字所在词的词向量的均值,将所述均值作为所述字的分布式语义向量。4.根据权利要求1所述的方法,其特征在于,所述预设的神经网络模型根据如下过程获得:获取训练数据集,所述训练数据集中包括多个样本数据;基于所述样本数据中每个待训练字的字向量和所述待训练字所在词的词向量,确定所述待训练字的分布式语义向量,将所述待训练字的分布式语义向量输入多尺度卷积层,得到所述样本数据的特征向量;对所述样本数据的特征向量进行降采样,得到所述样本数据的语义向量;对所述语义向量进行训练,得到所述预设的神经网络模型。5.根据权利要求4所述的方法,其特征在于,所述样本数据包括问题数据、与所述问题数据对应的正向答案数据和与所述问题数据对应的负向答案数据;所述样本数据的语义向量包括所述问题数据的语义向量、所述正向答案数据的语义向量和所述负向答案数据的语义向量;对所述语义向量进行训练,得到所述预设的神经网络模型包括:利用Pairwise方法和最大间隔距离函数训练所述问题数据的语义向量、所述正向答案数据的语义向量和所述负向答案数据的语义向量,...

【专利技术属性】
技术研发人员:胡珅健
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1