一种文本分析方法及装置制造方法及图纸

技术编号:22913989 阅读:22 留言:0更新日期:2019-12-24 21:50
本申请提供一种文本分析方法及装置。其中,所述文本分析方法,包括:获取待分析文本、待回答问题和候选答案;将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量;将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理,生成所述字单元对应的第二字向量;基于所述字单元对应的第一字向量和第二字向量,生成所述字单元对应的第三字向量;将所述第三字向量输入至文本分析模型中进行处理,在所述候选答案中确定所述待回答问题的答案。本申请提供的文本分析方法及装置,可以有效提高文本分析过程中对于文本及问题信息提取的深度、灵活性及多样性,提高待回答问题答案的准确性。

【技术实现步骤摘要】
一种文本分析方法及装置
本申请涉及计算机
,特别涉及一种文本分析方法及装置、文本分析模型的训练方法及装置、计算设备及计算机可读存储介质。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用场景,从大的方面讲,是对于语言文字的智能处理,包括阅读理解、问答对话、写作、翻译等等。这些应用场景,又可以细分成若干任务,包括从一连串字中识别词,从一连串词中识别词组、从语句中识别主谓宾、定语、状语、从语句中识别语气情绪、从整篇文章中提炼摘要、根据提问从整篇文章中寻找答案即阅读理解与问答,等等。其中,对于阅读理解与问答任务,通常选用双向注意力神经网络模型模型(BidirectionalEncoderRepresentationfromTransformers,BERT)进行处理。但是,BERT模型对于中文文本以字为单位进行处理,缺少词级别的细粒度特征,限制了模型提取文本信息的本文档来自技高网...

【技术保护点】
1.一种文本分析方法,其特征在于,包括:/n获取待分析文本、待回答问题和候选答案;/n将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量;/n将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理,生成所述字单元对应的第二字向量;/n基于所述字单元对应的第一字向量和第二字向量,生成所述字单元对应的第三字向量;/n将所述第三字向量输入至文本分析模型中进行处理,在所述候选答案中确定所述待回答问题的答案。/n

【技术特征摘要】
1.一种文本分析方法,其特征在于,包括:
获取待分析文本、待回答问题和候选答案;
将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量;
将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理,生成所述字单元对应的第二字向量;
基于所述字单元对应的第一字向量和第二字向量,生成所述字单元对应的第三字向量;
将所述第三字向量输入至文本分析模型中进行处理,在所述候选答案中确定所述待回答问题的答案。


2.根据权利要求1所述的文本分析方法,其特征在于,在所述获取待分析文本、待回答问题和候选答案之后,还包括:
将所述待分析文本和所述候选答案进行拼接,生成文本答案集;
所述将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量,包括:
将所述文本答案集和待回答问题中的字单元进行嵌入处理,生成所述字单元对应的第一字向量;
所述将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理,生成所述字单元对应的第二字向量,包括:
将所述文本答案集和待回答问题中的字单元进行语义标注处理,生成所述字单元对应的第二字向量。


3.根据权利要求1所述的文本分析方法,其特征在于,在所述获取待分析文本、待回答问题和候选答案之后,还包括:
将所述待回答问题和所述候选答案进行拼接,生成问题答案集;
所述将所述待分析文本、待回答问题和候选答案中的字单元进行嵌入处理生成所述字单元对应的第一字向量,包括:
将所述问题答案集和待分析文本中的字单元进行嵌入处理,生成所述字单元对应的第一字向量;
所述将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理,生成所述字单元对应的第二字向量,包括:
将所述问题答案集和待分析文本中的字单元进行语义标注处理,生成所述字单元对应的第二字向量。


4.根据权利要求1所述的文本分析方法,其特征在于,所述将所述待分析文本、待回答问题和候选答案中的字单元进行语义标注处理,生成所述字单元对应的第二字向量,包括:
将所述待分析文本、待回答问题和候选答案进行语义标注,生成所述字单元对应的语义标签;
基于所述语义标签,生成所述字单元对应的第二字向量。


5.根据权利要求4所述的文本分析方法,其特征在于,所述基于所述语义标签,生成所述字单元对应的第二字向量,包括:
将所述语义标签进行嵌入处理,生成标签向量,并将所述标签向量作为所述字单元的第二字向量。


6.根据权利要求1所述的文本分析方法,其特征在于,所述基于所述字单元对应的第一字向量和第二字向量,生成所述字单元对应的第三字向量,包括:
将所述待分析文本、待回答问题和候选答案中字单元的第一字向量和第二字向量进行拼接,生成所述字单元对应的第三字向量。


7.根据权利要求1所述的文本分析方法,其特征在于,所述将所述第三字向量输入至文本分析模型中进行处理,在所述候选答案中确定所述待回答问题的答案,包括:
将所述第三字向量输入至文本分...

【专利技术属性】
技术研发人员:戴淑敏唐剑波李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司成都金山数字娱乐科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1