基于多形态文档视图的智能问答系统及方法技术方案

技术编号：36523244 阅读：11 留言：0更新日期：2023-02-01 16:00

基于多形态文档视图的智能问答系统及方法，涉及自然语言处理领域。为解决现有技术中存在的传统的开放域问答系统针对不同类型的文档视图布局复杂的问题，难以将所有对象进行统一建模的问题，本发明专利技术提供的技术方案为：基于多形态文档视图的智能问答系统，所述系统包括：多形态文档视图分析模块、多形态文档视图检索模块和多形态文档视图问答模块；所述多形态文档视图分析模块用于对文本信息进行抽取；所述多形态文档视图检索模块用于检索文本中与预设信息相关的文档视图并进行优先级排列；所述多形态文档视图问答模块用于抽取优先级较高的所述文档视图并输出。适合应用于对多形态文档视图的智能问答应用中。态文档视图的智能问答应用中。态文档视图的智能问答应用中。

全部详细技术资料下载

【技术实现步骤摘要】
基于多形态文档视图的智能问答系统及方法

[0001]涉及自然语言处理领域，具体涉及文档视图检索。

技术介绍

[0002]随着自然语言处理技术的不断发展，智能问答系统的能力也在不断取得突破。传统的搜索引擎会根据用户输入的关键词返回文档集合，并没有实现用户的确切需求，智能问答系统的出现就是为了能够将用户需要的答案直接进行返回，而无需用户自己查找，即以自然的方式与系统进行交互。因此，如何能够准确地匹配到与问题相关的文档，并将对应答案抽取出来，一直都是问答系统领域亟待解决的问题之一。
[0003]文档视图问答是根据用户提出的问题，从文档库中找到回答问题的相关文档视图，并能够准确定位到答案的过程。它涉及多个领域并可进行拓展，具有很大的应用价值，如分析企业文档，提高办公效率。目前的开放域问答系统中，会根据既定规则对不同类型的文档采取不同文本抽取方法。另外，这些开放域问答系统大都以纯文本的形态进行信息交互，通过对用户问题进行解析后，利用非结构化的文档库进行查询并返回相关答案，如开源的开放域问答系统DRQA。而现实中的信息是多样化的，文档中除了包括纯文本，还有图像等视觉信息，如PDF，网页等。。因此，目前的智能问答系统忽略了表格、图像、空间布局等其他异构信息，返回的答案也比较单一，并且大多是连续的纯文本格式，不具备通用性，效率低下，准确度不高。
[0004]综上，可以看出传统的开放域问答系统在从不同类型的文档抽取与问题相关的答案的过程中，仍存在以下问题：
[0005]需要针对不同类型的文档设计不同的文本抽取方...

【技术保护点】

【技术特征摘要】
1.基于多形态文档视图的智能问答系统，其特征在于，所述系统包括：多形态文档视图分析模块、多形态文档视图检索模块和多形态文档视图问答模块；所述多形态文档视图分析模块用于对文本信息进行抽取；所述多形态文档视图检索模块用于检索文本中与预设信息相关的文档视图并进行优先级排列；所述多形态文档视图问答模块用于抽取优先级较高的所述文档视图并输出。2.根据权利要求1所述的基于多形态文档视图的智能问答系统，其特征在于，所述文本信息包括：文本内容、文本外观图像和文本布局。3.根据权利要求1或2所述的基于多形态文档视图的智能问答系统，其特征在于，所述多形态文档视图分析模块抽取所述文本信息的方法为：通过OCR工具进行抽取。4.根据权利要求3所述的基于多形态文档视图的智能问答系统，其特征在于，所述多形态文档视图分析模块还用于保存所述文本信息。5.根据权利要求1所述的基于多形态文档视图的智能问答系统，其特征在于，所述多形态文档视图检索模块检索文本的方法为：通过语义匹配方法。6.根据权利要求1所述的基于多形态文档视图的智能问答系统，其特征在于，所述多形态文档视图检索模块具体用于：包括：从文本信息中检索与预设信息相关的文档集合的功能，和对文档集合中的文档视图与预设信...

【专利技术属性】
技术研发人员：张宇，张津旭，刘睿珩，齐乐，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人