一种基于机器阅读的问答匹配方法及装置制造方法及图纸

技术编号:28673521 阅读:17 留言:0更新日期:2021-06-02 02:49
本申请实施例提供一种基于机器阅读的问答匹配方法及装置,方法包括:获取用户的问题文本后,从实时数据库中查找与问题文本相关的关联文档文本。将问题文本和关联文档文本输入训练好的阅读理解模型之后,确定出答案的开始位置和结束位置,从而得到与问题文本匹配的问题答案。实时数据库中的文档文本是从大数据平台实时获取的非结构化文本数据,因而能够及时扩充问答候选文本。当用户的问题文本与实时热点相关,甚至为突发性新闻时间时,利用本申请的问答匹配方法能够及时的回复用户,从而提升用户使用体验。

【技术实现步骤摘要】
一种基于机器阅读的问答匹配方法及装置
本申请涉及机器阅读
,尤其涉及一种基于机器阅读的问答匹配方法及装置。
技术介绍
随着人工智能技术的发展,机器阅读理解技术也得到了大量的应用。在网页搜索、问答机器人和智能语音助手等应用场景中,都会应用到机器阅读理解技术。智能设备,如智能电视、智能音箱等大都具有问答功能。目前的智能设备中,以检索和知识图谱为基础的问答框架的应用尤为广泛。但是以检索和知识图谱为基础的问答框架,均依赖采集结构化格式文本的数据,因此也依赖于运营人员对数据的及时扩充。这种方式不仅费时费力,而且如果数据扩充不及时,会导致问答系统,在回答实时热点问题上回复不及时,甚至无法回复的情况发生,造成用户体验较差。
技术实现思路
为了解决以检索和知识图谱为基础的问答框架,依赖于运营人员对数据的及时扩充,不仅费时费力,而且如果数据扩充不及时,会导致问答系统,在回答实时热点问题上回复不及时,甚至无法回复的情况发生,造成用户体验较差的问题,本申请提供了一种基于机器阅读的问答匹配方法及装置。第一方面,本申请实施例提供一种基于机器阅读的问答匹配方法,包括:获取用户的问题文本;从实时数据库中查找与所述问题文本相关的关联文档文本,其中,所述实时数据库中保存的文档文本均为从大数据平台实时获取的非结构化文本数据;将所述问题文本和所述关联文档文本输入训练好的阅读理解模型,确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置,以及将所述开始位置和结束位置之间的文本确定为与所述问题文本匹配的问题答案。第二方面,本申请实施例提供一种基于机器阅读的问答匹配装置,该装置包括:获取模块,被配置为获取用户的问题文本;查找模块,被配置为:从实时数据库中查找与所述问题文本相关的关联文档文本,其中,所述实时数据库中保存的文档文本均为从大数据平台实时获取的非结构化文本数据;位置确定模块,被配置为:将所述问题文本和所述关联文档文本输入训练好的阅读理解模型,确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置,以及将所述开始位置和结束位置之间的文本确定为与所述问题文本匹配的问题答案。本申请提供的技术方案包括以下有益效果:获取用户的问题文本后,从实时数据库中查找与问题文本相关的关联文档文本。将问题文本和关联文档文本输入训练好的阅读理解模型之后,确定出答案的开始位置和结束位置,从而得到与问题文本匹配的问题答案。实时数据库中的文档文本是从大数据平台实时获取的非结构化文本数据,因而能够及时扩充问答候选文本。当用户的问题文本与实时热点相关,甚至为突发性新闻时间时,利用本申请的问答匹配方法能够及时的回复用户,从而提升用户使用体验。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请实施例提供的一种基于机器阅读的问答匹配方法的流程示意图;图2示出了本申请实施例提供的一种基于机器阅读的问答匹配系统框架示意图;图3示出了本申请实施例提供的一种实时数据收集流程示意图;图4示出了本申请实施例提供的一种基于机器阅读的问答匹配装置框架图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本说明书通篇提及的″多个实施例″、″一些实施例″、″一个实施例″或″实施例″等,意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此,本说明书通篇出现的短语″在多个实施例中″、″在一些实施例中″、″在至少另一个实施例中″或″在实施例中″等并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、结构或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。为清楚说明本申请的实施例,下面给出一些相关名词的解释。机器阅读理解技术:是让计算机像人一样通过阅读自然语言文本,然后经过理解,从而可以准确地回答和文本内容相关的问题。基于ElasticSearch的倒排索引相关技术:主要使用目前成熟的倒排索引技术和语义检索技术。ElasticSearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎ApacheLucene(TM)(项目开发开源搜索软件)基础上的搜索引擎。ElasticSearch可以进行以下工作:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。实时分析的分布式搜索引擎。可以扩展到上百台服务器,处理容量为PB级别的结构化或非结构化数据。倒排索引也称反向索引,其与正向索引相对。正向索引是通过key(关键词)找value(目标文本),反向索引则是通过value找key。倒排索引的数据结构中,每个词后面有一个拉链,拉链中存放包含该词的文档编号。利用这个数据结构能够快速的找到包含某一个词的所有文档。最后把句子中所有词的所有文档进行求交集操作,就得到了与该句子具有关联关系的文档集合。基于ELMO和SIF的核心词提取技术:ELMO(EmbeddingsfromLanguageModels,语言模型中的嵌入)的基本思想是利用双向的LSTM(LongShort-TermMemory,长短期记忆网络)结构,对于某个语言模型的目标,在大量文本上进行预训练,从LSTM层中得到词向量。其中,较低层的LSTM代表了比较简单的语法信息,而上层LSTM捕捉的是依赖于上下文的语义信息。对于下游任务,将这些不同层的向量线性组合,再做监督学习。ELMO的主要目标是为获取词汇的不同特征(语法和语义)和解决多义词的现象。例如,词和向量是一一对应的,并不会因为词性或语义的不同而发生改变。而在ELMO中输入两个不同位置的相同词时,输出的两个向量是经过2层LSTM后和其本身的线性叠加的结果,另个向量是不同的。这是ELMO根据输入句子的语境得到的结果。ELMO的网路结构由一层输入层和两层双向LSTM组合而成,其中输入层可看做为嵌入层。ELMO是通过字符卷积得到的嵌入层,而不是通过矩阵相乘。由于每层的LSTM的输出可能分布不同,因此在每个双向LSTM的输出后都增加一个LayerNormalization(层标准化),并且在两层双向LSTM之间添加残差连接。加权词袋模型SIF(SmoothInverseFrequency,平滑倒词频):词袋模型不考虑文本中词与词之间的上下文关系,仅仅只考虑词的权重(与词在文本中出现的频率有关)。类本文档来自技高网...

【技术保护点】
1.一种基于机器阅读的问答匹配方法,其特征在于,所述方法包括:/n获取用户的问题文本;/n从实时数据库中查找与所述问题文本相关的关联文档文本,其中,所述实时数据库中保存的文档文本均为从大数据平台实时获取的非结构化文本数据;/n将所述问题文本和所述关联文档文本输入训练好的阅读理解模型,确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置,以及将所述开始位置和结束位置之间的文本确定为与所述问题文本匹配的问题答案。/n

【技术特征摘要】
1.一种基于机器阅读的问答匹配方法,其特征在于,所述方法包括:
获取用户的问题文本;
从实时数据库中查找与所述问题文本相关的关联文档文本,其中,所述实时数据库中保存的文档文本均为从大数据平台实时获取的非结构化文本数据;
将所述问题文本和所述关联文档文本输入训练好的阅读理解模型,确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置,以及将所述开始位置和结束位置之间的文本确定为与所述问题文本匹配的问题答案。


2.根据权利要求1所述的基于机器阅读的问答匹配方法,其特征在于,在从实时数据库中查找与所述问题文本相关的关联文档文本之前,所述方法还包括:
对所述问题文本进行分词处理和核心词提取处理,得到问题核心词;
在从实时数据库中查找与所述问题文本相关的关联文档文本具体为:利用所述问题核心词,在所述实时数据库中匹配检索,得到与所述问题核心词相关的关联文档文本。


3.根据权利要求2所述的基于机器阅读的问答匹配方法,其特征在于,用所述问题核心词,在所述实时数据库中匹配检索之前,所述方法还包括:过滤所述问题核心词中的敏感词。


4.根据权利要求1所述的基于机器阅读的问答匹配方法,其特征在于,从实时数据库中查找到的与所述问题文本相关的所述关联文档文本为多个,在将所述问题文本和所述关联文档文本输入训练好的阅读理解模型之前,所述方法还包括:
利用TF-IDF算法对多个所述关联文档文本进行关联性打分,将得分最高的所述关联文档文本作为确定问题答案的关联文档文本。


5.根据权利要求1至4任意一项权利要求所述的基于机器阅读的问答匹配方法,其特征在于,所述阅读理解模型为基于ALBERT模型进行微调后的阅读理解模型。


6.根据权利要求1所述的基于机器阅读的问答匹配方法,其特征在于,确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置,具体为:
计算所述关联文档文本中的每个字为答案开始位置的开始概率,以及计算所述关联文档文本中每个字为答案结束位置的结束概率;
将所述开始概率...

【专利技术属性】
技术研发人员:李俊彦芮智琦柳志德
申请(专利权)人:海信电子科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1