一种基于机器阅读的问答匹配方法及装置制造方法及图纸

技术编号：28673521 阅读：17 留言：0更新日期：2021-06-02 02:49

本申请实施例提供一种基于机器阅读的问答匹配方法及装置，方法包括：获取用户的问题文本后，从实时数据库中查找与问题文本相关的关联文档文本。将问题文本和关联文档文本输入训练好的阅读理解模型之后，确定出答案的开始位置和结束位置，从而得到与问题文本匹配的问题答案。实时数据库中的文档文本是从大数据平台实时获取的非结构化文本数据，因而能够及时扩充问答候选文本。当用户的问题文本与实时热点相关，甚至为突发性新闻时间时，利用本申请的问答匹配方法能够及时的回复用户，从而提升用户使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器阅读的问答匹配方法及装置
本申请涉及机器阅读
，尤其涉及一种基于机器阅读的问答匹配方法及装置。
技术介绍
随着人工智能技术的发展，机器阅读理解技术也得到了大量的应用。在网页搜索、问答机器人和智能语音助手等应用场景中，都会应用到机器阅读理解技术。智能设备，如智能电视、智能音箱等大都具有问答功能。目前的智能设备中，以检索和知识图谱为基础的问答框架的应用尤为广泛。但是以检索和知识图谱为基础的问答框架，均依赖采集结构化格式文本的数据，因此也依赖于运营人员对数据的及时扩充。这种方式不仅费时费力，而且如果数据扩充不及时，会导致问答系统，在回答实时热点问题上回复不及时，甚至无法回复的情况发生，造成用户体验较差。
技术实现思路
为了解决以检索和知识图谱为基础的问答框架，依赖于运营人员对数据的及时扩充，不仅费时费力，而且如果数据扩充不及时，会导致问答系统，在回答实时热点问题上回复不及时，甚至无法回复的情况发生，造成用户体验较差的问题，本申请提供了一种基于机器阅读的问答匹配方法及装置。第一方面，本申请实施例提供一种基于机器阅读的问答匹配方法，包括：获取用户的问题文本；从实时数据库中查找与所述问题文本相关的关联文档文本，其中，所述实时数据库中保存的文档文本均为从大数据平台实时获取的非结构化文本数据；将所述问题文本和所述关联文档文本输入训练好的阅读理解模型，确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置，以及将所述开始位置和结束位置之间...

【技术保护点】
1.一种基于机器阅读的问答匹配方法，其特征在于，所述方法包括：/n获取用户的问题文本；/n从实时数据库中查找与所述问题文本相关的关联文档文本，其中，所述实时数据库中保存的文档文本均为从大数据平台实时获取的非结构化文本数据；/n将所述问题文本和所述关联文档文本输入训练好的阅读理解模型，确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置，以及将所述开始位置和结束位置之间的文本确定为与所述问题文本匹配的问题答案。/n

【技术特征摘要】
1.一种基于机器阅读的问答匹配方法，其特征在于，所述方法包括：
获取用户的问题文本；
从实时数据库中查找与所述问题文本相关的关联文档文本，其中，所述实时数据库中保存的文档文本均为从大数据平台实时获取的非结构化文本数据；
将所述问题文本和所述关联文档文本输入训练好的阅读理解模型，确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置，以及将所述开始位置和结束位置之间的文本确定为与所述问题文本匹配的问题答案。

2.根据权利要求1所述的基于机器阅读的问答匹配方法，其特征在于，在从实时数据库中查找与所述问题文本相关的关联文档文本之前，所述方法还包括：
对所述问题文本进行分词处理和核心词提取处理，得到问题核心词；
在从实时数据库中查找与所述问题文本相关的关联文档文本具体为：利用所述问题核心词，在所述实时数据库中匹配检索，得到与所述问题核心词相关的关联文档文本。

3.根据权利要求2所述的基于机器阅读的问答匹配方法，其特征在于，用所述问题核心词，在所述实时数据库中匹配检索之前，所述方法还包括：过滤所述问题核心词中的敏感词。

4.根据权利要求1所述的基于机器阅读的问答匹配方法，其特征在于，从实时数据库中查找到的与所述问题文本相关的所述关联文档文本为多个，在将所述问题文本和所述关联文档文本输入训练好的阅读理解模型之前，所述方法还包括：
利用TF-IDF算法对多个所述关联文档文本进行关联性打分，将得分最高的所述关联文档文本作为确定问题答案的关联文档文本。

5.根据权利要求1至4任意一项权利要求所述的基于机器阅读的问答匹配方法，其特征在于，所述阅读理解模型为基于ALBERT模型进行微调后的阅读理解模型。

6.根据权利要求1所述的基于机器阅读的问答匹配方法，其特征在于，确定在所述关联文档文本中与所述问题文本对应答案的开始位置和结束位置，具体为：
计算所述关联文档文本中的每个字为答案开始位置的开始概率，以及计算所述关联文档文本中每个字为答案结束位置的结束概率；
将所述开始概率...

【专利技术属性】
技术研发人员：李俊彦，芮智琦，柳志德，
申请(专利权)人：海信电子科技武汉有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人