一种面向人工智能领域知识的高效智能问答系统技术方案

技术编号:29401074 阅读:16 留言:0更新日期:2021-07-23 22:38
本发明专利技术涉及一种面向人工智能领域知识的高效智能问答系统,包括准备模块和问答模块;其中,准备模块包括数据收集模块、模型训练模块和问答系统知识结构构建模块;问答模块包括输入预处理模块、基于知识库的问答模块、基于文本库的问答模块和基于知识库的问题推荐模块。本发明专利技术通过准备模块与问答模块,使得对于用户问题以及知识库问题、文本库问题的分词准确性大大增强,进而大幅度提升全问答系统整体的准确性,从而大幅度改善用户体验,实现低成本高效率高用户体验的知识问答服务。

【技术实现步骤摘要】
一种面向人工智能领域知识的高效智能问答系统
本专利技术涉及人工智能及自然语言处理
,尤其涉及一种面向人工智能领域知识的高效智能问答系统。
技术介绍
近年来,人工智能技术发展迅速,在教育、医疗、农业、交通等领域均具有十分广泛的应用前景。然而,获取人工智能领域的知识需要具备一定的专业基础,各行各业的从业人员缺乏一种便捷准确地获取人工智能知识的途径,使得人工智能技术在很多领域中难以普及,无形中阻碍了社会生产力的发展。人工智能领域的非结构化文本承载了该领域大量的知识,若能完成一个该领域的基于文本理解的知识问答系统,能够为人们提供高效便捷的知识获取途径,促进人工智能技术的进一步发展。现有的知识问答系统存在下述问题:首先,信息抽取模型缺乏实体名称和实体别称的支持,前者使得相关专业术语被错误分词,进而影响搜索引擎的性能,后者缺乏对同义词问题的理解,使得后续搜索结果片面。这两者均会对问答系统的整体性能造成不利影响。其次,机器阅读理解作为一项复杂的自然语言处理任务,存在复杂度高、计算量大等问题,而且知识库的构建依赖于非结构化文本,若采用人工方式构建则耗时费力,难以形成足够规模的知识库,两者均制约了问答系统的实际部署。最后,现有的问答系统仍然缺乏高效地从跨段落、跨文档、跨形式的不同类型文本得到准确而全面的答案的能力,更缺少引导用户进一步探索领域内相关知识的能力。
技术实现思路
为解决现有技术所存在的技术问题,本专利技术提供一种面向人工智能领域知识的高效智能问答系统,通过准备模块与问答模块,使得对于用户问题以及知识库问题、文本库问题的分词准确性大大增强,进而大幅度提升全问答系统整体的准确性,从而大幅度改善用户体验,实现低成本高效率高用户体验的知识问答服务。本专利技术采用以下技术方案来实现:一种面向人工智能领域知识的高效智能问答系统,包括:准备模块和问答模块;其中,准备模块包括数据收集模块、模型训练模块和问答系统知识结构构建模块;问答模块包括输入预处理模块、基于知识库的问答模块、基于文本库的问答模块和基于知识库的问题推荐模块;准备模块通过数据收集模块,将收集到的人工智能领域的无结构化知识文本段落进行标注,并训练模型训练模块的信息抽取模块和机器阅读理解模块,同时收集或定义人工智能领域同义、不同义的问题来训练短文本匹配模型,利用问答系统知识结构构建模块,将训练好的信息抽取模型抽取出知识三元组并形成问答对,同时利用抽取出的实体名称、别称进行辅助搜索,再通过改进知识库、文本库倒序索引的构建方法来为搜索引擎提供语义,并构建知识库关键词索引;问答模块通过输入预处理模块对用户输入的问题进行预处理,利用基于知识库的问答模块进行答案的寻找,若有答案则将答案准备返回,否则将预处理后的用户输入问题送入基于文本库的问答模块寻找并准备返回答案,并利用基于知识库的问题推荐模块向用户推荐问题,最终将答案和推荐问题一起返回给用户。本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术通过信息抽取模型抽取出的实体名称和其别称来补充jieba分词的词典,使得对于用户问题以及知识库问题、文本库问题的分词准确性大大增强,进而大幅度提升全问答系统整体的准确性,从而大幅度改善用户体验。2、本专利技术通过信息抽取模型抽取出的实体名称和别称的对应关系,以及从互联网上获取的近义词典,利用改进的BM25知识库粗召回模块,使得单次检索几乎不增加推理时间而同时排序所有同义不同关键词的内容,且使得文档段落对主题词词频和文档长度差异变化带来的影响更加鲁棒,使得检索效果得到提升。3、本专利技术利用信息抽取技术基于无结构化文本段落构建问答知识库,同时优选地利用其他可获取到的半结构化和结构化的相关文本段落作为补充,使得知识的获取渠道更加多样和灵活,当用户通过自然语言表达的问题若与知识库中已经有的知识语义一致时即可完成匹配,同时增强了答案的丰富程度。4、本专利技术的问答系统能够为用户推荐相关问题,引导用户进一步探索知识体系并启发用户提问,具有很高的社会价值和很强的现实意义。5、本专利技术对计算资源的需求和消耗小。附图说明图1是本专利技术的系统结构图;图2是本专利技术准备模块中的数据收集模块图;图3是本专利技术准备模块中的模型训练模块图;图4是本专利技术准备模块中的模型训练中HBT模型训练流程图;图5是本专利技术准备模块中的模型训练中ESIM模型训练流程图;图6是本专利技术RoBERTa-QA模型图;图7是本专利技术准备模块中的问答系统知识结构构建模块图;图8是本专利技术准备模块中的问答系统知识结构构建模块中知识库倒序索引构建模块图;图9是本专利技术准备模块中的问答系统知识结构构建模块中知识库关键词索引构建模块图;图10是本专利技术准备模块中的问答系统知识结构构建模块中文本库倒序索引构建模块图;图11是本专利技术问答模块的整体流程图;图12是本专利技术问答模块中的预处理模块中指代消解方法流程图;图13是本专利技术问答模块中的基于知识库的问答模块中粗召回模块流程图;图14是本专利技术问答模块中的基于知识库的问答模块中利用ESIM判断问句同义性方法流程图;图15是本专利技术问答模块中的基于文本库的问答模块中粗召回模块流程图;图16是本专利技术问答模块中的基于知识库的问题推荐模块图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例如图1所示,本实施例一种面向人工智能领域知识的高效智能问答系统,包括准备模块和问答模块;其中,准备模块包括数据收集模块、模型训练模块和问答系统知识结构构建模块;问答模块包括输入预处理模块、基于知识库的问答模块、基于文本库的问答模块和基于知识库的问题推荐模块;准备模块通过数据收集模块,将收集到的人工智能领域的无结构化知识文本段落进行标注,并训练模型训练模块的信息抽取模块和机器阅读理解模块,同时收集或定义人工智能领域同义、不同义的问题来训练短文本匹配模型,利用问答系统知识结构构建模块,将训练好的信息抽取模型抽取出知识三元组并形成问答对,同时利用抽取出的实体名称、别称来辅助实现更高效的搜索,再通过改进知识库、文本库倒序索引的构建方法来为搜索引擎提供语义,并构建知识库关键词索引来帮助问题推荐的实现;问答模块通过输入预处理模块对用户输入的问题进行预处理,利用基于知识库的问答模块进行答案的寻找,若有答案则将答案准备返回,否则将预处理后的用户输入问题送入基于文本库的问答模块寻找并准备返回答案,并利用基于知识库的问题推荐模块向用户推荐问题,最终将答案和推荐问题一起返回给用户。如图2所示,本实施例中,数据收集模块的实现过程如下:S21、收集人工智能领域相关的科学出版物、文献、网络科普知识等来源的无结构化知识文本段落,对于长度过长的文本段落,按照句号拆分,具体地,限制每个文本段落长度不超过480个字符;S22、对信息抽取模型中抽取出的关键信息三元组类型进行定义本文档来自技高网...

【技术保护点】
1.一种面向人工智能领域知识的高效智能问答系统,其特征在于,包括准备模块和问答模块;其中,准备模块包括数据收集模块、模型训练模块和问答系统知识结构构建模块;问答模块包括输入预处理模块、基于知识库的问答模块、基于文本库的问答模块和基于知识库的问题推荐模块;/n准备模块通过数据收集模块,将收集到的人工智能领域的无结构化知识文本段落进行标注,并训练模型训练模块的信息抽取模块和机器阅读理解模块,同时收集或定义人工智能领域同义、不同义的问题来训练短文本匹配模型,利用问答系统知识结构构建模块,将训练好的信息抽取模型抽取出知识三元组并形成问答对,同时利用抽取出的实体名称、别称进行辅助搜索,再通过改进知识库、文本库倒序索引的构建方法来为搜索引擎提供语义,并构建知识库关键词索引;/n问答模块通过输入预处理模块对用户输入的问题进行预处理,利用基于知识库的问答模块进行答案的寻找,若有答案则将答案准备返回,否则将预处理后的用户输入问题送入基于文本库的问答模块寻找并准备返回答案,并利用基于知识库的问题推荐模块向用户推荐问题,最终将答案和推荐问题一起返回给用户。/n

【技术特征摘要】
1.一种面向人工智能领域知识的高效智能问答系统,其特征在于,包括准备模块和问答模块;其中,准备模块包括数据收集模块、模型训练模块和问答系统知识结构构建模块;问答模块包括输入预处理模块、基于知识库的问答模块、基于文本库的问答模块和基于知识库的问题推荐模块;
准备模块通过数据收集模块,将收集到的人工智能领域的无结构化知识文本段落进行标注,并训练模型训练模块的信息抽取模块和机器阅读理解模块,同时收集或定义人工智能领域同义、不同义的问题来训练短文本匹配模型,利用问答系统知识结构构建模块,将训练好的信息抽取模型抽取出知识三元组并形成问答对,同时利用抽取出的实体名称、别称进行辅助搜索,再通过改进知识库、文本库倒序索引的构建方法来为搜索引擎提供语义,并构建知识库关键词索引;
问答模块通过输入预处理模块对用户输入的问题进行预处理,利用基于知识库的问答模块进行答案的寻找,若有答案则将答案准备返回,否则将预处理后的用户输入问题送入基于文本库的问答模块寻找并准备返回答案,并利用基于知识库的问题推荐模块向用户推荐问题,最终将答案和推荐问题一起返回给用户。


2.根据权利要求1所述的一种面向人工智能领域知识的高效智能问答系统,其特征在于,数据收集模块的实现过程如下:
S21、收集人工智能领域的科学出版物、文献、网络科普知识的无结构化知识文本段落,文本段落按照句号拆分;
S22、对信息抽取模型中抽取出的关键信息三元组类型进行定义,使用普通关系定义法定义三元组类型如下:实体-描述-内容、实体-提出者-内容、实体-包含-内容、实体-应用-内容、实体-别称-内容,并对已经定义出的三元组类型进行标注,利用brat文本标注工具在收集到的人工智能领域无结构化知识文本段落中通过勾选subject来标注出所有subject,再通过勾选object来标注出所有object,并通过连线来标注出文本段落中subject和object所有的对应关系;
S23、利用机器阅读理解模型,在步骤S21收集人工智能领域的科学出版物、文献、网络科普知识的无结构化知识文本段落后,若已有对应的提问问题,则在文本段落中标注出问题对应的答案相关内容的起点终点位置,否则直接根据文本段落中的部分内容模拟现实用户场景定义多样化的人工智能领域科学知识的问题,并标注出问题对应的答案在文本段落中的起止位置;
S24、利用短文本匹配模型直接收集同义问题和不同义问题,同义问题两条一对,对应标签为1;不同义问题两条一对,对应标签为0。


3.根据权利要求1所述的一种面向人工智能领域知识的高效智能问答系统,其特征在于,模型训练模块的实现过程如下:
S31、利用HBT模型进行信息抽取模型的搭建,再利用RoBERTa预训练模型进行模型参数的初始化,并利用已标注的三元组数据训练;
S32、搭建ESIM模型训练短文本匹配模型,利用中文维基百科的全语料使用word2vec方式训练中文字符向量,再利用QuoraQuestionPairs数据集的中文翻译结果来预训练ESIM模型,在预训练得到的模型基础上利用中文开放的大规模短文本匹配数据集LCMQC和已收集的人工智能领域短文本匹配数据集进行ESIM模型参数微调训练;
S33、搭建RoBERTa-QA模型训练机器阅读理解模型,再利用开放数据集DuReader在中文预训练模型RoBERTa的基础上进行进一步的预训练,并利用收集到的人工智能领域的机器阅读理解标注数据进行参数微调训练。


4.根据权利要求1所述的一种面向人工智能领域知识的高效智能问答系统,其特征在于,问答系统知识结构构建模块的实现过程如下:
S41、收集人工智能领...

【专利技术属性】
技术研发人员:曲晨帆金连文林上港马骏谭濯刘振鑫
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1