一种中文通告文档问题答案对自动生成方法技术

技术编号:19778529 阅读:39 留言:0更新日期:2018-12-15 11:23
本发明专利技术提供了一种中文通告文档问题答案对自动生成方法,属于数据处理领域。本发明专利技术通过由中文通告文档生成出相应的问题答案对,问答系统就可以对用户提出的问题返回相应的答案,采用自然语言处理与深度学习相结合的算法,保证了生成出来的问题答案的通顺性和与原通告文档的相关性,具有良好的扩展性和鲁棒性,在技术上具有超前性。

【技术实现步骤摘要】
一种中文通告文档问题答案对自动生成方法
本专利技术属于数据处理领域,特别涉及一种中文通告文档问题答案对自动生成方法。
技术介绍
近年来,随着互联网、机器学习、自然语言处理的飞速发展和网上大规模知识库以及海量网络信息的出现,自动问答系统取得了长足的发展,逐步开始被各产业界认可和应用。例如面向常用问题集(frequentaskedquestions,FAQ)的问答系统,它通过将用户提出的问题和知识库中的问题答案对进行匹配检索直接得到候选答案,问题答案对的知识库是问答系统的一个重要组成部分。自动生成问题答案对知识库是自动问答系统、对话系统、自然语言处理、人工智能、认知科学、教育学等众多领域中一个重要且极具挑战性的前沿课题,同时问题的自动生成具有可观的发展前景。另外,由中文通告文档自动生成问题答案对的知识库具有重要研究意义。现在越来越多的领域和机构有了自己的中文官网和主页,他们在上面发布各种通告,通告中蕴含了大量的信息,用户提出的问题的答案很多都可以在其中找到答案。如果对这些信息通过人工构造问题答案对知识库或者进行人工交互的问答,将会消耗大量的人力资源和时间。而通过由通告文档自动生成问题答案本文档来自技高网...

【技术保护点】
1.一种中文通告文档问题答案对自动生成方法,应用于中文通告文档问题答案对自动生成系统,其特征在于,所述方法包括以下步骤:步骤1,获取问题答案对,生成规则集、模板库、打分模型及自动生成模型;步骤2,获取中文通告文档,对所述中文通告文档进行预处理,提取关联语句;步骤3,根据所述规则集中的规则对所述关联语句进行规则匹配,当所述关联语句与一规则匹配时,根据该规则的生成问题表达式生成所述关联语句的问题,保存生成的问题和语句至问题答案对库;步骤4,当所述关联语句没有匹配到任何一个规则时,对该语句进行关键词提取,根据所述模板库中的模板对提取的关键词进行匹配,当所述关键词匹配到对应模板,根据该模板生成问题;步...

【技术特征摘要】
1.一种中文通告文档问题答案对自动生成方法,应用于中文通告文档问题答案对自动生成系统,其特征在于,所述方法包括以下步骤:步骤1,获取问题答案对,生成规则集、模板库、打分模型及自动生成模型;步骤2,获取中文通告文档,对所述中文通告文档进行预处理,提取关联语句;步骤3,根据所述规则集中的规则对所述关联语句进行规则匹配,当所述关联语句与一规则匹配时,根据该规则的生成问题表达式生成所述关联语句的问题,保存生成的问题和语句至问题答案对库;步骤4,当所述关联语句没有匹配到任何一个规则时,对该语句进行关键词提取,根据所述模板库中的模板对提取的关键词进行匹配,当所述关键词匹配到对应模板,根据该模板生成问题;步骤5,根据所述打分模型对所述步骤4中生成的问题进行打分,当得分超过预设阈值时将该问题与关联语句保存至所述问题答案对库和打分模型训练集中,将生成该问题的模板保存至所述模板库中;步骤6,将未匹配到模板的语句或所述模板生成的问题在所述打分模型中得分不超过预设阈值的语句输入至所述自动生成模型中生成问题,将所述自动生成模型生成的问题应用所述打分模型进行打分,将得分超过所述预设阈值的生成问题和语句保存至所述问题答案对库;步骤7,将生成了问题的模板扩展至所述模板库,基于扩展后的所述打分模型训练集训练所述打分模型,基于扩展后的问题答案对库训练所述自动生成模型。2.如权利要求1所述的中文通告文档问题答案对自动生成方法,其特征在于,所述步骤3包括以下流程:步骤31,判断规则集中是否有规则与关联语句匹配;步骤32,当所述关联语句与一规则匹配时,根据该...

【专利技术属性】
技术研发人员:李州叶茂苏杨徐培
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1