The invention discloses a construction method of task-oriented unstructured information intelligent question answering system. The method identifies the key words and sentence patterns of the request statement, matches the task type, generates the query request expression, and formulates different search conditions and ranking conditions according to different task types. Definition tasks are mapped to three types of expected answers: weather, time and number. These three types of questions can directly provide accurate answers to users'questions. The system queries qualified candidate results in sentence and paragraph indexes. Candidate sentences or paragraphs are selected according to the results of named entity recognition, and the results containing target type phrases are selected, marked and highlighted. The results without target type phrases rank low. Finally, output the answer.
【技术实现步骤摘要】
一种面向任务的非结构化信息智能问答系统构建方法
本专利技术涉及中文自然语言处理技术和信息搜索
,具体涉及一种面向任务的非结构化信息智能问答系统构建方法。
技术介绍
现在全球各类信息资源的自由共享使得多源异构信息源源不断的生成,其数量巨大、内容复杂多样,且信息质量良莠不齐。在这样复杂环境下信息空间呈现出诸多的不确定性,信息的查询还是通过传统的关键字查询信息,较为复杂的需求往往没有办法在一次查询中完成,需要经过几轮查询才能获取到关键信息。对能够准确理解自然语言问句的问答系统的需求越来越迫切,通用的问答系统所面临的问题远远没有解决,学术界和产业界都仍在探索阶段。基于布尔模型的搜索引擎技术在民用领域已经发展得非常成熟,例如百度、谷歌的通用搜索引擎已被广泛应用。得益于维基百科、百度百科等大规模的知识库,大型搜索引擎公司已经可以基于知识图谱或QA对直接回答一部分问题,完成了问答系统的部分功能,但是该技术需要事先构建领域内的知识图谱和问答语料才能发挥出作用。然而,绝大部分数据是非结构化的异构信息,碎片化的数据流整合到通用的知识库需要时间,如果可以直接针对某类问题从海量的语料中抽取出期望答案对于信息搜索具有实际意义。目前通过自然语言处理的技术从非结构化信息中提取期望答案的技术研究较少。已有的智能问答研究多数是基于知识图谱的结构化问题回答,将非结构化文本进行开放式信息抽取生成知识图谱,没有深入基于非结构化文本的问答系统研究。
技术实现思路
针对信息搜索领域所存在的问题和不足,本专利技术提供了一种面向任务的非结构化信息智能问答系统构建方法,包括如下步骤:步骤1、构建后台索引 ...
【技术保护点】
1.一种面向任务的非结构化信息智能问答系统构建方法,其特征在于,包括如下步骤:步骤1、构建后台索引:对非结构化的文本按单句和段落进行切分,段落级索引的字段包括段落ID、段落内容、段落所在文章中的位置、段落所在文章ID;句子级索引的字段包括句子ID、句子内容、句子所在段落位置、句子所在段落ID、该段落在文章中的位置、句子所在文章ID;对句子和段落分别建立二级全文索引,为用户查询提供检索支持;步骤2、对用户问题请求的相关操作分别采用Hanlp和StanfordNLP工具包进行中文分词和词性标注,得到问题请求的词语集合以及各词的类型;在系统构建之前,构建提示词表,用于对用户问题请求进行基于词语规则的初归类,只要用户的请求中出现了词表中的词汇,同时句法分析结果符合此类别要求,则将问题请求归为该类问题,系统根据提示词表判断用户请求可能的任务类型后,再对用户的问题请求通过StanfordNLP工具包进行句法分析以获取句法特征,匹配期望答案类型,生成查询请求表达式,包含了查询的关键词以及期望答案的类型;步骤3、对于每一项任务,配置任务拓展词典,词典包含了用户请求中常见词的同义词、近义词、领域相关词汇 ...
【技术特征摘要】
1.一种面向任务的非结构化信息智能问答系统构建方法,其特征在于,包括如下步骤:步骤1、构建后台索引:对非结构化的文本按单句和段落进行切分,段落级索引的字段包括段落ID、段落内容、段落所在文章中的位置、段落所在文章ID;句子级索引的字段包括句子ID、句子内容、句子所在段落位置、句子所在段落ID、该段落在文章中的位置、句子所在文章ID;对句子和段落分别建立二级全文索引,为用户查询提供检索支持;步骤2、对用户问题请求的相关操作分别采用Hanlp和StanfordNLP工具包进行中文分词和词性标注,得到问题请求的词语集合以及各词的类型;在系统构建之前,构建提示词表,用于对用户问题请求进行基于词语规则的初归类,只要用户的请求中出现了词表中的词汇,同时句法分析结果符合此类别要求,则将问题请求归为该类问题,系统根据提示词表判断用户请求可能的任务类型后,再对用户的问题请求通过StanfordNLP工具包进行句法分析以获取句法特征,匹配期望答案类型,生成查询请求表达式,包含了查询的关键词以及期望答案的类型;步骤3、对于每一项任务,配置任务拓展词典,词典包含了用户请求中常见词的同义词、近义词、领域相关词汇以及词权重配置;根据问句的任务类型、分词和词性标注结果,生成查询请求表达式,使用任务拓展词典对查询请求的关键词进行拓展与组合,分别转换成句子级和段落级索引查找条件和兜底查询条件,依据不同的任务调整查询关键词的权重和排序要求;步骤4、优先在句子级索引中查找,如果没有查询到结果或者结果数过少,则将查询请求在段落级索引中再次查找,如果还是没有足够的结果数,则使用兜底查询条件进行二次查找,最终生成候选结果集;步骤5、将候选结果集按照任务对应的排序策略进行个性化排序,默认按相关度得分进行排序,并归一化相关度得分值,得分在0至1之间,取相关度得分最高的三个结果作为下一步的候选答案;如果候选结果相关度差距小于设定的阈值,则按照时间排序,取距离当前时间最近的三个结果为下一步的候选答案;步骤6、将候选答案按标点符号进行短句切分,统计检索关键词所在位置,包括实体词和属性词,基于任务的期望答案进行命名实体识别,统计关键词与期望答案类型相符的短语之间距离,依据设定窗口大小过滤期望答案类型短语与检索关键词之间距离过大的结果;步骤7、找到距离属性词最近的且符合期望答案类型的位置标记为可能的问题答案,并输出结果。2.根据权利要求1所述的方法,其特征在于,步骤2中,用户的请求期望答案类型定义为三类:天气型,时间型,数字型;每一类用户请求都有对应的提示词集合,提示词表是根据用户请求中分词结果集合高频词统计得出,或者手动对词表进行扩充;如果用户问题请求的分词和句法分析结果中包括了提示词表中的词则将该问题分入该类别,句...
【专利技术属性】
技术研发人员:丁蔚然,姜晓夏,葛唯益,王羽,王振宇,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。