旅游领域FAQ中文问答系统实现方法技术方案

技术编号:2819379 阅读:234 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种旅游领域FAQ中文问答系统实现方法,包括FAQ收集与组织、旅游领域知识库构建、用户查询、问题分析、答案提取等步骤,使旅游领域常问问题FAQ中文问答系统能够实现。本发明专利技术借助于本体论的思想,构建了旅游领域知识库-领域知网,利用KDML语言定义和描述了旅游领域术语与关系,并实现了“旅游领域知网”与常识库“知网”的融合。在此基础上,提出了一种旅游问句相似度的计算方法,该方法借助旅游领域问句所具有的特点,结合问句中的词法关系、句法依存关系及领域概念语义关系,实现问句相似度计算,并以相似度计算为基础,从候选问题集中检索相关问句,提取问题答案。云南旅游FAQ问答系统测试结果表明该方法可行,有较好的效果。

【技术实现步骤摘要】

本专利技术涉及一种旅游领域FAQ中文问答系统实现方法,尤其是一种基于旅游领域常问 问题库(FAQ)的问答系统实现方法,属于人工智能领域。
技术介绍
常问问题FAQ (Frequently-asked Question)是当前网络上提供在线帮助的主要手段, 通过事先组织好一些可能的常问问答对,发布在网页上为用户提供咨询服务。FAQ知识组 织简单、维护方便,但是,随着常问问题集的逐渐积累,问题数量日益增多,逐页浏览式 的知识获取途径将越来越难于满足用户的实际需求,将会浪费用户大量的宝贵时间,甚至 当用户访问了所有链接时才发现根本没有自己真正需要的信息,耗时费力。
技术实现思路
本专利技术的目的正是为解决上述问题而提供一种旅游领域FAQ中文问答系统实现方法, 以高效,快速、准确地为用户提供咨询服务。本专利技术通过下列技术方案完成 一种旅游领域FAQ中文问答系统实现方法,其特征在 于包括(1) FAQ收集与组织结合人工或半自动方式从互联网上提取旅游问答对,并整理 进入旅游问答库,形成旅游FAQ库;(2) 旅游领域知识库构建构建并维护旅游领域知识结构及关系,形成旅游领域知识库;(3) 用户査询在互联网上,用户通过自然语言问题进行旅游信息査询;(4) 问题分析对用户输入的问题进行分析,提取表征问题的关键词、扩展词、句 法依存对、问题类型等信息;(5) 答案提取根据问题分析结果,从常问问题库(FAQ)中提检索侯选问题,采用 领域问题相似度计算方法,计算用户问题与侯选问题相似度,提取相似度最大的问题答案 作为侯选答案,并提供给用户,返回最终用户查询答案;用户可以提供面向文本的自然语言问题,系统直接返回答案,而不是和问题相关的大量网页。所述步骤(1) FAQ收集与组织方法具体为第一种通过网络爬虫从互联网上自动爬取, 并通过人工筛选进入FAQ库;第二种是通过人工收集与整理获得,针对旅游领域,专门收集地方、景点、风土人情、酒店等相关介绍、门票、交通等相关问题,分类整理和组织FAQ 问答对并进入FAQ库;第三种则是由系统自动记录用户输入但在问句库中不存在的新问 句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句 一起入FAQ库。所述FAQ的问答对的存储通过建立问题(question)和答案(answer)两个关系表,分别 通过主键(Questionid,Answerid)进行答案索引;问题表的存储,为了便于快速检索,采 用倒排索引方式进行存储,建立词与问句之间的倒排索引文档,候选问题集的选择从索引 文档中提取,而最终答案则根据问题表中存放的答案answerid从数据库中直接输出。所述步骤(2)主要利用了本体论的思想,借助现有的中科院院语言信息中心董振东 先生的"知网"进行领域术语的扩展。所述步骤(2)具体为借助本体论的思想对云南旅游领域资源的概念进行精确描述, 以"知网"为基础,采用"知网"的概念描述语言KDML规则,建立了专门的云南旅游领 域本体,形成云南旅游领域资源本体库领域知网体系,并实现了云南旅游知识库"领域知 网"与常识知识库"知网"的融合。目前共对云南旅游景点介绍、风土民情、旅游交通等 旅游相关2012个概念进行了定义和描述,形成了云南旅游领域"知网"。因为相对于开放域来说,受限域具有一定的领域知识特点,借助于领域知识关系能够 降低自然语言处理的难度。本体论(Ontology)是一种对概念的精确描述,特别是对领域 概念的描述,是一种很好的领域知识表示方式。本体通过对概念、术语及其相互关系的规 范化描述,勾画出某一特定领域的基本知识体系结构。"知网"HowNet是一部通用常识资 源,其描述了汉语和英语的词语所代表的概念,揭示概念与概念之间以及概念所具有的属 性和属性之间的关系。借助本体论的思想对旅游领域资源的概念进行精确描述,以"知网" 为基础,采用"知网"的概念描述语言KDML规则,建立了专门的旅游领域本体,形成旅 游领域资源本体库领域知网体系,并实现了旅游知识库"领域知网"与常识知识库"知网" 的融合。目前共对云南旅游景点介绍、风土民情、宾馆酒店、旅游交通等旅游相关2012 个概念进行了定义和描述,形成旅游领域知识库。所述步骤(3)具体为用户可以通过互联网进行相关旅游领域问题査询,采用自然 语言方式进行査询,并直接得到问题的答案。所述步骤(4)具体为通过问句分析模块对用户输入的问题进行分析,主要包括词 法分析、句法分析及语义分析,词法分析主要对问题进行分词,过滤停用词,提取査询核 心词及借助"知网"进行关键词扩展;句法分析主要对提取问句的核心词干,借助哈工大 句法分析器,提取问句句法依存对;语义分析主要分析问句语义信息,根据旅游领域特点, 定义并提取旅游领域问题类型特征句模规则,并通过规则匹配方式实现问句类型的识别, 具体是A、 问题关键词、扩展词提取问题关键词和扩展词是表征问题的基本要素,也是候选问题集检索和答案提取的基础。 通过加载领域知识库,在对问句分词后再进行一次领域术语切分,实现领域术语切分与词 性标注,并利用"知网",对关键词进行同义扩展,形成关键词扩展词。B、 问句句法依存对提取由于一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干 成分就可以了解一个句子的大概意思,由于目前完全句法分析存在很多困难,所以在进行 句子相似度计算时,可以通过句子之间有效搭配对的相似度来体现句子之间相似度。所谓 有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动 词、名词以及形容词,它是由分词后的词性标注决定的。并通过哈工大的共享语言技术平 台LTP接口获取句子有效搭配对。C、 旅游领域问句分类问题类型是定位答案及制定析取答案策略的关键因素,在问句分析时,判断两个问题 是否相似,首先得判断两个问题的问题类型是否一致,如果一致,才能进行进一步的相似 度计算判断,否则两个问题不可能相似。在特定领域内,由于业务相对固定,因此问句询 问内容形式相对受限,因此可以针对问答业务对问题进行分类,以此来提高相似问句检索 及答案抽取的准确率,在旅游领域,提取构建了各种问题类型的构成规则,并通过这些特 征识别问题类型。所述步骤(5)答案提取方法具体为根据问题分获取的问题类型、问题关键词、问题扩展词等问句关系信息,采用lucene从常问问题库(FAQ)中检索侯选问题集,借助领 域问题相似度计算方法,提取相似度最大的侯选问题答案作为答案,并返回给用户,具体是A、 候选问题集的选择与问句索引建立候选问题集的目的是縮小査找范围,使后续的相似度计算等较为复杂的过程都在 候选问题集这个相对较小的范围内进行,从而提高系统的检索效率。在旅游(FAQ)问答 系统中采用Lucene检索系统实现候选问题检索和问句索引。B、 旅游领域问句相似度计算问句相似度计算是FAQ中相似问句查找的基础,同时也是答案提取的关键,其直接影 响答案提取的准确程度,当前已有多种中文句子相似度计算方法,通常分为三个等级语 法相似度、语义相似度和语用相似度。但这些相似度计算方法在领域(FAQ)问答系统中 都有不同的缺陷。在此结合旅游领域问句特点,综合考虑词的语义距离、句法依存关系及 领域概念语义关系因素,提本文档来自技高网...

【技术保护点】
一种旅游领域FAQ中文问答系统实现方法,其特征在于包括: (1)FAQ收集与组织:结合人工或半自动方式从互联网上提取旅游问答对,并整理进入旅游问答库,形成旅游FAQ库; (2)旅游领域知识库构建:构建并维护旅游领域知识结构及关系,形成旅游领域知识库; (3)用户查询:在互联网上,用户通过自然语言问题进行旅游信息查询; (4)问题分析:对用户输入的问题进行分析,提取表征问题的关键词、扩展词、句法依存对、问题类型等信息; (5)答案提取:根据问题分析结果,从常问问题库FAQ中提检索侯选问题,采用领域问题相似度计算方法,计算用户问题与侯选问题相似度,提取相似度最大的问题答案作为侯选答案,并提供给用户,返回最终用户查询答案。

【技术特征摘要】

【专利技术属性】
技术研发人员:余正涛毛存礼韩露孟祥燕郭剑毅车文刚张志坤
申请(专利权)人:昆明理工大学
类型:发明
国别省市:53[中国|云南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利