结合句法结构关系和领域特征的领域问题分类方法技术

技术编号:2822199 阅读:233 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种结合句法结构关系与领域特征的领域问题分类方法,包括下列步骤:领域术语收集,特定领域问题分类体系定义,对问题进行句法结构分析,提取句子主干,结合句子主干和领域词汇项作为问题的分类特征,采用改进贝叶斯分类算法构建问题分类模型,特定领域问题分类训练语料库和测试语料库构建,特定领域问题分类器构建。由于问题分类是问答系统中一个非常重要的步骤,是制定答案抽取策略和定位答案的关键因素,因此通过本发明专利技术,即在句法结构分析的基础上,结合领域特点,选取句子主干和领域词汇作为分类特征,采用改进贝叶斯分类学习算法,构造问句分类模型,并在云南旅游领域进行问题分类实验,结果表明该方法有效,提高了领域问题分类的准确率,从而能够高效,快速、准确地为用户提供咨询服务。

【技术实现步骤摘要】

本专利技术涉及一种领域问题分类方法,尤其是一种结合句法结构关系与领域特征的受限 域问题分类方法。
技术介绍
问题分类是问答系统中一个非常重要的步骤,问题分类的准确率对问答系统的信息检 索和答案提取有着很大的影响,只有在正确的问题分类的基础上,才可能进行正确的答案 析取。目前,问题分类的研究主要集中在两个方面, 一方面是基于规则的方法,通过提取各 种问题类型的疑问词与其它相关词组合的特征规则,通过规则来判定问题所属类型。这种 方法的分类效果依赖于各种问题类型的构成规则,由于汉语的复杂性,用这些规则进行提 取是很困难的,而且不可能穷举出所有规则,因此分类效果并不理想。另一方面是通过统 计的方法来实现问题的分类,通过对真实的经过标注的问题语料进行统计学习,提取能表 达各种问题类型的特征规则,建立学习模型,实现各种问题的类型识别。这种方法是通过 学习来获取知识的,因此具有很大的优势。对英文问题分类的研究较多,目前采用统计方法,提取问题词法、句法及语义相关特 征来构建问题分类方法,均取得了比较好的效果。在中文问题分类研究方面,哈尔滨工业 大学提出了改进的贝叶斯模型进行问题分类的方法和基于句法结构分析的中文问题分类 方法,取得了较好的效果。上述分类方法主要针对开放域问题分类,并未考虑领域特征。 在受限域,不同领域的分类体系不同,如何结合领域特征进行领域问题分类是非常重要的 一个工作。
技术实现思路
本专利技术的目的正是为解决上述问题,在句法结构分析的基础上,结合领域特点,提出 了一种结合句法结构关系与领域特征的领域问题分类方法,以高效,快速、准确地为用户 提供咨询服务。本专利技术提供的一种,选取句子主干 和领域词汇作为分类特征进行领域问题分类,以提高领域问题分类的准确率。本专利技术通过下列技术方案完成 一种结合句法结构关系与领域特征的领域问题分类方 法,其特征在于包括(1) 领域术语收集针对云南旅游领域,人工收集整理了云南旅游领域术语;(2) 特定领域问题分类体系定义针对云南旅游领域,定义了 5个大类,23个小类 的问题分类体系;(3) 对问题进行句法结构分析,提取句子主干对于一个句子,定义句子的主谓宾 为句子主干,其他词项为句子附属成分;(4) 结合句子主干和领域词汇项作为问题的分类特征为了利用领域知识特点,引 入领域术语,结合句子主干和领域词汇项作为问题的分类特征;(5) 采用改进贝叶斯分类算法构建问题分类模型结合问题分类特点,改进贝叶斯 学习算法并应用于领域问题分类;(6) 特定领域问题分类训练语料库和测试语料库构建针对旅游领域,构建了云南 旅游领域训练语料库和测试语料库;(7) 特定领域问题分类构建利用云南旅游领域术语库和云南旅游领域训练语料库 和测试语料库,采用Web方式实现云南旅游领域问题分类。所述步骤(1)具体为针对云南旅游领域景点介绍、风土民情、旅游交通、酒店等信息资源,人工收集整理了 2012个领域术语,形成了旅游领域术语库。所述步骤(2)具体为针对云南旅游领域信息资源,定义了5个大类,23个小类的问题分类体系,如表l所示表l云南旅游领域问题分类体系大类小类景点景点简介、景点位置、景点价格、景点交通、景点其他地方地方简介、地方位置、地方交通、地方气候、地方其他风土民情土特产、风味小吃、风俗习惯、历史文化、节日文化、民族 歌舞、风土民情其他酒店酒店介绍、酒店位置、酒店价格、酒店星级、酒店其他其他其他所述步骤(3)具体为借助于哈尔滨工业大学共享语言技术平台(LTP: Language technology Platform)提供的基于依存文法的句法分析器对问题进行句法结构分析,其中, 依存文法是由法国语言学家L. Tesiniere在1959年提出来的,该文法认为句子中述语动词是支配其它成分的中心,而它本身却不受其它任何成分的支配,所有的受支配成分都以某 种依存关系从属于其支配者;依存文法的句法结构的主要元素是依存关系(dependency relationship),即句子中词对的二元关系,其中一个记为核心词(head),另一个记为依存词 (dependent);依存关系反映的是核心词和依存词之间语义上的依赖关系,故本专利技术将句法 分析结果看作一棵句法依存树。句法依存树中有箭头相连的两个节点表示有依存关系,其中箭头出发的节点为父节 点,是核心词,箭头所指向的节点为子节点,是依存词。依存词依存于核心词。箭头上的 标记HED, SBV, VOB, DE, ATT表示依存关系的类型,其中,HED表示句子的核心, SBV表示句子的主语,VOB表示句子的宾语,DE表示"的"字结构,ATT表示定中结构, EOS支配全句的核心成分,且通过HED, SBV, VOB找到句子的主干部分(主谓宾)。除此 之外,还有其它的依存关系类型,如QUN表示数量关系等。由上面的句法结构分析得到了问题的汉语依存关系,通过分析结果中的依存关系和关 系类型HED, SBV, VOB,提取句子的主语H,谓语S,宾语0。对于一个句子,定义句 子的主谓宾为句子主干,其他词项为句子附属成分。如对问题"路南石林的简介是什么?" 进行句法分析,结果如附图2所示。所述步骤(4)具体为领域词汇项的提取采用如下方式分析句子依存关系,提取 最靠近主语的附属词项,并与领域术语库中的领域术语比较,当与领域术语匹配时,提取 该词项作为领域词汇项;当与领域术语不匹配时,从领域术语库提取与该词项最相似的领 域术语作为领域词汇项。所述步骤(5)具体为贝叶斯分类器是常用于文本分类领域的概率分类器,它利用类 别的先验概率和词的分布对于类别的条件概率来计算未知文本属于某一类别的概率,具体 是A、简单贝叶斯在假设问题中词的分布相互独立,即忽略上下文的Unigram模型中,贝叶斯分类器用数 学形式来表示,如公式(1):P(7Mg)=()(化1 ) =-^~~^—— (l)' p(e》 ,) 式中,r,表示某一类别,a表示待分类的问题,『t表示a中的词项,rF(『"表示i在^中出现的次数,P(rj和户Onlr,)的值可以从训练集中估计得到,对于不同的类 别,上式的分母保持不变,因此使得分子最大的类别,即认为是待分类问题的类别;B、改进贝叶斯由于简单贝叶斯是针对文本分类的,而问题中的特征又较少,很难根据问题中少数的 几个词来表达问句的特征,因此,针对这个问题提出了一种改进贝叶斯的问题分类的方法,即用改进的贝叶斯算法进行分类,具体步骤如下第一步,分别计算提取到的领域问题分类特征中的各个词项WO^在所有问题类型的 语料中出现的次数,对于某种问题类型《c,用A^"e"cy(《c,MW^)表示woW在^这类问 题类型中出现的次数;第二步,计算某个WO^属于某类问题的概率0.5 + y^《wewc少(^, mw《) iV + Z" ^^wewc少(《c, , MW《)《(^,曹《)=:二 ——^ (2)式(2)中,Iwl为训练文本^,类别的总数,即分类体系中的大类数目;iV为问题类 型的总数目,即分类体系中的小类数目;公式中分子部分的常数0.5作为调零因子,分母 部分iV起到平滑作用;第三步,对尸(《C,,WW《)进行降低权值的处理,处理原因如下1) 如果一个词在某个问题中出现的次数越本文档来自技高网...

【技术保护点】
结合句法结构关系和领域特征的领域问题分类方法,其特征在于:(1)领域术语收集:针对云南旅游领域,人工收集整理出领域术语;(2)特定领域问题分类体系定义:针对旅游领域,定义了5个大类,23个小类的问题分类体系;(3)对问题进行句法结构分析 ,提取句子主干:对于一个句子,定义句子的主谓宾为句子主干,其他词项为句子附属成分;(4)结合句子主干和领域词汇项作为问题的分类特征:为了利用领域知识特点,引入领域术语,结合句子主干和领域词汇项作为问题的分类特征;(5)采用改进贝叶斯分类 算法构建问题分类模型:结合问题分类特点,改进贝叶斯学习算法并应用于领域问题分类;(6)特定领域问题分类训练语料库和测试语料库构建:针对旅游领域,构建了云南旅游领域训练语料库和测试语料库;(7)特定领域问题分类器构建:采用Web方式实现云 南旅游领域问题分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:余正涛孟祥燕韩露毛存礼车文刚
申请(专利权)人:昆明理工大学
类型:发明
国别省市:53[中国|云南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1