基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质技术

技术编号:24207883 阅读:13 留言:0更新日期:2020-05-20 15:28
基于知识的自然语言处理系统,在实际应用中所面临的主要问题在于:很难移植和纵向扩展到新的领域,其瓶颈在于前述系统依赖于特定领域的语义概念词典,而构建上述词典需要大量的基于人工的知识工程。有鉴于此,本发明专利技术,针对特定领域的中文文本,公开了一种基于领域的非监督式中文语义概念词典的自动构建方法,由内、外两层构成,用以同时自动构建中文语义概念词典和提取模式词典。所提出的算法不需要预先标注训练语料,而只需要少量基于语义概念类别的种子词,作为输入。由本算法所构建的中文领域概念词典对于诸如文本分类、文本摘要、信息检索、本体学习等智能文本应用起到重要的支撑作用,是不可或缺的一环。

Automatic construction method, electronic equipment and storage medium of unsupervised Chinese semantic concept dictionary based on domain

【技术实现步骤摘要】
基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质
本专利技术涉及信息提取、自然语言处理领域,尤其涉及一种基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质。
技术介绍
目前,基于知识的自然语言处理系统,在实际应用中所面临的主要问题在于:很难移植和纵向扩展到新的领域,其瓶颈在于前述系统依赖于特定领域的语义概念词典,而构建上述词典需要大量的基于人工的知识工程。在现有技术中,AutoSlog是一个词典构建系统,该系统通过启发式规则来自动创建提取模式集,这些提取模式,被用于从英文文本中自动获取触发提取模式的特定’概念’词语,这些概念词语即作为词典的条目。作为输入,AutoSlog所需的文本语料需要预先对特定领域的名词短语进行标注,例如,在AutoSlog所选择的领域-恐怖活动领域,实施者、目标、受害者这类名词短语需要进行预标注。AutoSlog的工作流程如下:根据所标注的名词短语及源文本语料,AutoSlog首先找到包含该名词短语的句子,然后使用句法分析工具,来识别该分句的句法成分,即识别名词、动词、直接宾语、及介词短语等成分,最后应用启发式规则,识别出相应的概念。AutoSlog的实现原理,需要有经过预先标注的训练语料集来支持,而从时间成本和难易程度考虑,生成经过标注的训练语料集,并不是一项容易的工作,AutoSlog以前的实验结果表明:一个用户大概需要一周时间,用以建立一个含有1000个文本的训练语料集。除了前述人力成本以外,AutoSlog还需要标注相关的名词短语,而什么成分构成相关名词短语?是否包括修饰词及哪些修饰词?这些都是需要仔细考虑的问题。对于标注工作而言,很难定义一个惯例,用以获取所要的信息,从而导致标注数据的不一致性。为了规避AutoSlog的所具有的上述问题,文献提出了AutoSlog-TS算法。该算法的实现并不需要任何文本标注工作,而只需要,基于特定的领域,对语料集中的文本预先分为‘相关’和‘不相关’两类。对于许多应用而言,相关文本很容易从网络在线获取。AutoSlog-TS的工作流程如下:首先,为训练语料中的每个名词短语,生成提取模式;然后,为第一阶段所生成的每个提取模式,计算其相关性,相关性值是由触发该提取模式的文本的相关性条件概率而定;最后,通过排序函数,为每个提取模式计算其对于特定领域的重要性。术语是指在特定领域,用以表示概念的集合,术语提取,其实质即领域概念提取,而所提取的术语即可组成基于领域的语义概念词典。术语在机器翻译、问答系统、自动文摘、本体工程等多个自然语言处理应用领域起着巨大的作用。国内外研究将术语的提取方法划分为以下三类:·基于语言学规则的方法:通过分析术语上下文特殊的语法结构,利用词法、句法分析工具来识别术语,这类方法具有提取精度高的优势,但需要深入了解语料库的专业知识及构词特点。·基于统计学的方法:利用词频、词共现、互信息等技术来提取术语,这类方法具有较好的适应性和移植性,但提取精度较低。·混合方法:即结合前述两种方法的优点,在术语提取过程中同时采用语言学规则和统计学方法。现有的术语提取方法,通常具有以下不足之处:·基于机器学习的术语提取方法,大多数情况下需要预先标注的训练语料,而由于不同领域的差异性,导致这类方法很难在不同领域之间移植。·许多现有的术语提取方法是基于英文的,并不支持中文。因为中、英文之间的根本性差异,导致基于英文的术语提取方法很难扩展到中文应用。·基于中文分词工具的术语提取方法具有内在的缺陷:–分词工具所用的分词词典,并不能完全覆盖全部术语。–分词单元的粒度太小,导致术语被分割为几个较小的语言片段。由于信息和知识的幂指数增长,知识库本体的研究在很多领域被深入扩展。通常情况下,本体被用于对特定领域的的知识进行正式地概念化,其主要目的是为领域知识提供一个共享和共同的理解基础,从而促进用户和应用程序之间的交互。然而,本体构建是一项十分耗时、耗力的系统工程,为了促进本体构建,本体学习作为一项广泛的研究,用以从文本语料库中半自动或自动地构建本体。在本体学习中,所面临的一个关键的挑战在于:如何自动提取特定领域的关键概念,从而使得所提取的概念可以表达基于特定领域的语料库的关键信息。由此,关键概念提取,对于基于文本语料库的本体学习是一个重要步骤。如果所提取的关键概念是非相关的,那么所构建的知识库本体就无法正确表达领域知识,以至于不相关的概念可以导致生成不相关的语义关系和定理。拔靴法(Bootstrapping)是一种迭代的方法,用以在从实例集合中获取的学习规则集和从规则集合中获取的实例集之间进行交替学习。使用拔靴法的信息提取系统,始于人工标记的种子实例集,然后,在从种子集中学习规则和进一步从规则集中获取种子之间交替进行学习,不断进行迭代,直到满足预设的条件为止。综上所述,现有的领域概念词典构建方法,很难适用于中文应用。现有的主流领域概念提取方法,需要预先对文本语料进行标注,进行模型训练。现有的领域概念提取方法,不易于在不同领域之间进行移植和扩展,具有实施困难的问题。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质,其能解决如下技术问题:现有的领域概念词典构建方法,很难适用于中文应用。现有的主流领域概念提取方法,需要预先对文本语料进行标注,进行模型训练。现有的领域概念提取方法,不易于在不同领域之间进行移植和扩展。本专利技术的目的之一采用如下技术方案实现:一种基于两层拔靴法学习的算法,用以同时自动构建语义概念词典和提取模式词典,包括以下两层:内层拔靴法学习-利用单层拔靴法,如图1所示:包括如下步骤:提取模式生成步骤:采用与典型信息提取方法(如AutoSlog)相似的思路,为文本语料中的每个名词短语,生成候选提取模式,从而形成候选提取模式集合。其中,每个候选提取模式,是一个具有足够概括能力,并且能提取其它相关名词短语的语法表达式。应用提取模式步骤:应用上述候选提取模式于文本语料,获得相应的提取信息,并将所有的提取模式及提取信息存入EPA中。提取模式评分步骤:因为语义概念词典中的概念条目是不断增长的,每一轮迭代中,所有的提取模式都要进行重新评分。对EPA中的所有的提取模式进行评分计算。语义概念提取步骤:由评分高低,选取最佳提取模式,并应用最佳提取模式于文本语料,生成新的语义概念条目,存入Lexicon中。循环步骤:转向提取模式评分步骤,进行迭代,直至满足约束条件。外层拔靴法学习阶段-利用双层拔靴法,只保留由内层拔靴法学习阶段所提取的领域相关性排名最高的前K个语义概念,然后利用已扩展的语义概念词典,再重新开始内层拔靴法学习的迭代过程。如图2所示,包含以下步骤:语义概念评分步骤:在内层拔靴法学习阶段中,每一轮所提取的新的语义概念,存入临时语本文档来自技高网
...

【技术保护点】
1.一种基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于这是一种基于两层拔靴法学习的算法,由内、外两层组成:/n内层拔靴法学习阶段-利用单层拔靴法,从文本语料中交互选取相应类别的最佳提取模式及其提取物于各自的词典中,提取物代表语义概念,而语义概念词典中的概念则是选取下一轮提取模式的基础;/n外层拔靴法学习阶段-利用双层拔靴法,只保留由内层拔靴法学习阶段所提取的领域相关性排名最高的前K个语义概念,然后利用已扩展的语义概念词典,再重新开始内层拔靴法学习的迭代过程。/n

【技术特征摘要】
1.一种基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于这是一种基于两层拔靴法学习的算法,由内、外两层组成:
内层拔靴法学习阶段-利用单层拔靴法,从文本语料中交互选取相应类别的最佳提取模式及其提取物于各自的词典中,提取物代表语义概念,而语义概念词典中的概念则是选取下一轮提取模式的基础;
外层拔靴法学习阶段-利用双层拔靴法,只保留由内层拔靴法学习阶段所提取的领域相关性排名最高的前K个语义概念,然后利用已扩展的语义概念词典,再重新开始内层拔靴法学习的迭代过程。


2.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,基于特定语义概念类别的提取模式可以生成新的实例,而新的实例则反过来可用于生成新的提取模式,这种交互过程不断进行迭代,直到满足约束条件退出为止。


3.如权利要求2所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,根据语义概念词典中最初的种子概念和刚添加的新概念,识别出下一轮最佳的提取模式,并应用前述提取模式去获取新的语义概念。


4.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,提取模式的评分计算采用启发式策略:一个提取模式可以提取多少不同类别的语义概念,该策略对提取模式的通用性能力进行奖励。


5.如权利要求1所述的基于领域的非监督...

【专利技术属性】
技术研发人员:荆继远姜春涛
申请(专利权)人:深圳软通动力信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1