一种基于条件随机场的中文兼类词识别方法技术

技术编号:11677591 阅读:62 留言:0更新日期:2015-07-06 04:25
本发明专利技术公开了一种基于条件随机场的中文兼类词识别方法,包括:获取与兼类词相关的词条,从词条中获得语料;对语料进行切分生成语块,同时在语块中生成每个文字的语块特征;对文字进行词性标注,获得文字的词性特征,利用语块特征和词性特征标注文字;随机选择一部分语料进行训练,其余的语料进行测试,得到第一实验结果;根据语料的特征修改特征模板,修改后继续对语料进行训练和测试,得到第二实验结果;对第一实验结果和第二实验结果进行度量标准的性能比对,提高对于兼类词的识别。本发明专利技术对电商领域的中文兼类词用条件随机场进行识别,修改原有条件随机场特征模板的特征后,使得识别兼类词的精确率、召回率以及f值均得到提高。

【技术实现步骤摘要】

本专利技术属于电商产品文字识别领域,尤其涉及一种电商领域中基于条件随机场的中文兼类词识别方法
技术介绍
随着时代的发展和技术的提升,歧义词(歧义词即同一个词或词语拥有两种或两种以上的含义,歧义产生的原因:词义不明确、句法不固定、层次不分明、指代不明等)大量的涌现已经导致了在很多环境下同一个词或词语由于机器或人不同的理解而出现的困扰。所以对于歧义词识别的性能的精确与否,是否高效影响着对于文字信息的处理的结果。而歧义词又大致分为多音词、同音词、多义词、兼类词与反训词。之前的识别研宄仅限于传统的中文分词,并没有对特定的领域进行研宄,本专利技术仅仅只针对歧义词中的兼类词(兼类词即一个词或词语具有两种或两种以上的词性)在电商领域的特征,并用条件随机场特征模板以及修改后的新特征模板对语料进行训练和测试,目的在于优化提高条件随机场的模板在电商领域的兼类词的识别的性能。对于中文文字识别的方法主要分为以下四大类:1.基于规则的方法。Ia:字符串匹配法。把需要识别的词或词语与词典(即具有一定规模的训练集)进行匹配。按照匹配方向可以分为正向匹配,反向匹配和双向匹配三种,按照匹配的优先原则又分为最大匹配和最小匹配两种。Ib:最短路径算法。米用Di jkstra算法,Floyd算法,k最短路径算法,η最短路径算法等一些图论算法及衍生的变种的算法。以上两种方法仅仅是基于规则的方法中的一小部分,基于规则的方法都是按照自己各自设定的规则来进行识别,这种方法依赖于设定的规则是否完备合理,相对主观无法对于任何语料库都适用,对于处理歧义词性能较差,准确率较低。2.基于理解的方法。这种方法是句法和语义一起分析,模拟人对于词或词语的理解,通过这样来识别相对应的词或词语。由于中文词或词语以及句法系统较为复杂,这种方法需要大量的数据和信息以及知识。3.基于变换的方法。这种方法是找一个已经标注好词性的语料库,从这个语料库中来识别每个词或词语最相符合的词性,之后再用这个作为训练集,再通过现有规则的学习再变换出一种新的规则(也就是在原先某种规则上的变种变换)。4.基于统计的方法。这种方法根据词语前后的组成关联以及特征信息,对每个词和词性进行概率统计,从中选择最优的状态转移概率来判定词和词性。最有代表性的三大模型分别是隐马尔科夫模型,最大熵马尔科夫模型,条件随机场。隐马尔科夫模型缺点在于在给定观察序列的条件下,观察值仅仅依赖于状态,这使得每个观察元素都是独立存在的,而在真正的语境下,词往往不是只与前后词相关的,是与更远的词有着某种关联的特征信息,所以仅仅做到了局部最优。最大熵马尔科夫模型虽然考虑到了与当前词更远距离的词之间的关联特征信息,但是在状态转移的时候,由于分支数量不同概率分布不均衡,就导致了在状态转移的时候驻留在了某个状态即标注偏置问题。而条件随机场不像隐马尔科夫模型和最大熵马尔科夫模型的状态转移是有向图,其无向图的特征既避开了最大熵马尔科夫模型的标记偏置问题,同时也考虑到了与当前词更远距离的词之间的相互关联的特征信息,解决了隐马尔科夫仅仅局部归一化而导致的词太过于独立的情况,做到了全局最优化。
技术实现思路
本专利技术提出了,包括以下步骤:步骤1:在电商领域内搜索一中文兼类词,获取与所述兼类词相关的词条,从所述词条中获得具有电商领域特征的语料;步骤2:对所述语料进行切分生成语块,同时在所述语块中生成每个文字的语块特征;步骤3:对所述文字进行词性标注,获得所述文字的词性特征,利用所述语块特征和所述词性特征标注所述文字;步骤4:随机选择一部分语料在条件随机场中进行训练,其余的语料在所述条件随机场中进行测试,得到第一实验结果;步骤5:根据所述语料的特征修改所述条件随机场中的特征模板,修改后继续对所述条件随机场中的所述语料进行训练和测试,得到第二实验结果;步骤6:对所述第一实验结果和所述第二实验结果进行度量标准的性能比对,提高对于兼类词的识别。本专利技术基于条件随机场的中文兼类词识别方法中,所述步骤I包括如下步骤:步骤Ia:在电商领域内,按所述兼类词的名词形式进行搜索,获得与所述名词形式相关的词条,将其中与商品名一致的词条归为语料,把不符合的词条修改成对应的商品名后归为语料;步骤Ib:按所述兼类词的形容词形式进行搜索,获得与所述形容词形式相关的词条,将其中与商品名一致的词条归为语料,把不符合的词条修改成对应的商品名后归为语料。本专利技术基于条件随机场的中文兼类词识别方法中,所述步骤2中,根据电商领域内产品所含内容,将所述词条切分成制造商块,产地块,品牌块,商品名块,以及净含量块。本专利技术基于条件随机场的中文兼类词识别方法中,所述步骤2中,若所述语块中包含两个以上文字,则第一个文字的语块特征为初始词,其余文字的语块特征为紧随词;若所述语块包含一个文字,则所述文字的语块特征为独立的块。本专利技术基于条件随机场的中文兼类词识别方法中,所述步骤3,所述词性特征包括名词、动词、形容词。本专利技术基于条件随机场的中文兼类词识别方法中,所述步骤4包括如下步骤:步骤4a:从所述语料中随机选择含有一个兼类词的形容词形式或名词形式的语料归入所述条件随机场的训练集进行训练,含有所述兼类词的另一部分形容词形式所述名词形式的语料归入所述条件随机场的测试集进行测试;步骤4b:完成训练和测试后,重复执行步骤4a随机选取另一个语料进行训练和测试,直至对所有语料完成训练和测试。本专利技术基于条件随机场的中文兼类词识别方法中,所述步骤5包括如下步骤:步骤5a:更改所述条件随机场的特征模板中词性关联的组合特征;步骤5b:返回步骤4重新训练每个兼类词的训练集以及测试每个兼类词的测试集,得到第二实验结果。本专利技术基于条件随机场的中文兼类词识别方法中,所述步骤6包括如下步骤:步骤6a:用基于Perl脚本语言编写的Conll 2000算法分别对所述第一实验结果和所述第二实验结果进行三个度量标准的性能比对;所述度量标准为精确率、召回率和f值;步骤6b:若所述第二实验结果低于所述第一实验结果,则返回步骤5对所述特征模板进行修改并重新得到第二实验结果,直至所述第二实验结果优于所述第一实验结果为止。以上
技术实现思路
中,语料的特征包括词性,语义和词与词之间的相互关系等。词性特征包括名词、动词、形容词等。本专利技术的有益效果在于:修改后的特征模板相比crf普适的特征模板在识别电商领域的兼类词时显得更匹配。【附图说明】图1为本专利技术基于条件随机场的中文兼类词识别方法的流程图。图2为步骤I的具体流程图。图3为步骤2的具体流程图。图4为步骤3的具体流程图。图5为步骤4的具体流程图。图6为步骤5的具体流程图。图7为步骤6的具体流程图。【具体实施方式】结合以下具体实施例和附图,对本专利技术作进一步的详细说明。实施本专利技术的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本专利技术没有特别限制内容。本专利技术如图1所示具体包括如下步骤:步骤1:在电商领域内搜索一中文兼类词,获取与所述兼类词相关的词条,从所述词条中获得具有电商领域特征的语料;步骤2:对所述语料进行切分生成语块,同时在所述语块中生成每个文字的语块特征;步骤3:对所述文字进行词性标注,获得所述文字的词性特征,利用所述语块特征和所述词性特征标注所述文字;步骤本文档来自技高网
...

【技术保护点】
一种基于条件随机场的中文兼类词识别方法,其特征在于,包括以下步骤:步骤1:在电商领域内搜索一中文兼类词,获取与所述兼类词相关的词条,从所述词条中获得具有电商领域特征的语料;步骤2:对所述语料进行切分生成语块,同时在所述语块中生成每个文字的语块特征;步骤3:对所述文字进行词性标注,获得所述文字的词性特征,利用所述语块特征和所述词性特征标注所述文字;步骤4:随机选择一部分语料在条件随机场中进行训练,其余的语料在所述条件随机场中进行测试,得到第一实验结果;步骤5:根据所述语料的特征修改所述条件随机场中的特征模板,修改后继续对所述条件随机场中的所述语料进行训练和测试,得到第二实验结果;步骤6:对所述第一实验结果和所述第二实验结果进行度量标准的性能比对,提高对于兼类词的识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:费凡徐文超杨雁峰刘云鹏汤俊杨艳琴
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1