一种未登录词识别方法技术

技术编号:18426244 阅读:16 留言:0更新日期:2018-07-12 01:58
本申请提供了一种未登录词识别方法,该方法采用规则和统计相结合的方法识别未登录词;规则将词汇特征和工程招标领域的领域知识等很好的融入到识别未登录词的过程中,统计的方法可以较好的捕捉统计信息,选择文本信息中出现频繁的词;规则和统计相结合的识别方案能够提高未登录词识别效率和准确度。

An unregistered word recognition method

This application provides an unregistered word recognition method, which uses the method of combining rules and statistics to identify the unregistered words; the rules integrate the lexical features and the domain knowledge of the engineering bidding field well into the process of identifying the unregistered words. The statistical method can better capture the statistical information and select the text letter. Frequent occurrences of words in the message; the combination of rules and statistics can improve the recognition efficiency and accuracy of unknown words.

【技术实现步骤摘要】
一种未登录词识别方法
本专利技术涉及自然语言处理领域,特别涉及一种未登录词识别方法。
技术介绍
自然语言处理一般以词为单位“理解”语言的含义,首要的任务就是分词。在中文信息处理的众多领域,均需要基于词典完成对应的功能。通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所以词语词典构建对于整个系统的性能有着很大的影响。许多分词算法都是在假设词典完备的情况下设计的,其实很多时候这一假设并不成立。随着社会和互联网的不断发展,新词语不断在日常生活中涌现,专业领域的词汇也鲜有出现在通用基础词典中。未登录词被定义为未在词典中出现的词,包括出现的新词语以及包括领域专业词汇等。由于未登录词造成的分词错误远远超过歧义切分字段引发的错误。特别是在特定领域内,及时更新词典对词语词典所在的应用系统效率有着决定性的影响,词典的规模及质量直接关系到相关应用的性能。分词词典的构建和扩充方法有人工构建的方法和自动生成方法。采用人工构建的方式向词典中添加未登录词,人工构建的方法准确率高,但是需要大量的领域专家长时间参与,人工成本和时间成本太高,且缺乏实时性。自动生成的方法通过分析词汇在不同领域语料库中统计特性的差异,判定词汇的领域属性,该方法无需领域专家的参与,节省了大量的人工成本,但是词典收录的准确率不高。因此,如何自动识别不断在日常生活中涌现的未登录词,并加入到词典中,是自然语言处理的一项基础性的工作。未登录词的识别是其中面临的一个较大困难,也是影响分词精度的主要因素之一。在未登录词发现方法方面,目前主要有基于规则和基于统计两种方法。基于规则的方法其主要思想是根据未登录词的构词特征或外型特点建立规则库、专业词库或模式库,然后通过规则匹配发现未登录词。基于规则的方法,局限于某个领域,并且需要建立规则库等。基于统计的方法,一般是利用统计策略提取出候选串,然后再利用语言知识排除不是未登录词语的垃圾串;或者是计算相关度,寻找相关度最大的字与字的组合。基于统计的方法,局限于查找只能查找到较短的新词语。
技术实现思路
有鉴于此,本申请提供一种未登录词识别方法,能够提高未登录词识别效率和准确度。为解决上述技术问题,本申请的技术方案是这样实现的:一种未登录词识别方法,该方法包括:获取HTML网页信息,并解析成文本信息;对所述文本信息,使用分词器进行汉语自动分词,将未能进行命名实体识别的词作为候选词存储到候选词库中;对所述候选词库,使用切分标记库和排除字集进行过滤;针对当前候选词库中的每个候选词,与在文本信息中相邻的候选词构造组合词,并使用前缀字集、后缀字集、以及配置的词性组合规则进行过滤;将未被过滤的组合词在所述文本信息中出现的频次低于预设组合词词频阈值的组合词作为未登录词存储到备用字典中;并将存储到备用字典中的组合词,以及被过滤掉的组合词对应的候选词从当前候选词库中删除;针对当前候选词库中的每个候选词,与在文本信息中相邻的候选词进行互信息熵计算,将互信息熵大于预设互信息熵阈值的候选词保留在候选词库中;针对当前候选词库中的每个候选词,计算该候选词的边界信息熵,将由于信息熵大于预设边界熵阈值而不能与对应边界候选词进行词组合的候选词过滤;使用停用词集过滤未通过边界信息熵过滤掉的组合词;并将未被停用词集过滤掉的组合词,作为未登录词增加到备用字典中。由上面的技术方案可知,本申请中采用规则和统计相结合的方法识别未登录词;规则将词汇特征和工程招标领域的领域知识等很好的融入到识别未登录词的过程中,统计的方法可以较好的捕捉统计信息,选择文本信息中出现频繁的词。规则和统计相结合的识别方案能够提高未登录词识别效率和准确度。附图说明图1为本申请实施例中识别未登录词的流程示意图;图2为本申请实施例中分词词典包含内容的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本专利技术的技术方案进行详细说明。本申请提供的未登录词识别方案,应用于工程招标领域词典构建中,该技术方案采用规则和统计相结合的方法识别未登录词;规则将词汇特征和工程招标领域的领域知识等很好的融入到识别未登录词的过程中,统计的方法可以较好的捕捉统计信息,选择文本信息中出现频繁的词。规则和统计相结合的识别方案能够提高未登录词识别效率和准确度。本申请具体实施例中,在自动分词的同时,识别未登录词,并将能够进行命名实体识别的词增加构建的分词词典;当识别出未登录词后,再将未登录次加入到分词词典中,实现分词词典的构建和更新。这里的分词词典,也可称为核心词典,用于进行分词的词典,包括通用词和未登录词。为了描述方便,实现未登录词的识别,以及分词词典的构建和更新的设备,在下文简称为设备下面结合附图,首先描述未登录词的识别过程。参见图1,图1为本申请实施例中识别未登录词的流程示意图。具体步骤为:步骤101,设备获取超文本标记语言(HTML)网页信息,并解析成文本信息。具体实现时,可以使用解析器将HTML网页信息解析成文本信息。步骤102,该设备对所述文本信息,使用分词器进行汉语自动分词,将未能进行命名实体识别的词作为候选词存储到候选词库中。在具体实现时,对使用何种分词器不做限制,如可以使用LTP分词器。在进行汉语自动分词时,同时实现词性标注和命名实体识别。在工程招标领域实体命名可以包括人名、地名、机构名等;使用已识别的词,即能进行命名实体识别的词,进行分词词典的构建;将未能命名实体识别的词作为候选词进行未登录词识别。以文本信息中的一段文本为例,具体为:“上海市轨道交通18号线工程沪南公路站Ф800污水管拆除、秀龙桥拔桩、清障及回填等工程施工项目中标公示”为例。进行自动分词后的内容为:"上海市""轨道""交通""18""号""线""工程""沪""南""公路""站""Ф""800""污水管""拆除""、""秀龙桥""拔桩""、""清障""及""回""填""等""工程""施工""项目""中标""公示"。假设“上海市”被命名实体识别出,用于构建分词词典;其它均未识别出,作为未登录词的候选词存到候选词库中。当前候选词库包含的内容为:"轨道""交通""18""号""线""工程""沪""南""公路""站""Ф""800""污水管""拆除""、""秀龙桥""拔桩""、""清障""及""回""填""等""工程""施工""项目""中标""公示"。步骤103,该设备对所述候选词库,使用切分标记库和排除字集进行过滤。切分标记库将标点符号、数字、英文字母等非汉字作为切分标识,经过切分标记库过滤后的候选词库包含的内容为:"轨道""交通""18""号""线""工程""沪""南""公路""站""Ф""800""污水管""拆除";"秀龙桥""拔桩";"清障""及""回""填""等""工程""施工""项目""中标""公示"。词性为介词、助词、代词、副词的单字,连词、疑问词、感叹词等虚词,比如“的、呢、最、太、这、我”,还有其它词性当中有存在构词能力较弱的,比如“呈,有,如,时”,所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%;将这些词归类为排除字集。经过切排除字集过滤后的候选词库包含的内容为:"轨道""交通""18""号"本文档来自技高网
...

【技术保护点】
1.一种未登录词识别方法,其特征在于,该方法包括:获取超文本标记语言HTML网页信息,并解析成文本信息;对所述文本信息,使用分词器进行汉语自动分词,将未能进行命名实体识别的词作为候选词存储到候选词库中;对所述候选词库,使用切分标记库和排除字集进行过滤;针对当前候选词库中的每个候选词,与在文本信息中相邻的候选词构造组合词,并使用前缀字集、后缀字集、以及配置的词性组合规则进行过滤;将未被过滤的组合词在所述文本信息中出现的频次低于预设组合词词频阈值的组合词作为未登录词存储到备用字典中;并将存储到备用字典中的组合词,以及被过滤掉的组合词对应的候选词从当前候选词库中删除;针对当前候选词库中的每个候选词,与在文本信息中相邻的候选词进行互信息熵计算,将互信息熵大于预设互信息熵阈值的候选词保留在候选词库中;针对当前候选词库中的每个候选词,计算该候选词的边界信息熵,将由于信息熵大于预设边界熵阈值而不能与对应边界候选词进行词组合的候选词过滤;使用停用词集过滤未通过边界信息熵过滤掉的组合词;并将未被停用词集过滤掉的组合词,作为未登录词增加到备用字典中。

【技术特征摘要】
1.一种未登录词识别方法,其特征在于,该方法包括:获取超文本标记语言HTML网页信息,并解析成文本信息;对所述文本信息,使用分词器进行汉语自动分词,将未能进行命名实体识别的词作为候选词存储到候选词库中;对所述候选词库,使用切分标记库和排除字集进行过滤;针对当前候选词库中的每个候选词,与在文本信息中相邻的候选词构造组合词,并使用前缀字集、后缀字集、以及配置的词性组合规则进行过滤;将未被过滤的组合词在所述文本信息中出现的频次低于预设组合词词频阈值的组合词作为未登录词存储到备用字典中;并将存储到备用字典中的组合词,以及被过滤掉的组合词对应的候选词从当前候选词库中删除;针对当前候选词库中的每个候选词,与在文本信息中相邻的候选词进行互信息熵计算,将互信息熵大于预设互信息熵阈值的候选词保留在候选词库中;针对当前候选词库中的每个候选词,计算该候选词的边界信息熵,将由于信息熵大于预设边界熵阈值而不能与对应边界候选词进行词组合的候选词过滤;使用停用词集过滤未通过边界信息熵过滤掉的组合词;并将未被停用词集过滤掉的组合词,作为未登录词增加到备用字典中。2.根据权利要求1所述的方法,其特征在于,所述针对当前候选词库中的每个候选词,与在文本信息中相邻的候选词构造组合词,并使用前缀字集、后缀字集、以及配置的词性组合规则进行过滤;包括:针对每个候选词,分别构造2元组合词、3元组合词和4元组合词;针对构造的2元组合词,使用前缀字集过滤组合词中位于词尾的候选词,并使用对应的二元词性组合规则进行过滤;针对3元组合词,使用前缀字集分别过滤组合词中位于词头之外的两个候选词;使用后缀字集过滤组合位于组合词中词尾的候选词;并使用对应的三元词性组合规则进行过滤;针对4元组合词,使用前缀字集分别过滤组合词中位于词头之外的三个候选词,并使用对应的三元词性组合规则进行过滤;其中,配置的词性组合规则,包括:二元词性组合规则、三元词性组合规则和四元词性组合规则。3.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:若过滤后的二元组合词属于过滤后的三元组合词或四元组合词的一部分,则将该二元组合词过滤;若过滤后的三元组合词属于过滤后的四元组合词的一部分,则将该三元组合词过滤。4.根据权利要求1所述的方法,其特征在于,所述针对当前候选词库中的每个候选词,与...

【专利技术属性】
技术研发人员:张春荣韦玮
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1