一种未登录词识别方法技术

技术编号：18426244 阅读：16 留言：0更新日期：2018-07-12 01:58

本申请提供了一种未登录词识别方法，该方法采用规则和统计相结合的方法识别未登录词；规则将词汇特征和工程招标领域的领域知识等很好的融入到识别未登录词的过程中，统计的方法可以较好的捕捉统计信息，选择文本信息中出现频繁的词；规则和统计相结合的识别方案能够提高未登录词识别效率和准确度。

An unregistered word recognition method

This application provides an unregistered word recognition method, which uses the method of combining rules and statistics to identify the unregistered words; the rules integrate the lexical features and the domain knowledge of the engineering bidding field well into the process of identifying the unregistered words. The statistical method can better capture the statistical information and select the text letter. Frequent occurrences of words in the message; the combination of rules and statistics can improve the recognition efficiency and accuracy of unknown words.

全部详细技术资料下载

【技术实现步骤摘要】
一种未登录词识别方法
本专利技术涉及自然语言处理领域，特别涉及一种未登录词识别方法。
技术介绍
自然语言处理一般以词为单位“理解”语言的含义，首要的任务就是分词。在中文信息处理的众多领域，均需要基于词典完成对应的功能。通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等，其中每个过程都是通过词语为最小单位进行计算，计算的基础为词语词典，所以词语词典构建对于整个系统的性能有着很大的影响。许多分词算法都是在假设词典完备的情况下设计的，其实很多时候这一假设并不成立。随着社会和互联网的不断发展，新词语不断在日常生活中涌现，专业领域的词汇也鲜有出现在通用基础词典中。未登录词被定义为未在词典中出现的词，包括出现的新词语以及包括领域专业词汇等。由于未登录词造成的分词错误远远超过歧义切分字段引发的错误。特别是在特定领域内，及时更新词典对词语词典所在的应用系统效率有着决定性的影响，词典的规模及质量直接关系到相关应用的性能。分词词典的构建和扩充方法有人工构建的方法和自动生成方法。采用人工构建的方式向词典中添加未登录词，人工构建的方法准确率高，但是需要大量的领域专家长时间参与，人工成本和时间成本太高，且缺乏实时性。自动生成的方法通过分析词汇在不同领域语料库中统计特性的差异，判定词汇的领域属性，该方法无需领域专家的参与，节省了大量的人工成本，但是词典收录的准确率不高。因此，如何自动识别不断在日常生活中涌现的未登录词，并加入到词典中，是自然语言处理的一项基础性的工作。未登录词的识别是其中面临的一个较大困难，也是影响分词精度的主要因素之一。在未登录词发现方法方面，目前主要有...

【技术保护点】
1.一种未登录词识别方法，其特征在于，该方法包括：获取超文本标记语言HTML网页信息，并解析成文本信息；对所述文本信息，使用分词器进行汉语自动分词，将未能进行命名实体识别的词作为候选词存储到候选词库中；对所述候选词库，使用切分标记库和排除字集进行过滤；针对当前候选词库中的每个候选词，与在文本信息中相邻的候选词构造组合词，并使用前缀字集、后缀字集、以及配置的词性组合规则进行过滤；将未被过滤的组合词在所述文本信息中出现的频次低于预设组合词词频阈值的组合词作为未登录词存储到备用字典中；并将存储到备用字典中的组合词，以及被过滤掉的组合词对应的候选词从当前候选词库中删除；针对当前候选词库中的每个候选词，与在文本信息中相邻的候选词进行互信息熵计算，将互信息熵大于预设互信息熵阈值的候选词保留在候选词库中；针对当前候选词库中的每个候选词，计算该候选词的边界信息熵，将由于信息熵大于预设边界熵阈值而不能与对应边界候选词进行词组合的候选词过滤；使用停用词集过滤未通过边界信息熵过滤掉的组合词；并将未被停用词集过滤掉的组合词，作为未登录词增加到备用字典中。

【技术特征摘要】
1.一种未登录词识别方法，其特征在于，该方法包括：获取超文本标记语言HTML网页信息，并解析成文本信息；对所述文本信息，使用分词器进行汉语自动分词，将未能进行命名实体识别的词作为候选词存储到候选词库中；对所述候选词库，使用切分标记库和排除字集进行过滤；针对当前候选词库中的每个候选词，与在文本信息中相邻的候选词构造组合词，并使用前缀字集、后缀字集、以及配置的词性组合规则进行过滤；将未被过滤的组合词在所述文本信息中出现的频次低于预设组合词词频阈值的组合词作为未登录词存储到备用字典中；并将存储到备用字典中的组合词，以及被过滤掉的组合词对应的候选词从当前候选词库中删除；针对当前候选词库中的每个候选词，与在文本信息中相邻的候选词进行互信息熵计算，将互信息熵大于预设互信息熵阈值的候选词保留在候选词库中；针对当前候选词库中的每个候选词，计算该候选词的边界信息熵，将由于信息熵大于预设边界熵阈值而不能与对应边界候选词进行词组合的候选词过滤；使用停用词集过滤未通过边界信息熵过滤掉的组合词；并将未被停用词集过滤掉的组合词，作为未登录词增加到备用字典中。2.根据权利要求1所述的方法，其特征在于，所述针对当前候选词库中的每个候选词，与在文本信息中相邻的候选词构造组合词，并使用前缀字集、后缀字集、以及配置的词性组合规则进行过滤；包括：针对每个候选词，分别构造2元组合词、3元组合词和4元组合词；针对构造的2元组合词，使用前缀字集过滤组合词中位于词尾的候选词，并使用对应的二元词性组合规则进行过滤；针对3元组合词，使用前缀字集分别过滤组合词中位于词头之外的两个候选词；使用后缀字集过滤组合位于组合词中词尾的候选词；并使用对应的三元词性组合规则进行过滤；针对4元组合词，使用前缀字集分别过滤组合词中位于词头之外的三个候选词，并使用对应的三元词性组合规则进行过滤；其中，配置的词性组合规则，包括：二元词性组合规则、三元词性组合规则和四元词性组合规则。3.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：若过滤后的二元组合词属于过滤后的三元组合词或四元组合词的一部分，则将该二元组合词过滤；若过滤后的三元组合词属于过滤后的四元组合词的一部分，则将该三元组合词过滤。4.根据权利要求1所述的方法，其特征在于，所述针对当前候选词库中的每个候选词，与...

【专利技术属性】
技术研发人员：张春荣，韦玮，
申请(专利权)人：普天信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人