一种基于统计信息和序列标注的领域新词识别方法技术

技术编号:16644638 阅读:71 留言:0更新日期:2017-11-26 17:03
本发明专利技术提供了一种基于统计信息和序列标注的领域新词识别方法。该方法通过分别采用文本统计信息和CRF字序列标注方法识别可能的新词,并基于背景语料进行过滤;将两种识别算法的结果综合作为种子新词;将种子新词代入到文本中消除交迭的候选新词,最终选出最优的领域新词列表。该方法可以排除原始文本中一个位置识别出多个候选新词的错误。同时通过引入背景语料库,可以解决统计方法会将语言中较常见的词语组合误认为领域新词的问题。另外,通过结合两种新词发现方法并减少频率的影响,相比较现有的方法更为准确地识别出某些低频率的领域新词。因此,本发明专利技术能够提升对低频率的领域新词识别的准确性,并能够较大程度提高领域新词识别的精度。

A new domain word recognition method based on statistical information and sequence annotation

The present invention provides a new domain word recognition method based on statistical information and sequence annotation. The method by using text statistics and CRF word sequence annotation method to identify possible new words, and based on the background of data filtering; the results of two kinds of recognition algorithm as seed to seed new words into a new word; candidate word overlap elimination in the text, the final list of new words is to select the optimal field. This method can eliminate the error of identifying several candidate new words in one position of the original text. At the same time, by introducing the background corpus, we can solve the problem that the statistical methods will make the common word combinations in language mistaken for the new words in the field. In addition, by combining the two new word discovery methods and reducing the impact of frequency, the existing methods can identify some low-frequency domain words more accurately. Therefore, the invention can improve the accuracy of identifying new words in low frequency domain, and can improve the accuracy of the recognition of new words in the field.

【技术实现步骤摘要】
一种基于统计信息和序列标注的领域新词识别方法
本专利技术涉及信息检索与查询领域,尤其涉及一种基于统计信息和序列标注的领域新词识别方法。
技术介绍
与英语等西方语言不同,汉语书面语书写时词语之间没有明确的分隔符号。而在人们的认识中,汉语的语义又是以词为单位的。因此,准确识别出汉语词语是汉语的自然语言处理中重要的一步。对于计算机,汉语中的词语通常是由词典以及少量构词规则来界定的.然而一方面,随着社会的发展变化。新词语不断产生;另一方面,自然语言处理技术被不断地运用于各个专业领域,专业领域包含有大量领域词语。这些原有词典没有的新词语都对自然语言处理提出了挑战。领域新词是某一领域相关的文本所特有的,通用词典所不包含的词。领域新词识别技术在自然语言处理中有着广泛的应用。对于提高领域文本在信息检索、信息抽取、本体构建、文本分类聚类等应用中的精度都有着重要的作用。目前、从批量文本中识别新术语主要有以下两种:(1)基于统计信息的领域新词识别方法,主要是根据词语内部关联程度较高的特征识别领域新词,一般采用统计学以及信息论中的相关方法。通常的流程是:用统计学中的方法建立起文本的统计信息,根据统计结果对候本文档来自技高网...
一种基于统计信息和序列标注的领域新词识别方法

【技术保护点】
一种基于统计信息和序列标注的领域新词识别方法,其特征在于,包括以下步骤:1)对背景语料库统计词语和频次,以获取背景词频词典和背景二元接续频率词典,所述背景语料库为经过分词处理和人工校对的语料库;2)对用户提供的待分析文本进行分句,然后根据背景语料库包含的词语,采用基于步骤1)中的词典的中文分词算法对分句后的文本进行分词处理以获取多个分词单位,对多个分词单位进行后处理,得到分词结果1;3)将分词结果1中满足候选字串条件的连续分词单位串作为候选字串;4)计算步骤3)中每个候选字串的内聚程度和使用自由度;5)根据背景语料库计算每个候选字串的词组概率;6)根据步骤4)和步骤5)计算所得的参数,计算每个...

【技术特征摘要】
1.一种基于统计信息和序列标注的领域新词识别方法,其特征在于,包括以下步骤:1)对背景语料库统计词语和频次,以获取背景词频词典和背景二元接续频率词典,所述背景语料库为经过分词处理和人工校对的语料库;2)对用户提供的待分析文本进行分句,然后根据背景语料库包含的词语,采用基于步骤1)中的词典的中文分词算法对分句后的文本进行分词处理以获取多个分词单位,对多个分词单位进行后处理,得到分词结果1;3)将分词结果1中满足候选字串条件的连续分词单位串作为候选字串;4)计算步骤3)中每个候选字串的内聚程度和使用自由度;5)根据背景语料库计算每个候选字串的词组概率;6)根据步骤4)和步骤5)计算所得的参数,计算每个候选字串的成词评分,将成词评分大于预设阈值T1的候选字串作为候选新词集合1,所述候选新词集合1为候选新词的集合,包括候选新词的词形、出现频次和得分;7)对用户提供的待分析文本进行分句,然后根据背景语料库包含的词语,采用基于字标注的分词方法,对分句后的文本进行分词处理以获取多个分词单位,对多个分词单位进行后处理,得到分词结果2;8)利用步骤1)中背景预料词典对分词结果2中的分词单位进行筛选,统计未在背景语料词典中出现且不满足停用词规则的分词单位出现的频次,得到候选新词集合2,所述候选新词集合2为候选新词的集合,包括候选新词的词形和出现频次;9)分别取步骤6)中候选新词集合1中k个得分最高的候选新词和步骤8)中候选新词集合2中k个频次最高的候选新词,并取两者的并集或者交集,作为种子候选新词集合;10)根据步骤9)种子候选新词集合所采用的并集或交集方式来获取待验证新词集合,具体包括:若步骤9)中种子候选新词集合由取并集方式得到,则将种子候选新词集合和候选新词集合1取并集方式来获取待验证新词集合;若步骤9)中种子候选新词集合由取交集方式得到,则将候选新词集合1作为待验证新词集合。11)将步骤9)的种子候选新词集合代入分词结果1中,并调整步骤10)中待验证新词集合中新词的出现频次。12)遍历待验证新词集合,保留待验证新词集合中频次大于1的新词,得到最终的领域新词列表。2.根据权利要求1所述的一种基于统计信息和序列标注的领域新词识别方法,其特征在于,所述步骤2)和步骤7)中后处理包括:将分词处理后文本中含有中文数字时间的连续分词单位串合并为一个分词单位;将分词处理后文本中含有英文字母、数字、连字符和下划线中的任意两种及以上的连续分词单位串合并为一个分词单位。3.根据权利要求1所述的一种基于统计信息和序列标注的领域新词识别方法,其特征在于,所述步骤3)中候选字串同时满足以下条件:3.1)候选字串为经过步骤2)处理后的以汉字开始的连续分词单位串,或者为经过步骤2)处理后的由英文字母、数字、连字符和下划线中任意两种及以上的连续分词单位串合并成的一个分词单位;3.2)候选字串为经过步骤2)处理后长度为2-4个分词单位且含有至少一个长度为1的分词单位的包含汉字的连续分词单位串;3.3)候选字串为经过步骤2)处理后不含有停用词和标点符号的连续分词单位串,所述停用词包括常用助词、介词、多字助动词、中文数字时间词和中文数量词。4.根据权利要求1所述的一种基于统计信息和序列标注的领域新词识别方法,其特征在于,所述步骤4)中内聚程度采用候选字串各种划分间三次点互信息值的最小值,假设候选字串S由分词单位s0s1…sisi+1…sn组成,则候选字串S内聚程度计算公式为:其中,MinMI3(S)是候选字串S的内聚程度,P(S)为候选字串S出现在待分析文本中的概率,s1…si,si+1…sn为候选字串S的一种划分,P(s1…si)为字串s1…si出现在待分析文本中的概率。5.根据权利要求1所述的一种基于统计信息和序列标注的领域新词识别方法,其特征在于,所述步骤4)中使用自由程度采用归一化的邻接变化数进行计算,候选字串S的归一化的邻接变化数计算方式为:

【专利技术属性】
技术研发人员:李辰刚王清琛
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1