The invention discloses a method and device for mining compound words. The method includes: obtaining the set of word sequence; extracting the compound word of the word sequence conforming to the set of word sequence in the corpus and storing it to the first dictionary; judging whether it needs to be excavated again; if, the steps of getting the set of word sequence are returned. Through the above way, the invention can recycle the compound words in the corpus according to the POS sequence set, and can realize the extensive compound word mining.
【技术实现步骤摘要】
一种复合词挖掘方法及装置
本专利技术涉及文本信息处理
,特别涉及一种复合词挖掘方法及装置。
技术介绍
词典又作“辞典”,是收集词汇按某种顺序排列并加以解释供人检查参考的工具书。从内容来区分,有语文词典、专科词典和综合性词典之分。而在表现形式上,又分为纸质的词典和电子化的词典。一般随着信息的增长,需要不断地往词典中加入新词以满足需要。其中,随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,各种新词特别是复合新词不断诞生并被广泛地应用到实际生活中,影响着人们的生活。同时,这些新词呈现出覆盖领域广的特点,往往散落在海量的网页语料中,所以亟需找到一种覆盖广的挖掘新词特别是挖掘复合新词的方法,能够将这些新词从网页语料中挖掘出来。
技术实现思路
本专利技术主要解决的技术问题是提供一种覆盖广的复合词挖掘方法及装置。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种复合词挖掘方法,该方法包括步骤:获取词性序列集合;在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回获取词性序列集合的步骤。其中,在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的步骤之后,方法进一步包括步骤:判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复;若是,将词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列,其中简化是指对词性序列中至少一个词性的重复进行去重处理,得到简化型词性序列;根据词性序列集合复合简化型词性序列对应的复合词;将复合简化型词性序 ...
【技术保护点】
1.一种复合词挖掘方法,其特征在于,所述方法包括步骤:获取词性序列集合;在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回所述获取词性序列集合的步骤;其中,所述获取词性序列集合的步骤包括:判断所述第一词典中是否已存储有所述复合词;若否,则抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合;若是,则抽取所述第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合。
【技术特征摘要】
1.一种复合词挖掘方法,其特征在于,所述方法包括步骤:获取词性序列集合;在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回所述获取词性序列集合的步骤;其中,所述获取词性序列集合的步骤包括:判断所述第一词典中是否已存储有所述复合词;若否,则抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合;若是,则抽取所述第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合。2.根据权利要求1所述的复合词挖掘方法,其特征在于,所述在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典的步骤之后,所述方法进一步包括步骤:判断所述第一词典中的所述复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复;若是,将所述词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列,其中所述简化是指对所述词性序列中至少一个词性的重复进行去重处理,得到所述简化型词性序列;根据所述词性序列集合复合所述简化型词性序列对应的复合词;将所述复合所述简化型词性序列对应的复合词而得到的词语存储至所述第一词典;返回所述判断是否需要进行再次挖掘。3.根据权利要求2所述的复合词挖掘方法,其特征在于,所述将所述复合所述简化型词性序列对应的所述复合词而得到的词语存储至所述第一词典的步骤包括:获取所述简化型词性序列对应的所述复合词在语料中出现的频次,视为第一频次,并且获取复合所述简化型词性序列对应的所述复合词而得到的词语在语料中出现的频次,视为第二频次;判断所述第二频次与所述第一频次之间的比值是否大于第一阈值;若所述比值大于所述第一阈值,则在所述第一词典中删除所述简化型词性序列对应的复合词,并添加复合所述简化型词性序列对应的所述复合词而得到的词语。4.根据权利要求1所述的复合词挖掘方法,其特征在于,所述抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合的步骤包括:利用分词工具对所述语料进行分词和词性标注;获取第二词典中复合词在所述语料中对应的多个词性序列;分别获取对应所述词性序列的所述复合词在所述语料中出现的频次,视为第三频次;判断所述第三频次是否大于第二阈值;若所述第三频次大于所述第二阈值,则存储所述词性序列至所述词性序列集合。5.根据权利要求1所述的复合词挖掘方法,其特征在于,所述抽取第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合的步骤包括:获取对应所述第一词典的词性序列集合;根据所述第一词典对语料进行分词和词性标注;获取所述第一词典中复合词在所述语料中对应的多个词性序列;分别获取对应所述词性序列的所述复合词在所述语料中出现的频次,视为第四频次;判断所述第四频次是否大于所述第三阈值;若所述第...
【专利技术属性】
技术研发人员:吴先超,陈晓昕,何径舟,黄鋆,
申请(专利权)人:百度国际科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。