一种复合词挖掘方法及装置制造方法及图纸

技术编号:18406408 阅读:35 留言:0更新日期:2018-07-11 02:40
本发明专利技术公开了一种复合词挖掘方法及装置。该方法包括:获取词性序列集合;在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回获取词性序列集合的步骤。通过上述方式,本发明专利技术根据词性序列集合对语料中的复合词进行循环挖掘,可实现覆盖广的复合词挖掘。

A method and device for mining compound words

The invention discloses a method and device for mining compound words. The method includes: obtaining the set of word sequence; extracting the compound word of the word sequence conforming to the set of word sequence in the corpus and storing it to the first dictionary; judging whether it needs to be excavated again; if, the steps of getting the set of word sequence are returned. Through the above way, the invention can recycle the compound words in the corpus according to the POS sequence set, and can realize the extensive compound word mining.

【技术实现步骤摘要】
一种复合词挖掘方法及装置
本专利技术涉及文本信息处理
,特别涉及一种复合词挖掘方法及装置。
技术介绍
词典又作“辞典”,是收集词汇按某种顺序排列并加以解释供人检查参考的工具书。从内容来区分,有语文词典、专科词典和综合性词典之分。而在表现形式上,又分为纸质的词典和电子化的词典。一般随着信息的增长,需要不断地往词典中加入新词以满足需要。其中,随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,各种新词特别是复合新词不断诞生并被广泛地应用到实际生活中,影响着人们的生活。同时,这些新词呈现出覆盖领域广的特点,往往散落在海量的网页语料中,所以亟需找到一种覆盖广的挖掘新词特别是挖掘复合新词的方法,能够将这些新词从网页语料中挖掘出来。
技术实现思路
本专利技术主要解决的技术问题是提供一种覆盖广的复合词挖掘方法及装置。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种复合词挖掘方法,该方法包括步骤:获取词性序列集合;在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回获取词性序列集合的步骤。其中,在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的步骤之后,方法进一步包括步骤:判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复;若是,将词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列,其中简化是指对词性序列中至少一个词性的重复进行去重处理,得到简化型词性序列;根据词性序列集合复合简化型词性序列对应的复合词;将复合简化型词性序列对应的复合词而得到的词语存储至第一词典。其中,将复合简化型词性序列对应的复合词而得到的词语存储至第一词典的步骤包括:获取简化型词性序列对应的复合词在语料中出现的频次,视为第一频次,并且获取复合简化型词性序列对应的复合词而得到的词语在语料中出现的频次,视为第二频次;判断第二频次与第一频次之间的比值是否大于第一阈值;若比值大于第一阈值,则在第一词典中删除简化型词性序列对应的复合词并添加复合简化型词性序列对应的复合词而得到的词语;返回判断是否需要进行再次挖掘。其中,获取词性序列集合的步骤包括:判断第一词典中是否已存储有复合词;若否,则抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合;若是,则抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合。其中,抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合的步骤包括:利用分词工具对语料进行分词和词性标注;获取第二词典中复合词在语料中对应的多个词性序列;分别获取对应词性序列的复合词在语料中出现的频次,视为第三频次;判断第三频次是否大于第二阈值;若第三频次大于第二阈值,则存储词性序列至词性序列集合。其中,抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合的步骤包括:获取对应第一词典的词性序列集合;根据第一词典对语料进行分词和词性标注;获取第一词典中复合词在语料中对应的多个词性序列;分别获取对应词性序列的复合词在语料中出现的频次,视为第四频次;判断第四频次是否大于第三阈值;若第四频次大于第三阈值,则存储词性序列至词性序列集合。其中,在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的步骤包括:在语料中提取词性序列符合词性序列集合的复合词;获取复合词在语料中出现的频次,视为第五频次;判断第五频次是否大于第四阈值;若第五频次大于第四阈值,则存储复合词至第一词典。其中,判断是否需要进行再次挖掘的步骤具体为:判断添加至第一词典的复合词的总数是否大于第五阈值,若大于第五阈值,则判断为需要进行再次挖掘,否则判断为不需要进行再次挖掘。其中,判断是否需要进行复合词的再次挖掘的步骤具体为:判断是否达到预定的挖掘次数,若未达到预定的挖掘次数,则判断为需要进行再次挖掘,否则判断为不需要进行再次挖掘。其中,词性序列集合采用正则表达式描述。其中,所述方法还包括步骤:根据复合词在语料中出现的频次标识复合词为“热词-复合词”、“新词-复合词”或“复合词”。为解决上述技术问题,本专利技术采用的另一个技术方案是:提供一种复合词挖掘装置,该装置包括:获取模块,获取词性序列集合;第一匹配模块,在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;第一判断模块,判断是否需要进行复合词的再次挖掘。其中,装置进一步包括:第二判断模块,判断第一词典中的复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复;简化模块,当第二判断模块判断第一词典中的复合词对应的词性序列包括至少一个词性的N(N>=2)次重复时,将词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列;第二匹配模块,根据词性序列集合复合简化型词性序列对应的复合词并将复合简化型词性序列对应的复合词而得到的词语存储至第一词典。其中,获取模块包括:第一判断单元,判断第一词典中是否已存储有复合词;第一获取单元,当第一判断模块判断第一词典未存储复合词时,存储第二词典中复合词在语料中的频次大于第二阈值的词性序列至词性序列集合;第二获取单元,当第一判断模块判断第一词典存储有复合词时,存储第一词典中复合词在语料中的频次大于第三阈值的词性序列至词性序列集合。其中,装置进一步包括:标识模块,根据复合词在语料中出现的频次标识复合词为“热词-复合词”、“新词-复合词”或“复合词”。本专利技术的有益效果是:与现有技术相比,本专利技术复合词挖掘方法包括:获取词性序列集合;在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回获取词性序列集合的步骤。通过上述方式,本专利技术根据词性序列集合对语料中复合词进行循环挖掘,实现覆盖广的复合词挖掘。附图说明图1是本专利技术复合词挖掘方法第一实施方式的流程图;图2是本专利技术复合词挖掘方法第二实施方式的流程图;图3是图2中在语料中提取词性序列符合词性序列集合的复合词并存储至第一词典的流程图;图4是图2中将复合简化型词性序列对应的复合词而得到的词语存储至第一词典的流程图;图5是本专利技术复合词挖掘方法第三实施方式的流程图;图6是图5中抽取第二词典中复合词在语料中的频次大于第二阈值的词性序列并存储至词性序列集合的流程图;图7是图5中抽取第一词典中复合词在语料中的频次大于第三阈值的词性序列并存储至词性序列集合的流程图;图8是某一输入法的展示界面示意图;图9是本专利技术复合词挖掘装置第一实施方式的结构示意图。具体实施方式下面结合附图和实施方式对本专利技术进行详细说明。图1是本专利技术复合词挖掘方法第一实施方式的流程图。如图1所示,该方法包括步骤:S10、开始;S11、获取词性序列集合,并执行步骤S12;词性是词的一种属性,不同语言中的词都定义有一种或者多种不同的词性。例如:日语中的词分为动词、形容词、形容动词、名词、代词、数词、副词、连体词、连续词、感叹词、助动词和助词等词性。特别地,日语中的词性被称为“品词”。汉语中的词分为名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等词性。本文档来自技高网...

【技术保护点】
1.一种复合词挖掘方法,其特征在于,所述方法包括步骤:获取词性序列集合;在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回所述获取词性序列集合的步骤;其中,所述获取词性序列集合的步骤包括:判断所述第一词典中是否已存储有所述复合词;若否,则抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合;若是,则抽取所述第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合。

【技术特征摘要】
1.一种复合词挖掘方法,其特征在于,所述方法包括步骤:获取词性序列集合;在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典;判断是否需要进行再次挖掘;若是,返回所述获取词性序列集合的步骤;其中,所述获取词性序列集合的步骤包括:判断所述第一词典中是否已存储有所述复合词;若否,则抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合;若是,则抽取所述第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合。2.根据权利要求1所述的复合词挖掘方法,其特征在于,所述在语料中提取词性序列符合所述词性序列集合的复合词并存储至第一词典的步骤之后,所述方法进一步包括步骤:判断所述第一词典中的所述复合词对应的词性序列是否包括至少一个词性的N(N>=2)次重复;若是,将所述词性序列简化为包括至少一个词性的N-1(N>=2)次重复的简化型词性序列,其中所述简化是指对所述词性序列中至少一个词性的重复进行去重处理,得到所述简化型词性序列;根据所述词性序列集合复合所述简化型词性序列对应的复合词;将所述复合所述简化型词性序列对应的复合词而得到的词语存储至所述第一词典;返回所述判断是否需要进行再次挖掘。3.根据权利要求2所述的复合词挖掘方法,其特征在于,所述将所述复合所述简化型词性序列对应的所述复合词而得到的词语存储至所述第一词典的步骤包括:获取所述简化型词性序列对应的所述复合词在语料中出现的频次,视为第一频次,并且获取复合所述简化型词性序列对应的所述复合词而得到的词语在语料中出现的频次,视为第二频次;判断所述第二频次与所述第一频次之间的比值是否大于第一阈值;若所述比值大于所述第一阈值,则在所述第一词典中删除所述简化型词性序列对应的复合词,并添加复合所述简化型词性序列对应的所述复合词而得到的词语。4.根据权利要求1所述的复合词挖掘方法,其特征在于,所述抽取第二词典中复合词在所述语料中的频次大于第二阈值的词性序列并存储至词性序列集合的步骤包括:利用分词工具对所述语料进行分词和词性标注;获取第二词典中复合词在所述语料中对应的多个词性序列;分别获取对应所述词性序列的所述复合词在所述语料中出现的频次,视为第三频次;判断所述第三频次是否大于第二阈值;若所述第三频次大于所述第二阈值,则存储所述词性序列至所述词性序列集合。5.根据权利要求1所述的复合词挖掘方法,其特征在于,所述抽取第一词典中复合词在所述语料中的频次大于第三阈值的词性序列并存储至词性序列集合的步骤包括:获取对应所述第一词典的词性序列集合;根据所述第一词典对语料进行分词和词性标注;获取所述第一词典中复合词在所述语料中对应的多个词性序列;分别获取对应所述词性序列的所述复合词在所述语料中出现的频次,视为第四频次;判断所述第四频次是否大于所述第三阈值;若所述第...

【专利技术属性】
技术研发人员:吴先超陈晓昕何径舟黄鋆
申请(专利权)人:百度国际科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1