当前位置: 首页 > 专利查询>清华大学专利>正文

获取新词的方法和装置制造方法及图纸

技术编号:3846667 阅读:200 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种获取新词的方法和装置,属于计算机技术领域。所述方法包括:根据输入法词典获取专业领域的专业用户;从所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。所述装置包括:第一获取模块、第二获取模块、第一确定模块和第二确定模块。本发明专利技术实施例获取专业领域的新词、提高算法效率,增加实用性。

【技术实现步骤摘要】

本专利技术涉及计算枳4支术领域,特别涉及一种获耳又新词的方法和装置。
技术介绍
随着信息化技术的迅猛发展,互联网上的信息量呈现指数爆炸型增长趋势,大量的网络新词随之产生。通常在某些热门事件产生后,往往有不少与之相关的新词产生,并在人们的日常生活中持续一定的热度,例如"打酱油"、"俯卧撑"、"躲猫猫"等词。互联网上的新词往往呈现产生速度快,覆盖领域广的特点,如何获取这些新词,并使之服务于信息处理领域,成为一个迫切的需求和热门的研究方向。为了能够获取新词,现有技术提供了如下两种方法第一种方法,利用搜索引擎统计侯选新词的频率信息,根据频率信息并结合基于分析侯选新词上下文的规则,从侯选新词中获取新词。第二种方法,利用搜索引擎对侯选新词进行精确搜索和模糊搜索,获取搜索的结果,根据结果从侯选新词中获取新词。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题第一种方法,不能够获取专业领域的新词,具有局限性;获取长度较长的新词的准确性较低。第二种方法,在搜索引擎中对每一个候选新词进行搜索,算法效率低,实用性差。
技术实现思路
为了能够获取专业领域的新词,准确地获取长度较长的新词,提高算法算法效率以及增加实用性,本专利技术实施例提供了一种获取新词的方法和装置。所述技术方案如下一种获^F又新词的方法,所述方法包括根据输入法词典和专业领域词典获取专业领域的专业用户;根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;将所述侯选新词与所述专业领域词典中的词进行比4交,确定所述专业领域词典中不存在的侯选新词为新词。所述才艮据输入法词典和专业领域词典获取专业领域的专业用户之前,还包括乂人所述专业领i或词典去除噪音词的步骤,所述步骤包才舌根据所述输入法词典统计使用所述专业领域词典中的词的用户个数占所有用户的第一比例值;去除所述专业领域词典中所述第一比例值小于第一阈值的词和所述第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。根据输入法词典和专业领域词典获取专业领域的专业用户,包括根据输入法词典统计所述用户使用所述专业领域词典中的词的数量;根据所述词的数量确定所述用户使用所述专业领域词典的词的第 一频率值;石角定所述第一频率值超过第三阈值的用户为>斤述专业用户。所述根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词,包括确定所述专业用户使用所述侯选词的第二频率值;确定所述普通用户使用所述候选词的第三频率值;根据所述第二频率值与所述第三频率值获取所述侯选词的第二比例值;根据所述第二比例值从所述候选词中获取所述侯选新词。所述根据所述第二比例值,人所述侯选词中获取侯选新词包括对所述侯选词按所述第二比例值进行排序;按照从大到小的顺序从所述排序后的候选词中获取前预设个数的候选词作为所述侯选新词,或确定所述第二比例值大于第四阈值的候选词作为所述侯选新词。一种获取新词的装置,所述装置包括第一获取模块,用于根据输入法词典和专业领域词典获取专业领域的专业用户;第二获取模块,用于根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;第 一确定模块,用于根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;第二确定模块,用于将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。所述装置还包括用户个数占所有用户的第一比例值;去除所述专业领域词典中所述第一比例值小于第一阈值的词和所述第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。所述第一获取模块包括统计单元,用于根据所述输入法词典统计所述用户使用所述专业领域词典中的词的数量;第一确定单元,用'于根据所述词的数量确定所述用户使用所述'专业领域词典的词的第一频率值;第二确定单元,用于确定所述第一频率值超过第三阈值的用户为所述专业用户。所述第一确定模块包括第三确定单元,用于确定所述专业用户使用所述侯选词的第二频率值;第四确定单元,用于确定所述普通用户^f吏用所述候选词的第三频率值;笫一获取单元,用于根据所述第二频率值与所述第三频率值获取所述侯选词的第二比例值;第二获取单元,用于根据所述第二比例值从所述候选词中获取所述侯选新词。所述第二获取单元,包括排序子单元,用于对所述侯选词:接所述第二比例值进行排序;获取子单元,用于按照从大到小的顺序从所述排序后的候选词中获取前预设个数的候选词作为所述侯选新词,或确定所述第二比例值大于第四阈值的候选词作为所迷侯选新词。本专利技术实施例,根据输入法词典和专业领域词典获取专业用户,才艮据输入法词典获取专业用户使用的词为侯选词,根据专业用户和普通用户使用侯选词的频率情况获取侯选新词,确定专业领域词典中不存在的侯选新词为新词,能够获取专业领域的新词,能够准确地获取长度较长的新词,提高了算法的效率,增加实用性。附图说明图l是本专利技术实施例提供的一种获取新词的方法流程图;图2是本专利技术实施例提供的一种获取新词的方法详细流程图;图3是本专利技术实施例提供的一种获取新词的装置示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例1 '如图l所示,本专利技术实施例提供了一种获取新词的方法,包括步骤101:根据输入法词典和专业领域词典获取专业领域的专业用户;其中,根据输入法词典和专业领域词典获取专业领域的专业用户的详细过程参见实施例2的步骤202的相应部分,在此不再赘述。专业领域指特定专业的领域,如计算才几领域、通信领域等;专业用户是专业领域中的/人业人员,如计算机领域的软件设计师、网络工程师等;输入法词典用于存储用户使用的词的集合,用户包括专业用户和普通用户;专业领域词典用于存储专业领域的词的集合,如计算斗几领域词典用于存储显卡、声卡等计算才几领域的词。步骤102:根据输入法词典获取专业用户使用的词,将获取的词作为专业领域的侯选词;其中,根据专业用户获取专业领域的侯选词的详细过程参见实施例2的步骤203的相应部分,在此不再赘述。步骤103:根据专业用户和普通用户使用候选词的频率情况从候选词中获取候选新词;其中,根据专业用户和普通用户使用侯选词的频率情况获取侯选新词的详细过程参见实施例2的步骤204-步骤207的相应部分,在此不再赘述。步骤104:将侯选新词与专业领域词典中的词进行比较,确定专业领域词典中不存在的侯选新词为新词。在本专利技术实施例中,通过专业领域词典获取专业用户,根据专业用户从输入法词典中获取专业领域的侯选词,根据专业用户和普通用户使用侯选词的频率情况获取侯选新词,确定专业领域词典中不存在的侯选新词为新词,从而能够获取专业领域的新词,能够准确地获取长度较长的新词,算法执行效率高,实用性强。实施例2如图2所示,本专利技术实施例提供了一种获取新词的方法,包括步骤201:去除专业领域词典中的噪音词。其中,专业领域的词被整个用户使用本文档来自技高网...

【技术保护点】
一种获取新词的方法,其特征在于,所述方法包括: 根据输入法词典和专业领域词典获取专业领域的专业用户; 根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用 户包括专业用户和普通用户; 根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词; 将所述侯选新词与所述专业领域词典中的词进行比对,确定所述专业领域词典中不存在的侯选新词为新词。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑亚斌刘知远孙茂松茹立云张扬
申请(专利权)人:清华大学北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1