【技术实现步骤摘要】
分词方法、装置以及计算机可读存储介质
本公开涉及互联网
,特别涉及一种分词方法、装置以及计算机可读存储介质。
技术介绍
随着互联网技术的发展和人工智能的发展,自然语言处理技术取得了很大进步。分词算法是自然语言处理中比较基础的部分,对语料进行分词,分词的结果可以应用于搜索、语义分析等各种领域,因此,分词算法的准确性与效率对于应用非常重要。目前,常用于分词的算法包括基于字符串匹配的分词算法,基于理解的分词算法等。
技术实现思路
专利技术人发现:上述基于字符串匹配的分词算法,准确性较低,并且无法解决歧义词和新词的划分的问题,而基于理解的分词算法目前还在尝试阶段,实现比较困难,准确性也较差。并且,上述两种算法针对具体应用场景都无法识别特有的词语,造成分词效果不佳。本公开所要解决的一个技术问题是:如何提高分词的准确性。根据本公开的一些实施例,提供的一种分词方法,包括:根据应用场景构建分词词库,分词词库中包括与应用场景对应的自定义词语;利用分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。在一些实 ...
【技术保护点】
1.一种分词方法,包括:根据应用场景构建分词词库,所述分词词库中包括与应用场景对应的自定义词语;利用所述分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。
【技术特征摘要】
1.一种分词方法,包括:根据应用场景构建分词词库,所述分词词库中包括与应用场景对应的自定义词语;利用所述分词词库对训练语料进行标注;利用标注后的训练语料对隐马尔可夫模型进行训练,以便利用训练好的隐马尔可夫模型对待分词的语料进行分词。2.根据权利要求1所述的分词方法,其中,所述利用所述分词词库对训练语料进行标注包括:通过训练语料与所述分词词库中的词语进行匹配,将所述训练语料进行分词;根据分词后的训练语料中每个字在词语中的位置,对每个字标注状态,所述状态包括:词头、词中、词尾和单字。3.根据权利要求2所述的分词方法,其中,所述利用标注后的训练语料对隐马尔可夫模型进行训练包括:根据标注后的训练语料统计同一个字在不同状态下的概率作为该字的标注概率;将所述训练语料输入所述隐马尔可夫模型得到同一个字在不同状态下的概率作为该字的训练概率;根据各个字的标注概率与训练概率误差,调整所述隐马尔可夫模型的参数,直至所述误差达到最小,则得到训练好的隐马尔可夫模型。4.根据权利要求1所述的分词方法,其中,所述训练语料和所述待分词的语料是根据停用词表去除停用词后的语料;其中,所述训练语料和所述待分词的语料被划分为多个弹性分布式数据集,所述停用词表被设置为广播变量,在各个弹性分布式数据集中被并行调用,执行对每个弹性分布式数据集中训练语料或待分词的语料去除停用词的步骤。5.根据权利要求1所述的分词方法,其中,所述训练语料被划分为多个弹性分布式数据集,所述分词词库被设置为广播变量;所述利用所述分词词库对训练语料进行标注包括:在每个弹性分布式数据集中调用所述广播变量中的分词词库,对每个弹性分布式数据集中的训练语料并行进行标注。6.根据权利要求1所述的分词方法,其中,还包括:将待分词的语料划分为多个弹性分布式数据集;在每个弹性分布式数据集中调用所述训练好的隐马尔可夫模型,对每个弹性分布式数据集中的待分词的语料并行进行分词;将各个弹性分布式数据集中的待分词的语料的分词结果进行组合,得到所述待分词的语料的分词结果。7.根据权利要求6所述的分词方法,其中,调用训练好的隐马尔可夫模型对待分词的语料进行分词包括:将所述待分词的语料输入训练好的隐马尔可夫模型,得到所述待分词的语料中每个字在每种状态下的概率矩阵,每两个字之间的状态转移概率矩阵,以及初始概率矩阵;根据所述每个字在每种状态下的概率矩阵,每两个字之间的状态转移概率矩阵,以及初始概率矩阵,利用维特比算法确定每个字对应的状态;根据每个字对应的状态进行分词,得到分词结果。8.一种分词装置,包括:词库构建模块,用于根据应用场景构建分词词库,所述分词词库中包括与应用场景对应的自定义词语;标注模...
【专利技术属性】
技术研发人员:王颖帅,李晓霞,苗诗雨,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。