一种分词工具处理方法及其相关设备技术

技术编号:34263321 阅读:23 留言:0更新日期:2022-07-24 14:19
本申请提供了一种分词工具处理方法,包括:获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;使用目标分词工具对所述目标文本库内的所述多个目标文本进行处理,得到处理结果;确定所述处理结果中所包括的连续单字词;依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库。通过上述方式使得分词提取工具可以基于目标文本库提取出其特有的专业名词,从而使得分词工具更加符合目标文本库的适用环境,可以适应特定行业的使用需求,进而使得分词工具的适用性更广,表现更好。现更好。现更好。

A word segmentation tool processing method and its related equipment

【技术实现步骤摘要】
一种分词工具处理方法及其相关设备


[0001]本申请属于互联网领域,尤其涉及一种分词工具处理方法及其相关设备。

技术介绍

[0002]分词又叫做词条化(tokenlize),指的是将原始的字符流转换成一个一个词条(token)的过程。词条化属于自然语言处理中预处理的一个步骤,它是分析语义的基础。下面是一个词条化的例子。
[0003]文本1:hello world
[0004]文本2:hello tom
[0005]那么分词工具会将这两个文本分词。
[0006]文本1:hello和world
[0007]文本2:hello和tom
[0008]这时候用户搜索“hello jerry”,经过分词后为:hello和jerry
[0009]其中hello能匹配到文本1和文本2的分词hello,那么就认为文本1和文本2是和搜索相关的。如果用户搜索“tom and jerry”,经过分词后为:tom、 and、jerry其中tom能匹配到文本2,而没有一个分词能匹配到文本1的分词,那么lucene认为只有文本2和搜索相关。
[0010]以上是英文分词并进行搜索的过程,实际上中文分词相较之下要复杂得多,比如文本“今天天气真不错”,我们可以辨别出其中“今天”、“天气”、“真不错”是三个分词。然而这对机器来说却是很困难的,机器难以辨别哪些字是一个词。为此需要引入分词工具,比如IK分词工具,它自带一个词库,里面包含了大部分常用中文词,比如上面所提到的“今天”、“天气”等。经过IK 分词工具后,文本会被分词为词库中的词,具体分词逻辑可参照现有技术,了解IK分词工具能将一段文本中在词库里的词提取出来即可。
[0011]然而很明显这一方案有局限性,IK的分词词库不可能做到包含中文所有的词,中文在不断发展,总会有新的词语产生,进而容易导致某些词无法被识别出来,造成分词工具的使用不便。

技术实现思路

[0012]本申请实施例第一方面提供了一种分词工具处理方法,包括:
[0013]获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;
[0014]使用目标分词工具对所述目标文本库内的所述多个目标文本进行处理,得到处理结果;
[0015]确定所述处理结果中所包括的连续单字词;
[0016]依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库。
[0017]基于本申请实施例第一方面所提供的分词工具处理方法,可选的,所述目标分词
工具为IK分词工具。
[0018]基于本申请实施例第一方面所提供的分词工具处理方法,可选的,依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库,包括:
[0019]判断所述连续单字词的出现数量是否超出预设值;
[0020]若所述连续单字词的出现数量超出预设值,则将所述连续单字词合并得到所述多字词;
[0021]若所述连续单字词的出现数量未超出预设值,则结束流程;
[0022]添加所述多字词至所述目标分词工具的预设词库。
[0023]基于本申请实施例第一方面所提供的分词工具处理方法,可选的,所述添加所述多字词至所述目标分词工具的预设词库,包括:
[0024]添加所述多字词至疑似词库;
[0025]对所述疑似词库内的所述多字词进行确认,得到目标多字词;
[0026]添加所述目标多字词至所述目标分词工具的预设词库。
[0027]本申请实施例第二方面提供了一种分词工具处理设备,包括:
[0028]获取单元,用于获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;
[0029]处理单元,用于使用目标分词工具对所述目标文本库内的所述多个目标文本进行处理,得到处理结果;
[0030]确定单元,用于确定所述处理结果中所包括的连续单字词;
[0031]添加单元,用于依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库。
[0032]基于本申请实施例的第二方面所提供的分词工具处理设备,可选的,所述目标分词工具为IK分词工具。
[0033]基于本申请实施例的第二方面所提供的分词工具处理设备,可选的,所述添加单元具体用于:
[0034]判断所述连续单字词的出现数量是否超出预设值;
[0035]若所述连续单字词的出现数量超出预设值,则将所述连续单字词合并得到所述多字词;
[0036]若所述连续单字词的出现数量未超出预设值,则结束流程;
[0037]添加所述多字词至所述目标分词工具的预设词库。
[0038]本申请实施例第三方面提供了一种分词工具处理设备,包括:
[0039]中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;
[0040]所述存储器为短暂存储存储器或持久存储存储器;
[0041]所述中央处理器配置为与所述存储器通信,在所述设备上执行所述存储器中的指令操作以执行本申请实施例第一方面中任意一项所述的方法。
[0042]本申请实施例第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面中任意一项所述的方法。
[0043]本申请实施例第五方面提供了一种包含指令的计算机程序产品,当其在计算机上
运行时,使得计算机执行如本申请实施例第一方面中任意一项所述的方法。
[0044]从以上技术方案可以看出,本申请实施例具有以下优点:本申请提供了一种词工具处理方法,包括:获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;使用目标分词工具对所述目标文本库内的所述多个目标文本进行处理,得到处理结果;确定所述处理结果中所包括的连续单字词;依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库。通过上述方式使得分词提取工具可以基于目标文本库提取出其特有的专业名词,从而使得分词工具更加符合目标文本库的适用环境,可以适应特定行业的使用需求,进而使得分词工具的适用性更广,表现更好。
附图说明
[0045]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。可以理解的是,本部分所提供的附图仅用于更好地理解本方案,不构成对本申请的限定。
[0046]图1为本申请所提供的分词工具处理方法实施例的一个流程示意图。
[0047]图2为本申请所提供的分词工具处理方法实施例的另一个流程示意图。
[0048]图3为本申请所提供的分词工具处理设备实施例的一个结构示意图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词工具处理方法,其特征在于,包括:获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;使用目标分词工具对所述目标文本库内的所述多个目标文本进行处理,得到处理结果;确定所述处理结果中所包括的连续单字词;依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库。2.根据权利要求1所述的分词工具处理方法,其特征在于,所述目标分词工具为IK分词工具。3.根据权利要求1所述的分词工具处理方法,其特征在于,依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库,包括:判断所述连续单字词的出现数量是否超出预设值;若所述连续单字词的出现数量超出预设值,则将所述连续单字词合并得到所述多字词;若所述连续单字词的出现数量未超出预设值,则结束流程;添加所述多字词至所述目标分词工具的预设词库。4.根据权利要求3所述的分词工具处理方法,其特征在于,所述添加所述多字词至所述目标分词工具的预设词库,包括:添加所述多字词至疑似词库;对所述疑似词库内的所述多字词进行确认,得到目标多字词;添加所述目标多字词至所述目标分词工具的预设词库。5.一种分词工具处理设备,其特征在于,包括:获取单元,用于获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;处理单元,用于使用目标分词工具对所述目标文本库内的所述多个目标文...

【专利技术属性】
技术研发人员:王国彬牟锟伦齐帅余泽辉
申请(专利权)人:土巴兔集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1