【技术实现步骤摘要】
基于大数据的文本分词方法、及其相关设备
[0001]本申请涉及大数据和人工智能
,尤其涉及一种基于大数据的文本分词方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着经济全球化的到来,国内外交流日趋频繁,存在大量中英文混用的情况,因而从中英文混合语料库中提取词的需求也逐步增大。现有技术中,将中英文文段均按照中文字符的方式进行切割,导致语料库膨胀,计算量大的问题。
技术实现思路
[0003]本申请实施例的目的在于提出一种基于大数据的文本分词方法、装置、计算机设备及存储介质,以解决语料库膨胀,计算量大的问题。
[0004]为了解决上述技术问题,本申请实施例提供一种基于大数据的文本分词方法,采用了如下所述的技术方案:
[0005]对待处理文本进行预处理,得到由汉字类型词元以及非汉字类型词元构成的语料库;
[0006]将所述语料库中非汉字类型词元放入一元候选词库;
[0007]利用二元分词、三元分词以及四元分词对所述语料库中的汉字类型词元进行前后拼接分词,得到二元文本片 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的文本分词方法,其特征在于,包括下述步骤:对待处理文本进行预处理,得到由汉字类型词元以及非汉字类型词元构成的语料库;将所述语料库中非汉字类型词元放入一元候选词库;利用二元分词、三元分词以及四元分词对所述语料库中的汉字类型词元进行前后拼接分词,得到二元文本片段集合,三元文本片段集合以及四元文本片段集合;删除所述二元文本片段集合,三元文本片段集合以及四元文本片段集合中满足预设条件的二元候选词、三元候选词、四元候选词,得到二元候选词库、三元候选词库以及四元候选词库。2.如权利要求1所述的基于大数据的文本分词方法,其特征在于,所述对待处理文本进行预处理,得到由汉字类型词元以及非汉字类型词元构成的语料库的步骤包括:调用预设函数将所述待处理文本转换成字节流,顺序读取所述字节流中的字符;根据所述字节流中各个字符的所占用的存储空间标记字符的字符类型,其中,所述字符类型包括汉字类型以及非汉字类型;根据各个所述字符的Unicode码将全角字符转换成半角字符;将转换后的半角字符以及所述待处理文本的半角字符写入新文本,替换所述待处理文本,得到所述语料库。3.如权利要求2所述的基于大数据的文本分词方法,其特征在于,所述根据各个所述字符的Unicode码将全角字符转换成半角字符的步骤包括:在所述字符的Unicode码大于或等于U+FF01,且小于或等于U+FF5E时,所述标记后的字符为全角字符,将所述全角字符的Unicode码减去65248,得到对应标记后的半角字符;在所述字符的编码等于U+3000时,所述标记后的字符为全角字符,将所述全角字符的编码转换成U+0020,得到对应标记后的半角字符。4.如权利要求1所述的基于大数据的文本分词方法,其特征在于,所述删除所述二元文本片段集合,三元文本片段集合以及四元文本片段集合中满足预设条件的二元候选词、三元候选词、四元候选词,得到二元候选词库、三元候选词库以及四元候选词库的步骤包括:获取所述二元文本片段集合,三元文本片段集合以及四元文本片段集合中的二元候选词、三元候选词以及四元候选词;分别获取各个所述二元候选词在所述语料库中的频率,各个所述三元候选词在所述语料库中的频率,各个所述四元候选词在所述语料库中的频率;在所述二元候选词、三元候选词以及四元候选词的频率小于对应的预设频率时,满足所述预设条件,删除满足预设条件的二元候选词、三元候选词、四元候选词,得到二元候选词库、三元候选词库以及四元候选词库,所述预设条件包括所述二元候选词、三元候选词以及四元候选词的频率中的一个或多个小于对应的预设频率。5.如权利要求1所述的基于大数据的文本分词方法,其特征在于,所述删除所述二元文本片段集合,三元文本片段集合以及四元文本片段集合中满足预设条件的二元候选词、三元候选词、四元候选词,得到二元候选词库、三元候选词库以及四元候选词库的步骤包括:获取所述二元文本片段集合,三元文本片段集合以及四元文本片段集合中的二元候选词、三元候选词以及四元...
【专利技术属性】
技术研发人员:李斌,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。