System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种粤语词组分词处理方法及系统技术方案_技高网

一种粤语词组分词处理方法及系统技术方案

技术编号:40176595 阅读:5 留言:0更新日期:2024-01-26 23:44
本发明专利技术公开了一种粤语词组分词处理方法及系统,获取由用户输入的待处理粤语文本;根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其涉及一种粤语词组分词处理方法及系统


技术介绍

1、现有针对自然语言处理技术的应用多种多样,但现有的分词技术都是针对普通话进行处理,对于粤语文本无法进行分词。

2、因此,亟需一种粤语词组分词处理策略,从而解决无法对粤语文本进行分词的问题。


技术实现思路

1、本专利技术实施例提供一种粤语词组分词处理方法及系统,以解决无法对粤语文本进行分词的问题。

2、为了解决上述问题,本专利技术一实施例提供一种粤语词组分词处理方法,包括:

3、获取由用户输入的待处理粤语文本;

4、根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句;

5、基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序;

6、根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应;

7、根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。

8、作为上述方案的改进,所述分词结果包括:第一分词结果以及第二分词结果的其中一种或多种;所述根据所述第一余弦相似度数据和第一余弦相似度阈值,确定所述待处理粤语文本的分词结果,包括:

9、对每一分词顺序位置对应的待测词向量和分词向量的余弦相似度与第一余弦相似度阈值进行判断;

10、若当前分词顺序位置对应的余弦相似度大于或等于第一余弦相似度阈值,则确定当前分词顺序对应的待测分词为第一分词结果;

11、若当前分词顺序位置对应的余弦相似度小于第一余弦相似度阈值,则对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果。

12、作为上述方案的改进,所述第二分词结果包括:组合分词以及单字分词的其中一种或多种;所述对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果,包括:

13、对待测分词的每一字符进行向量计算,获得每一字符对应的向量数据;

14、基于每一向量数据和余弦相似度计算公式,计算第二余弦相似度;其中,所述第二余弦相似度包括:相邻字符之间的余弦相似度;

15、若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配成功,则将相邻字符组合,确定组合分词;其中,所述粤语词汇数据库包括:若干粤语词语;

16、若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配失败,则将相邻字符分开,获得单字分词;

17、若相邻字符之间的余弦相似度小于第二余弦相似度阈值,且字符未与其它字符组合,则将相邻字符分开,获得单字分词。

18、作为上述方案的改进,所述根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字段,包括:

19、在预设的粤语分词库中,匹配与所述待处理粤语文本的字数相同的粤语字句作为待匹配粤语字句;

20、计算所述待处理粤语文本与所述待匹配粤语字句的相似度,选取相似度大于相似度阈值的待匹配粤语字句作为目标粤语字句。

21、作为上述方案的改进,所述计算所述待处理粤语文本与所述待匹配粤语字句的相似度,包括:

22、计算所述待处理粤语文本的第一向量与所述待匹配粤语字句的第二向量;

23、对所述第一向量和第二向量进行标准化,获得第一标准化向量和第二标准化向量;

24、通过余弦相似度计算公式,计算所述第一标准化向量和第二标准化向量的余弦相似度,获得所述待处理粤语文本与所述待匹配粤语字句的相似度。

25、作为上述方案的改进,所述获取由用户输入的待处理粤语文本,包括:

26、接收用户输入的文本数据;

27、对所述文本数据进行预处理操作,获得待处理粤语文本;其中,所述预处理操作包括:去除标点符号、繁简体转换和大小写转换的其中一种或多种。

28、作为上述方案的改进,在所述确定所述待处理粤语文本的分词结果之后,还包括:

29、将所述待处理粤语文本和所述分词结果对应的分词顺序和分词向量关联,并存储进所述粤语分词库中,以更新所述粤语分词库。

30、相应的,本专利技术一实施例还提供了一种粤语词组分词处理系统,包括:数据获取模块、数据匹配模块、第一分词模块、数据计算模块和结果生成模块;

31、所述数据获取模块,用于获取由用户输入的待处理粤语文本;

32、所述数据匹配模块,用于根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语待处理粤语文本的字数;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句;

33、所述第一分词模块,用于基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序;

34、所述数据计算模块,用于根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应;

35、所述结果生成模块,用于根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。

36、相应的,本专利技术一实施例还提供了一种计算机终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术所述的一种粤语词组分词处理方法。

37、相应的,本专利技术一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如本专利技术所述的一种粤语词组分词处理方法。

38、由上可见,本专利技术具有如下有益效果:

39、本专利技术提供了一种粤语词组分词处理方法,获取由用户输入的待处理粤语文本;根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并本文档来自技高网...

【技术保护点】

1.一种粤语词组分词处理方法,其特征在于,包括:

2.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述分词结果包括:第一分词结果以及第二分词结果的其中一种或多种;所述根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果,包括:

3.根据权利要求2所述的粤语词组分词处理方法,其特征在于,所述第二分词结果包括:组合分词以及单字分词的其中一种或多种;所述对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果,包括:

4.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句,包括:

5.根据权利要求4所述的粤语词组分词处理方法,其特征在于,所述计算所述待处理粤语文本与所述待匹配粤语字句的相似度,包括:

6.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述获取由用户输入的待处理粤语文本,包括:

7.根据权利要求1至6任意一项所述的粤语词组分词处理方法,其特征在于,在所述确定所述待处理粤语文本的分词结果之后,还包括:

8.一种粤语词组分词处理系统,其特征在于,包括:数据获取模块、数据匹配模块、第一分词模块、数据计算模块和结果生成模块;

...

【技术特征摘要】

1.一种粤语词组分词处理方法,其特征在于,包括:

2.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述分词结果包括:第一分词结果以及第二分词结果的其中一种或多种;所述根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果,包括:

3.根据权利要求2所述的粤语词组分词处理方法,其特征在于,所述第二分词结果包括:组合分词以及单字分词的其中一种或多种;所述对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果,包括:

4.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述根据所述待处理粤语文...

【专利技术属性】
技术研发人员:陈光杰谢俊年陈荣亮
申请(专利权)人:珠海博维网络信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1