文本纠错分词方法、系统及电子设备技术方案

技术编号:27468435 阅读:20 留言:0更新日期:2021-03-02 17:32
本发明专利技术提供一种文本纠错分词方法、系统及电子设备,通过建立拼音字符组与任务相关中文词的对应关系,并结合AC自动机可同时完成分词与纠错,准确率较高,计算复杂度较低。计算复杂度较低。计算复杂度较低。

【技术实现步骤摘要】
文本纠错分词方法、系统及电子设备


[0001]本专利技术属于文本及自然语言处理
,尤其涉及一种文本纠错分词方法、系统及电子设备。

技术介绍

[0002]在进入人工智能等相关的自然语言处理任务之前,都有前置的文本处理,这过程称为前处理或者预处理.在中文文本场景,拼音输入法为使用量最多的输入法,当然还有手写或者五笔,但这些都属于小众的用户会使用。在文本输入后,会有各种原因导致文本的输入的错误,比如方言拼音与标准普通话拼音的差异,如n当作l,c当作ch,h当作f,en当作eng;另外中文中还存在多音字,这也会引入错误,理所当然的,预处理中需要把这些错误给纠正过来,这也是工业界统称的文本纠错任务,除此之外,还有一个至关重要的任务,那就是对文本进行分词.分词作为基础任务之一,因为在中文中,文本的语义信息都是有词组成而非单个的字。
[0003]目前针对上述两个前处理的任务,分词与纠错,工业界一般都是独立完成,它们一般都是采用不同的算法,对这两个问题分别单独处理,这样做的好处,当然是准确率高,但是计算复杂度提升了多个数量级。

技术实现思路

[0004]基于此,针对上述技术问题,提供一种文本纠错分词方法、系统及电子设备。
[0005]为解决上述技术问题,本专利技术采用如下技术方案:
[0006]一方面,本专利技术提供一种文本纠错分词方法,包括:
[0007]建立拼音字符组与任务相关中文词的对应关系,每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组
[0008]根据所述对应关系中的拼音字符组构建AC自动机树Tree_A;
[0009]接收待纠错分词的文本;
[0010]将所述文本转换成拼音,去掉声调,形成拼音字符串;
[0011]应用Tree_A的AC自动机对所述拼音字符串进行多模态匹配,得到多个匹配成功的拼音字符组;
[0012]根据所述对应关系,将匹配成功的拼音字符组还原为相应的中文词。
[0013]另一方面,本专利技术提供一种文本纠错分词系统,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种文本纠错分词方法。
[0014]再一方面,本专利技术提供一种电子设备,该设备具有上述的一种文本纠错分词系统。
[0015]本专利技术通过建立拼音字符组与任务相关中文词的对应关系,并结合AC自动机可同时完成分词与纠错,准确率较高,计算复杂度较低。
附图说明
[0016]下面结合附图和具体实施方式本专利技术进行详细说明:
[0017]图1为本专利技术的流程图。
具体实施方式
[0018]如图1所示,本说明书实施例提供一种文本纠错分词方法,包括:
[0019]S101、建立拼音字符组与任务相关中文词的对应关系,每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组。具体过程如下:
[0020]a、通过分词器对预先收集的任务相关文本进行分词,并经校验改正、删除完全错误词后,生成中文词表。
[0021]本实施例中,利用jieba分词器的全模式分词,这样做的好处可以把所有可能的词都分出来,从而减少了分词错误的误差,但是无法确保没有错误,故需要进行校验,把错误的词进行改正,并且把完全错误的词直接删除,从而确保中文词表的精准。
[0022]b、对中文词表进行拼音化,得到拼音映射词表,拼音映射词表就是上述对应关系表现形式,拼音映射词表由key和value构成,key代表拼音字符组,value代表与key对应的中文词。
[0023]若一个中文词拼音化后有多个key,则多个key对应同一个value,如{feij:飞机,feiji:飞机,fj:飞机}。
[0024]若多个中文词拼音化后的key相同(如多个中文词实际音调不同,但是拼音化后的key是相同的),则上述key对应多个value。
[0025]c、通过方言拼音扩充所述拼音映射词表:
[0026]构建方言拼音字符表,方言拼音字符表由key和value构成,key代表普通话拼音字符组,value代表相应的方言拼音字符组(平舌音、翘舌音的读法混淆,前后鼻音分辨不清等),例如:{L:N,F:H,CH:C,ENG:EN,...}。
[0027]对方言拼音字符表与拼音映射词表进行匹配,若拼音映射词表中的一个key_m包含所述方言拼音字符表的key_n,则将key_n对应的value替换key_m的相应部分,形成拼音映射词表的新的key,新的key对应的value与key_m对应的value相同,如拼音映射词表中具有{feij:飞机},方言拼音字符表中具有{f:h},可以看到feij包含f,则最终扩充为{feiji:飞机,heiji:飞机}。
[0028]若上述新的key已经存在于拼音映射词表中,则对新的key的value进行数组追加,表现为{新的key:[value1,value2,...]}。
[0029]d、通过形近字(五笔输入笔画相似/书写输入形态相似等)拼音扩充拼音映射词表:
[0030]构建形近字拼音字符表,形近字拼音字符表由key和value构成,key代表正确的中文词的拼音字符组,value代表错误的中文词的拼音字符组。如如将日月与曰月字形相近,容易打错,在形近字拼音字符表中表现为{riyue:yueyue},其中,key为riyue,value为yueyue。
[0031]对形近字拼音字符表与拼音映射词表进行匹配,若形近字拼音字符表的key_o匹配上拼音映射词表的key_q,则将key_o对应的value作为拼音映射词表的新的key,新的key
对应的value与key_q对应的value相同。如形近字拼音字符表中有{riyue:yueyue},拼音映射词表中有{riyue:日月},则最终扩充为{riyue:日月,yueyue:日月}。
[0032]若新的key已经存在于拼音映射词表中,则对新的key的value进行数组追加。
[0033]S102、根据上述对应关系中的拼音字符组构建AC自动机树Tree_A。
[0034]S103、接收待纠错分词的文本。
[0035]S104、将文本转换成拼音,去掉声调,形成拼音字符串。
[0036]S105、应用Tree_A的AC自动机对拼音字符串进行多模态匹配,得到多个匹配成功的拼音字符组。
[0037]S106、根据上述对应关系,将匹配成功的拼音字符组还原为相应的中文词。
[0038]基于同一专利技术构思,本说明书实施例还提供一种文本纠错分词系统,包括存储模块,存储模块包括由处理器加载并执行的指令(程序代码),指令在被执行时使处理器执行本说明书上述一种文本纠错分词方法部分中描述的根据本专利技术各种示例性实施方式的步骤。
[0039]其中,存储模块可以包括易失性存储单元形式的可读介质,例如随机存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错分词方法,其特征在于,包括:建立拼音字符组与任务相关中文词的对应关系,每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组;根据所述对应关系中的拼音字符组构建AC自动机树Tree_A;接收待纠错分词的文本;将所述文本转换成拼音,去掉声调,形成拼音字符串;应用Tree_A的AC自动机对所述拼音字符串进行多模态匹配,得到多个匹配成功的拼音字符组;根据所述对应关系,将匹配成功的拼音字符组还原为相应的中文词。2.根据权利要求1所述的一种文本纠错分词方法,其特征在于,所述建立拼音字符组与任务相关中文词的对应关系,进一步包括:a、通过分词器对预先收集的任务相关文本进行分词,并经校验改正、删除完全错误词后,生成中文词表;b、对所述中文词表进行拼音化,得到拼音映射词表,所述拼音映射词表由key和value构成,所述key代表拼音字符组,所述value代表与所述key对应的中文词;c、通过方言拼音扩充所述拼音映射词表:构建方言拼音字符表,所述方言拼音字符表由key和value构成,所述key代表普通话拼音字符组,所述value代表相应的方言拼音字符组;对所述方言拼音字符表与拼音映射词表进行匹配,若所述拼音映射词表中的一个key_m包含所述方言拼音字符表的key_n,则将所述key_n对应的value替换所述key_m的相应部分,形成所述拼音映射词表的新的key,所述新的key对应的value与key_m对应的value相同;d、通过形近字拼音扩充所述拼音映射词表:构建形近字拼音...

【专利技术属性】
技术研发人员:元方张凡超
申请(专利权)人:新智认知数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1