文本纠错分词方法、系统及电子设备技术方案

技术编号：27468435 阅读：20 留言：0更新日期：2021-03-02 17:32

本发明专利技术提供一种文本纠错分词方法、系统及电子设备，通过建立拼音字符组与任务相关中文词的对应关系，并结合AC自动机可同时完成分词与纠错，准确率较高，计算复杂度较低。计算复杂度较低。计算复杂度较低。

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错分词方法、系统及电子设备

[0001]本专利技术属于文本及自然语言处理
，尤其涉及一种文本纠错分词方法、系统及电子设备。

技术介绍

[0002]在进入人工智能等相关的自然语言处理任务之前，都有前置的文本处理，这过程称为前处理或者预处理.在中文文本场景，拼音输入法为使用量最多的输入法，当然还有手写或者五笔，但这些都属于小众的用户会使用。在文本输入后，会有各种原因导致文本的输入的错误，比如方言拼音与标准普通话拼音的差异，如n当作l,c当作ch,h当作f,en当作eng；另外中文中还存在多音字，这也会引入错误，理所当然的，预处理中需要把这些错误给纠正过来，这也是工业界统称的文本纠错任务，除此之外，还有一个至关重要的任务，那就是对文本进行分词.分词作为基础任务之一，因为在中文中，文本的语义信息都是有词组成而非单个的字。
[0003]目前针对上述两个前处理的任务，分词与纠错，工业界一般都是独立完成，它们一般都是采用不同的算法，对这两个问题分别单独处理，这样做的好处，当然是准确率高，但是计算复杂度提升了多个数量级。

技术实现思路

[0004]基于此，针对上述技术问题，提供一种文本纠错分词方法、系统及电子设备。
[0005]为解决上述技术问题，本专利技术采用如下技术方案：
[0006]一方面，本专利技术提供一种文本纠错分词方法，包括：
[0007]建立拼音字符组与任务相关中文词的对应关系，每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组...

【技术保护点】

【技术特征摘要】
1.一种文本纠错分词方法，其特征在于，包括：建立拼音字符组与任务相关中文词的对应关系，每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组；根据所述对应关系中的拼音字符组构建AC自动机树Tree_A；接收待纠错分词的文本；将所述文本转换成拼音，去掉声调，形成拼音字符串；应用Tree_A的AC自动机对所述拼音字符串进行多模态匹配，得到多个匹配成功的拼音字符组；根据所述对应关系，将匹配成功的拼音字符组还原为相应的中文词。2.根据权利要求1所述的一种文本纠错分词方法，其特征在于，所述建立拼音字符组与任务相关中文词的对应关系，进一步包括：a、通过分词器对预先收集的任务相关文本进行分词，并经校验改正、删除完全错误词后，生成中文词表；b、对所述中文词表进行拼音化，得到拼音映射词表，所述拼音映射词表由key和value构成，所述key代表拼音字符组，所述value代表与所述key对应的中文词；c、通过方言拼音扩充所述拼音映射词表：构建方言拼音字符表，所述方言拼音字符表由key和value构成，所述key代表普通话拼音字符组，所述value代表相应的方言拼音字符组；对所述方言拼音字符表与拼音映射词表进行匹配，若所述拼音映射词表中的一个key_m包含所述方言拼音字符表的key_n，则将所述key_n对应的value替换所述key_m的相应部分，形成所述拼音映射词表的新的key，所述新的key对应的value与key_m对应的value相同；d、通过形近字拼音扩充所述拼音映射词表：构建形近字拼音...

【专利技术属性】
技术研发人员：元方，张凡超，
申请(专利权)人：新智认知数据服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人