【技术实现步骤摘要】
一种乱序文字的自动组词方法
本专利技术涉及计算机
,尤其涉及一种乱序文字的自动组词方法。
技术介绍
使用计算机方法对文本信息进行纠错是比较常见的技术需求,中文文本信息的错误类型有很多,比如谐音字词错误、语法错误、字词顺序颠倒等。而导致这种错误出现的原因也很多,如手动键盘输入时疏忽、或者通过图扫描的得到文本时,由于各种因素无法根据位置信息重新组织文字顺序,得到一系列的乱序文字。对于乱序文字,现有技术的基于神经网络模型来解决组词问题,但由于其解决方案过于笨重,而且如果需要准确的组词,其需要的模型训练成本会大幅度提高,应用效果并不理想。
技术实现思路
本专利技术实施例提出一种乱序文字的自动组词方法,能够减少训练成本,提高组词的准确率。本专利技术实施例提供一种乱序文字的自动组词方法,包括:根据预先获取的训练文本,经过训练模型训练后构建字符表;其中,所述字符表包括第一字符词频表、第二字符词频表和字符查找表;所述第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;所述第二 ...
【技术保护点】
1.一种乱序文字的自动组词方法,其特征在于,包括:/n根据预先获取的训练文本,经过训练模型训练后构建字符表;其中,所述字符表包括第一字符词频表、第二字符词频表和字符查找表;所述第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;所述第二字符词频表中的元素记录了相隔1字符的组合在所有训练文本中的出现频次;所述字符查找表记录了若干个常用字符以及每个常用字符在所有训练文本中的出现总次数;/n获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量;/n根据所述待组词字符串当前的字符排列顺序,分别查询所述 ...
【技术特征摘要】
1.一种乱序文字的自动组词方法,其特征在于,包括:
根据预先获取的训练文本,经过训练模型训练后构建字符表;其中,所述字符表包括第一字符词频表、第二字符词频表和字符查找表;所述第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;所述第二字符词频表中的元素记录了相隔1字符的组合在所有训练文本中的出现频次;所述字符查找表记录了若干个常用字符以及每个常用字符在所有训练文本中的出现总次数;
获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量;
根据所述待组词字符串当前的字符排列顺序,分别查询所述第一字符词频表和所述第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量;
根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出所述待组词字符串对应的第一条件概率向量和第二条件概率向量;
分别对所述第一条件概率向量和第二条件概率向量中的各元素取对数,并将概率之积转化为对数概率之和,依次获得第一自然语序度量值和第二自然语序度量值;
根据所述第一自然语序度量值和第二自然语序度量值,获得所述待组词字符串当前的字符排列顺序对应的自然语序度量值,并遍历所述待组词字符串的所有字符排列顺序,按照相同的计算方法,依次获得若干个自然语序度量值,再选择自然语序度量值最大的字符排列顺序,将所述待组词字符串进行自动组词。
2.根据权利要求1所述的乱序文字的自动组词方法,其特征在于,
所述第一字符词频表中的第i行第j列个元素表示哈希值为i的字符后相邻的哈希值为j的组合在所有训练文本中的出现频次;其中,i和j为正整数;
所述第二字符词频表中的第i行第j列个元素表示哈希值为i的字符后的第二个字符哈希值为j的组合在所有训练文本中的出现频次;
所述字符查找表中记录的常用字符对...
【专利技术属性】
技术研发人员:蔡浩,陈小明,孙浩军,张承钿,姚浩生,胡超,刘正阳,梁道远,曾鑫,白璐,
申请(专利权)人:汕头大学,广东叁玖捌大数据科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。