当前位置: 首页 > 专利查询>汕头大学专利>正文

一种乱序文字的自动组词方法技术

技术编号:23239577 阅读:37 留言:0更新日期:2020-02-04 18:46
本发明专利技术公开了一种乱序文字的自动组词方法,先利用训练文本结合预设的训练模型构建出字符表,对于输入的乱序文字,遍历所有排序,并基于构建好的字符表,计算每个排序对应的自然语序度量值,最后以自然语序度量值最高的排序作为乱序文字的排序结果。采用本发明专利技术技术方案能减少训练成本,而且采用本发明专利技术的组词方法能够有效解决中文并列短语的判断准确率低的问题,提高组词的准确性。

An automatic word formation method for disordered words

【技术实现步骤摘要】
一种乱序文字的自动组词方法
本专利技术涉及计算机
,尤其涉及一种乱序文字的自动组词方法。
技术介绍
使用计算机方法对文本信息进行纠错是比较常见的技术需求,中文文本信息的错误类型有很多,比如谐音字词错误、语法错误、字词顺序颠倒等。而导致这种错误出现的原因也很多,如手动键盘输入时疏忽、或者通过图扫描的得到文本时,由于各种因素无法根据位置信息重新组织文字顺序,得到一系列的乱序文字。对于乱序文字,现有技术的基于神经网络模型来解决组词问题,但由于其解决方案过于笨重,而且如果需要准确的组词,其需要的模型训练成本会大幅度提高,应用效果并不理想。
技术实现思路
本专利技术实施例提出一种乱序文字的自动组词方法,能够减少训练成本,提高组词的准确率。本专利技术实施例提供一种乱序文字的自动组词方法,包括:根据预先获取的训练文本,经过训练模型训练后构建字符表;其中,所述字符表包括第一字符词频表、第二字符词频表和字符查找表;所述第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;所述第二字符词频表中的元素记本文档来自技高网...

【技术保护点】
1.一种乱序文字的自动组词方法,其特征在于,包括:/n根据预先获取的训练文本,经过训练模型训练后构建字符表;其中,所述字符表包括第一字符词频表、第二字符词频表和字符查找表;所述第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;所述第二字符词频表中的元素记录了相隔1字符的组合在所有训练文本中的出现频次;所述字符查找表记录了若干个常用字符以及每个常用字符在所有训练文本中的出现总次数;/n获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量;/n根据所述待组词字符串当前的字符排列顺序,分别查询所述第一字符词频表和所述...

【技术特征摘要】
1.一种乱序文字的自动组词方法,其特征在于,包括:
根据预先获取的训练文本,经过训练模型训练后构建字符表;其中,所述字符表包括第一字符词频表、第二字符词频表和字符查找表;所述第一字符词频表中的元素记录了相邻字符组合在所有训练文本中的出现频次;所述第二字符词频表中的元素记录了相隔1字符的组合在所有训练文本中的出现频次;所述字符查找表记录了若干个常用字符以及每个常用字符在所有训练文本中的出现总次数;
获取待组词乱序文字对应的待组词字符串,并根据字符串中的字符查找表查询所有待组词字符串对应的出现总次数,以此构建第一向量;
根据所述待组词字符串当前的字符排列顺序,分别查询所述第一字符词频表和所述第二字符词频表,并根据查询结果构建第一条件概率计数向量和第二条件概率计数向量;
根据第一向量、第一条件概率计数向量和第二条件概率计数向量,分别计算得出所述待组词字符串对应的第一条件概率向量和第二条件概率向量;
分别对所述第一条件概率向量和第二条件概率向量中的各元素取对数,并将概率之积转化为对数概率之和,依次获得第一自然语序度量值和第二自然语序度量值;
根据所述第一自然语序度量值和第二自然语序度量值,获得所述待组词字符串当前的字符排列顺序对应的自然语序度量值,并遍历所述待组词字符串的所有字符排列顺序,按照相同的计算方法,依次获得若干个自然语序度量值,再选择自然语序度量值最大的字符排列顺序,将所述待组词字符串进行自动组词。


2.根据权利要求1所述的乱序文字的自动组词方法,其特征在于,
所述第一字符词频表中的第i行第j列个元素表示哈希值为i的字符后相邻的哈希值为j的组合在所有训练文本中的出现频次;其中,i和j为正整数;
所述第二字符词频表中的第i行第j列个元素表示哈希值为i的字符后的第二个字符哈希值为j的组合在所有训练文本中的出现频次;
所述字符查找表中记录的常用字符对...

【专利技术属性】
技术研发人员:蔡浩陈小明孙浩军张承钿姚浩生胡超刘正阳梁道远曾鑫白璐
申请(专利权)人:汕头大学广东叁玖捌大数据科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1