【技术实现步骤摘要】
字符串自动修正方法及系统
本专利技术涉及一种字符串自动修正方法及系统。
技术介绍
随着电子商务在人们日常生活中所起作用越来越大,电子商务中对于用户输入信息的真实性、准确性问题也成为了众多电子商务公司关注的重点。在电子商务中,经常会涉及一些具有常规格式的信息的填写,比如收货地址等信息,这些信息通常都会在商家和用户的交互和沟通中起到重要的作用。然而,在海量的用户输入的信息中,难免会出现一些骚扰性的信息、即虚假信息,另一方面也难免出现一些用户由于输入信息时不够仔细而导致的一些笔误。这两方面的原因,就使得部分输入信息的真实性、准确性存在疑问,而妨碍了商家和用户的进一步沟通或者交易的进行等。实际上,对于由用户输入信息的笔误等引起的小错误,由于无法进行自动的矫正,大大影响了这种情况下电子商务的运转效率,对于用户使用而言也需要其重新输入信息而不够便捷。而对于骚扰性的虚假信息,由于难以自动高效地根据输入信息提供较为准确的判断或识别的依据,不仅会被这些虚假信息拖低电子商务的运转效率,还会提高反欺诈风险控制的成本。上述问题,长期困扰着广大的电子商务的服务商、商家和消费者。
技术实现思路
...
【技术保护点】
一种字符串自动修正方法,其特征在于,在一字符串数据库中存储有已核实的多个字符串和多个预设的第一类词,每个已核实的字符串均包括若干第一类词,该字符串自动修正方法包括以下步骤:S1、从该多个字符串中,提取被第一类词分隔的其他词作为第二类词,并将各个第二类词和之后紧邻的第一类词共同构成的词组作为预设词组,然后生成一关键词数据库,该关键词数据库中记录有数量均为多个的第一类词、第二类词、预设词组以及一排词顺序,该排词顺序为各个第一类词的预设的排列顺序;S2、生成一词组排列统计表,该词组排列统计表中记录有各个预设词组出现在该多个字符串开头的排列概率以及在该多个字符串中在各个预设词组之后 ...
【技术特征摘要】
1.一种字符串自动修正方法,其特征在于,在一字符串数据库中存储有已核实的多个字符串和多个预设的第一类词,每个已核实的字符串均包括若干第一类词,该字符串自动修正方法包括以下步骤:S1、从该多个字符串中,提取被第一类词分隔的其他词作为第二类词,并将各个第二类词和之后紧邻的第一类词共同构成的词组作为预设词组,然后生成一关键词数据库,该关键词数据库中记录有数量均为多个的第一类词、第二类词、预设词组以及一排词顺序,该排词顺序为各个第一类词的预设的排列顺序;S2、生成一词组排列统计表,该词组排列统计表中记录有各个预设词组出现在该多个字符串开头的排列概率以及在该多个字符串中在各个预设词组之后紧邻地出现各个预设词组的排列概率;S3、读取一输入字符串;S4、从该输入字符串中选取第一类词作为层级关键词,并根据层级关键词在该输入字符串中所处位置将该输入字符串划分为关键词组,层级关键词位于关键词组的结尾处;S5、从各个关键词组中选取预设词组作为有效词组,并将输入字符串中除有效词组外的部分记为无效部分;S6、从无效部分中选取第二类词作为待组合词,并将无效部分中除待组合词外的所有词记为无效词部分;S7、以该输入字符串中由前至后的顺序,依次根据各个待组合词紧邻的有效词组以及该词组排列统计表依次生成各个待组合词对应的有效词组,生成的有效词组分别为对应的各个待组合词和各个第一类词组合后得到的词组中、在该词组排列统计表中的排列概率最大的词组;S8、生成一输出字符串,该输出字符串中排列有各个有效词组,排列的顺序根据该排词顺序确定;S9、查询该词组排列统计表获取该输出字符串中开头的有效词组以及相邻的有效词组的排列概率,并计算获取的排列概率的总和作为准确度;S10、输出该准确度。2.如权利要求1所述的字符串自动修正方法,其特征在于,在该字符串数据库还存储各个第一类词的权重值,S9由S9a替代,S9a为:查询该词组排列统计表获取该输出字符串中开头的有效词组以及相邻的有效词组的排列概率,并计算获取的排列概率的加权平均值作为准确度,其中各个排列概率的权重等于该输出字符串中开头的有效词组中的第一类词的权重值、或者相邻的有效词组中在后的有效词组中的第一类词的权重值。3.如权利要求1所述的字符串自动修正方法,其特征在于,S2还包括:将该词组排列统计表中所有大于预设的一概率阈值的排列概率改写为等于该概率阈值。4.如权利要求1-3中任意一项所述的字符串自动修正方法,其特征在于,S10后还包括以下步骤:S11a、将该输出字符串加入至该字符串数据库中存储。5.如权利要求1-3中任意一项所述的字符串自动修正方法,其特征在于,在S6之后执行S61,S61为:从无效词部分中选取包括第一类词的词组作为未知词组,并执行S7;S10后还包括以下步骤:S11、判断该准确度是否大于预设的一准确度阈值,在判断结果为否的情况下执行S12,在判断结果为是的情况下执行S13;S12、将该输出字符串加入至该字符串数据库中存储,并结束流程;S13、根据未知词组中的第一类词将未知词组加入该输出字符串以生成一返回字符串,该返回字符串中第一类词的顺序符合该排词顺序,并执行S14;S14、将该返回字符串加入至该字符串数据库中存储。6.如权利要求5所述的字符串自动修正方法,其特征在于,S10还包括:输出待组合词的数量和/或无效词部分所包含的字符数;S11由S11b替代,S11b为:判断该准确度大于准确度阈值、待组合词的数量小于预设的一待组合词数量阈值和/或无效词部分所包含的字符数小于预设的一无效字符数阈值是否同时成立,在判断结果为否的情况下执行S12,在判断结果为是的情况下执行S13。7.如权利要求6所述的字符串自动修正方法,其特征在于,第一类词包括市、区、新村、路。8.一种字符串自动修正系统,其特征在于,包括:字符串数据库模块,用于存储已核实的多个字符串和多个预设的第一类词,每个已...
【专利技术属性】
技术研发人员:刘利,黄晓君,
申请(专利权)人:携程计算机技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。