【技术实现步骤摘要】
修正词的确定方法和装置
本申请涉及文本处理领域,具体而言,涉及一种修正词的确定方法和装置。
技术介绍
在文本处理领域,已经有一些可以识别文本中错别字的方法。然而,专利技术人发现,目前还没有关于对识别出的错别字的修正方案,也即是,现有技术中仅限于对错别字的识别,还无法给出对错别字进行修正的词语。例如,通过一定的方法能够识别出“阿里巴巴CEO马天”中的“马天”为错别字,但计算机系统还无法给出将“马天”修改为“马云”。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种修正词的确定方法和装置,以至少解决现有技术中无法给出对错别字的修正词的技术问题。根据本申请实施例的一个方面,提供了一种修正词的确定方法,包括:从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。进一步地,所述相关词为一个的情况下,确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词包括:确定所述相关词对应的词向量;从预先通过模型训练得到的训 ...
【技术保护点】
一种修正词的确定方法,其特征在于,包括:从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
【技术特征摘要】
1.一种修正词的确定方法,其特征在于,包括:从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。2.根据权利要求1所述的方法,其特征在于,所述相关词为一个的情况下,确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词包括:确定所述相关词对应的词向量;从预先通过模型训练得到的训练集中计算出与所述相关词对应的词向量的距离小于第一预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;从所述词向量的距离小于第一预设值的词语中选择与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。3.根据权利要求1所述的方法,其特征在于,所述相关词为多个的情况下,确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词包括:确定多个所述相关词对应的词向量;计算多个所述相关词对应的词向量的平均向量;从预先通过模型训练得到的训练集中计算出与所述平均向量的距离小于第二预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;从与所述平均向量的距离小于第二预设值的词语中选择与多个所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。4.根据权利要求2或3所述的方法,其特征在于,在从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词之前,所述方法还包括:获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到所述训练集。5.根据权利要求3所述的方法,其特征在于,计算多个所述相关词对应的词向量的平均向量包括:将多个所述相关词对应的词向量相加,得到词向量和,其中,词向量相加是指词向量中相应位置的数值加和得到的与词向量具有相同数量维度的向量;将所述词向量和除以所述相关词的个数,得到所述平均向量,其中,所述词向量和除以所述相关词的个数是指所述词向量和中每个位置的数值除以所述相关词的个数。6.一种修正词的确定装置,...
【专利技术属性】
技术研发人员:刘粉香,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。