纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:25043389 阅读:21 留言:0更新日期:2020-07-29 05:33
本发明专利技术涉及人工智能技术领域,公开了一种纠错方法,在检测到文本中存在待纠错对象后,基于待纠错对象所在的位置上提取其上下文内容,并且对应的相似对象,根据上下文内容和相似对象输入到纠错模型中得到其对应的备选概率,基于备选概率从其中选择对应的一个作为替换对象对待纠错对象进行替换处理;本发明专利技术还提供了一种纠错装置、设备及存储介质,通过同时基于待纠错对象和上下文内容来预测待纠错对象的信息,可以降低语言模型在识别语义时的困惑度,从而提取到较为准确的相似对象,然后基于纠错模型结合上下文内容来计算出每个相似对象的备选概率,从中选择较大的对象,这样不仅提高了每个字或词的概率,还提高最后的纠错的准确率。

【技术实现步骤摘要】
纠错方法、装置、设备及存储介质
本专利技术涉及人工智能
,尤其涉及一种纠错方法、装置、设备及存储介质。
技术介绍
现有技术的开源NLP(NaturalLanguageProcessing,自然语言处理)纠错,仅仅靠文本语序进行纠错,具体是通过语言模型来实现,而语言模型分为统计语言模型和神经网络语言模型;统计语言模型受限于上下文窗口大小,实际使用中,窗口大小很少超过4,在文字限制的情况下,大大降低了对输入字或词的检测筛选。目前学术界和工业界使用较多的是神经网络语言模型,但是传统的神经网络语言模型基本都是用上文的字符串来预测当前的字或词,不能够带入当前字或词的信息,这种语言模型的困惑度往往比较高,这里的困惑度指的是语言模型的评价指标,其越低越好,同时传统神经网络语言模型,在做预测时候,我们会预测整个字典里的所有的字或词;这样的预测会导致每个字或词的概率都很小,导致最后的纠错的准确率也不高。
技术实现思路
本专利技术的主要目的在于提供一种纠错方法、装置、设备及存储介质,旨在解决现有的纠错方式中,由于筛选的词汇量过多,而导致纠错的准确度较低的技术问题。为解决上述的问题,在本专利技术的第一方面中提供了一种纠错方法,所述纠错方法包括:检测待纠错的文本中是否存在待纠错对象,所述待纠错对象包括字和词组;若存在,则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度;根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集,其中,所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容;根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集,所述预设的纠错库为预先构建的纠错词典,在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象;以神经网络的语言模型作为纠错模型,将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中,计算出每个相似对象的备选概率;根据所述备选概率,选择最大的备选概率对应的相似对象作为替换对象,对所述待纠错对象进行替换操作。可选的,本专利技术第一方面的一个可行实施方式中,所述根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集包括:根据所述位置信息从所述文本中选定所述待纠错对象;根据所述样本长度,计算出基于所述位置信息截取上文段落和下文段落的字节长度;以所述位置信息所在的位置作为切割的基点,并向所述位置的上文和下文方向分别延长所述字节长度,并采用文本切割技术将其从所述文本中切取出来,形成所述纠错数据集。可选的,本专利技术第一方面的一个可行实施方式中,在所述根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集之后,还包括:若所述待纠错对象为字时,分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段,其中,N小于所述字节长度;若所述待纠错对象为词组时,分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段,其中,2N小于所述字节长度;将截取到的字段替换所述上下文内容,与所述待纠错对象形成第二纠错数据集。可选的,本专利技术第一方面的一个可行实施方式中,在所述根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集之前,还包括:提取所述待纠错对象和所述上下文内容的多维度特征,其中,所述多维度特征包括中文文字特征和拼音特征,以及所述中文文字特征和拼音特征的相似特征中的至少一种,所述相似特征为读音相似的特征;所述根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集包括:根据所述中文文字特征、拼音特征和相似特征,从所述预设的纠错库中查询出对应的相似目标集;根据所述上下文内容,判断所述相似目标集是否能与截取到的字段形成词组;根据判断的结果,从所述相似目标集中选择相似对象,形成所述相似对象集。可选的,本专利技术第一方面的一个可行实施方式中,所述提取所述待纠错对象和所述上下文内容的多维度特征包括:利用声学模型对所述待纠错对象和上下文内容进行发音训练,基于所述发音训练识别出对应的拼音音节,得到对应的发音特征;以神经网络的编码器作为编码模型,将所述待纠错对象和上下文内容的发音特征依次输入所述编码模型内,所述编码模型逐字产生对应拼音字符,直到编码完成后,输出与所述待纠错对象和上下文内容对应的拼音特征;计算所述待纠错对象和上下文内容的拼音特征的发音相似度,并基于所述发音相似度确定其相似的拼音特征。可选的,本专利技术第一方面的一个可行实施方式中,所述以神经网络的语言模型作为纠错模型,将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中,计算出每个相似对象的备选概率包括:通过所述编码模型,将所述上下文内容的拼音特征、所述待纠错对象的拼音特征及其相似特征编码,形成多个拼音序列;将所述拼音序列,以及所述待纠错对象和上下文内容的中文文字特征进行特征合并,得到合并特征;将所述合并特征输入至所述纠错模型中,计算所述相似对象集中每个相似对象的备选概率。可选的,本专利技术第一方面的一个可行实施方式中,所述将所述合并特征输入至所述纠错模型中,计算所述相似对象集中每个相似对象的备选概率包括:利用预设的备选概率计算规则,确定所述上下文内容中每个字段的维度向量数;根据所述字段的维度向量数,计算出合并特征后的总维度向量数;根据所述总维度向量数和预设的备选概率的计算公式,计算每个所述相似对象的备选概率。此外,为解决上述的问题,在本专利技术的第二方面中提供了一种纠错装置,其特征在于,所述纠错装置包括:检测模块,用于检测待纠错的文本中是否存在待纠错对象,所述待纠错对象包括字和词组;第一计算模块,用于在检测到待纠错对象时,计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度;提取模块,用于根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集,其中,所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容;查询模块,用于根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集,所述预设的纠错库为预先构建的纠错词典,在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象;第二计算模块,用于以神经网络的语言模型作为纠错模型,将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中,计算出每个相似对象的备选概率;纠错模块,用于根据所述备选概率,选择最大的备选概率对应的相似对象作为替换对象,对所述待纠错对象进行替换操作。可选的,本专利技术第二方面的一个可行实施方式中,所述提取模块包括选定单元、测量单元和切割单元;所述选定单元用于根据所述位置信息从所述文本中选定所述待纠错对象;所述测量单元用于根据所述样本长度,计算出基于所述位置信息截取上文段落和下文段落的字节长度;所述切割单元用于以所述位置信息所在的位置作为切割的基点,并向所述位置的上文和下文方向分别延长所本文档来自技高网...

【技术保护点】
1.一种纠错方法,其特征在于,所述纠错方法包括:/n检测待纠错的文本中是否存在待纠错对象,所述待纠错对象包括字和词组;/n若存在,则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度;/n根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集,其中,所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容;/n根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集,所述预设的纠错库为预先构建的纠错词典,在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象;/n以神经网络的语言模型作为纠错模型,将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中,计算出每个相似对象的备选概率;/n根据所述备选概率,选择最大的备选概率对应的相似对象作为替换对象,对所述待纠错对象进行替换操作。/n

【技术特征摘要】
1.一种纠错方法,其特征在于,所述纠错方法包括:
检测待纠错的文本中是否存在待纠错对象,所述待纠错对象包括字和词组;
若存在,则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度;
根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集,其中,所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容;
根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集,所述预设的纠错库为预先构建的纠错词典,在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象;
以神经网络的语言模型作为纠错模型,将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中,计算出每个相似对象的备选概率;
根据所述备选概率,选择最大的备选概率对应的相似对象作为替换对象,对所述待纠错对象进行替换操作。


2.根据权利要求1所述的纠错方法,其特征在于,所述根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集包括:
根据所述位置信息从所述文本中选定所述待纠错对象;
根据所述样本长度,计算出基于所述位置信息截取上文段落和下文段落的字节长度;
以所述位置信息所在的位置作为切割的基点,并向所述位置的上文和下文方向分别延长所述字节长度,并采用文本切割技术将其从所述文本中切取出来,形成所述纠错数据集。


3.根据权利要求2所述的纠错方法,其特征在于,在所述根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集之后,还包括:
若所述待纠错对象为字时,分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段,其中,N小于所述字节长度;
若所述待纠错对象为词组时,分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段,其中,2N小于所述字节长度;
将截取到的字段替换所述上下文内容,与所述待纠错对象形成第二纠错数据集。


4.根据权利要求3所述的纠错方法,其特征在于,在所述根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集之前,还包括:
提取所述待纠错对象和所述上下文内容的多维度特征,其中,所述多维度特征包括中文文字特征和拼音特征,以及所述中文文字特征和拼音特征的相似特征中的至少一种,所述相似特征为读音相似的特征;
所述根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集包括:
根据所述中文文字特征、拼音特征和相似特征,从所述预设的纠错库中查询出对应的相似目标集;
根据所述上下文内容,判断所述相似目标集是否能与截取到的字段形成词组;
根据判断的结果,从所述相似目标集中选择相似对象,形成所述相似对象集。


5.如权利要求4所述的纠错方法,其特征在于,所述提取所述待纠错对象和所述上下文内容的多维度特征包括:
利用声学模型对所...

【专利技术属性】
技术研发人员:曾增烽刘东煜
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1