【技术实现步骤摘要】
纠错方法、装置、设备及存储介质
本专利技术涉及人工智能
,尤其涉及一种纠错方法、装置、设备及存储介质。
技术介绍
现有技术的开源NLP(NaturalLanguageProcessing,自然语言处理)纠错,仅仅靠文本语序进行纠错,具体是通过语言模型来实现,而语言模型分为统计语言模型和神经网络语言模型;统计语言模型受限于上下文窗口大小,实际使用中,窗口大小很少超过4,在文字限制的情况下,大大降低了对输入字或词的检测筛选。目前学术界和工业界使用较多的是神经网络语言模型,但是传统的神经网络语言模型基本都是用上文的字符串来预测当前的字或词,不能够带入当前字或词的信息,这种语言模型的困惑度往往比较高,这里的困惑度指的是语言模型的评价指标,其越低越好,同时传统神经网络语言模型,在做预测时候,我们会预测整个字典里的所有的字或词;这样的预测会导致每个字或词的概率都很小,导致最后的纠错的准确率也不高。
技术实现思路
本专利技术的主要目的在于提供一种纠错方法、装置、设备及存储介质,旨在解决现有的纠错方式中,由于筛选的词汇量过多,而导致纠错的准确度较低的技术问题。为解决上述的问题,在本专利技术的第一方面中提供了一种纠错方法,所述纠错方法包括:检测待纠错的文本中是否存在待纠错对象,所述待纠错对象包括字和词组;若存在,则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度;根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集,其中,所述纠错数据集包 ...
【技术保护点】
1.一种纠错方法,其特征在于,所述纠错方法包括:/n检测待纠错的文本中是否存在待纠错对象,所述待纠错对象包括字和词组;/n若存在,则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度;/n根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集,其中,所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容;/n根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集,所述预设的纠错库为预先构建的纠错词典,在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象;/n以神经网络的语言模型作为纠错模型,将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中,计算出每个相似对象的备选概率;/n根据所述备选概率,选择最大的备选概率对应的相似对象作为替换对象,对所述待纠错对象进行替换操作。/n
【技术特征摘要】
1.一种纠错方法,其特征在于,所述纠错方法包括:
检测待纠错的文本中是否存在待纠错对象,所述待纠错对象包括字和词组;
若存在,则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度;
根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集,其中,所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容;
根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集,所述预设的纠错库为预先构建的纠错词典,在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象;
以神经网络的语言模型作为纠错模型,将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中,计算出每个相似对象的备选概率;
根据所述备选概率,选择最大的备选概率对应的相似对象作为替换对象,对所述待纠错对象进行替换操作。
2.根据权利要求1所述的纠错方法,其特征在于,所述根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集包括:
根据所述位置信息从所述文本中选定所述待纠错对象;
根据所述样本长度,计算出基于所述位置信息截取上文段落和下文段落的字节长度;
以所述位置信息所在的位置作为切割的基点,并向所述位置的上文和下文方向分别延长所述字节长度,并采用文本切割技术将其从所述文本中切取出来,形成所述纠错数据集。
3.根据权利要求2所述的纠错方法,其特征在于,在所述根据所述位置信息和样本长度,将所述待纠错对象从所述文本中提取出来,得到纠错数据集之后,还包括:
若所述待纠错对象为字时,分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段,其中,N小于所述字节长度;
若所述待纠错对象为词组时,分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段,其中,2N小于所述字节长度;
将截取到的字段替换所述上下文内容,与所述待纠错对象形成第二纠错数据集。
4.根据权利要求3所述的纠错方法,其特征在于,在所述根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集之前,还包括:
提取所述待纠错对象和所述上下文内容的多维度特征,其中,所述多维度特征包括中文文字特征和拼音特征,以及所述中文文字特征和拼音特征的相似特征中的至少一种,所述相似特征为读音相似的特征;
所述根据所述待纠错对象和其对应的上下文内容,从预设的纠错库中查找与所述待纠错对象匹配的相似对象集包括:
根据所述中文文字特征、拼音特征和相似特征,从所述预设的纠错库中查询出对应的相似目标集;
根据所述上下文内容,判断所述相似目标集是否能与截取到的字段形成词组;
根据判断的结果,从所述相似目标集中选择相似对象,形成所述相似对象集。
5.如权利要求4所述的纠错方法,其特征在于,所述提取所述待纠错对象和所述上下文内容的多维度特征包括:
利用声学模型对所...
【专利技术属性】
技术研发人员:曾增烽,刘东煜,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。