【技术实现步骤摘要】
一种文本内容修正的方法和系统
本说明书涉及自然语言处理(naturallanguageprocessing,NLP)领域,特别涉及一种文本内容修正的方法和系统。
技术介绍
拼写错误通常存在于自动语音识别技术(ASR,automaticspeechrecognition)获得的文本、光学字符识别(OCR,OpticalCharacterRecognition)获得的文本以及输入法输入的文本中。汉字的许多字符发音或者字形相似,但是语义不同,因此容易因为字符的音近或者形近造成拼写错误。中文拼写检查(CSC,ChineseSpellingCheck)模型用于纠正类似的错误。由于汉字的特点,拼写检查模型不仅需要根据字符的语义对文本进行修正,还需要有字符发音和字形的约束。因此,期望一种文本内容修正的方法,可以结合字符的语义以及发音和字形等符号上的相似关系对文本进行修正。
技术实现思路
本说明书实施例之一提供一种文本内容修正的方法。所述方法包括:获取待检测文本;生成所述待检测文本中各个字符对应的语义向量;对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。本说明书实施例之一提供一种文本内容修正的系统 ...
【技术保护点】
1.一种文本内容修正的方法,所述方法包括:/n获取待检测文本;/n生成所述待检测文本中各个字符对应的语义向量;/n对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;/n所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。/n
【技术特征摘要】
1.一种文本内容修正的方法,所述方法包括:
获取待检测文本;
生成所述待检测文本中各个字符对应的语义向量;
对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;
所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。
2.根据权利要求1所述的方法,其中,所述生成所述待检测文本中各个字符对应的语义向量包括:
利用提取模型处理所述待检测文本,得到所述待检测文本中各个字符对应的语义向量;其中,所述提取模型的词嵌入层用于将字符映射到所述词嵌入矩阵。
3.根据权利要求1所述的方法,其中,所述对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符包括:
计算所述语义向量与所述修正矩阵中各字符的修正向量的相似度;
将相似度最大的修正向量对应的字符确定为所述修正后的字符。
4.根据权利要求1所述的方法,其中,所述对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符包括:
利用全连接层处理所述语义向量,得到所述修正后的字符;其中,所述全连接层的权重矩阵包括所述修正矩阵。
5.根据权利要求1所述的方法,其中,修正矩阵基于词嵌入矩阵和混淆特征矩阵生成包括:
对于字符集中的每一个字符,如果所述字符存在于混淆字符集中,则使用所述混淆特征矩阵中与所述字符对应的混淆特征向量作为所述修正矩阵中所述字符的修正向量,否则使用所述词嵌入矩阵中与所述字符对应的词嵌入向量作为所述修正矩阵中所述字符的修正向量;其中,所述混淆字符集是字符集的子集,所述混淆特征矩阵包括混淆字符集中各字符的混淆特征向量,所述混淆特征向量反映该字符与其他至少一个字符的符号近似信息。
6.根据权利要求5所述的方法,其中,所述混淆关系图的节点与混淆字符集中的字符一一对应;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得包括:
获取混淆关系图对应的初始混淆特征矩阵以及邻接矩阵,所述混淆关系图的节点与混淆字符集中的字符一一对应;所述初始混淆特征矩阵包括混淆关系图中各节点对应字符在所述词嵌入矩阵中的词嵌入向量,所述邻接矩阵反映混淆关系图中两两节点对应的字符间的相关性;
利用所述混淆模型对所述初始混淆特征矩阵以及邻接矩阵进行至少一次迭代处理,得到所述混淆特征矩阵,所述混淆模型包括图卷积神经网络。
7.根据权利要求6所述的方法,其中,所述混淆关系图包括形近混淆关系图和/或音近混淆关系图;所述至少一次迭代处理包括图卷积处理以及基于注意力机制的图组合处理。
8.一种文本内容修正的系统,所述系统包括:
待检测文本获取模块,用于获取待检测文本;
语义向量提取模块,生成所述待检测文本中各个字符对应的语义向量;
字符修正模块,用于对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;
所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。
9.一种文本内容修正的装置,其中,所述装置包括至少一个处理器以及至少一个存储器;
所述至少一个存储器用于存储计算机指令;
所述至...
【专利技术属性】
技术研发人员:成幸毅,徐威迪,陈昆龙,王太峰,褚崴,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。