一种文本内容修正的方法和系统技术方案

技术编号:24518064 阅读:24 留言:0更新日期:2020-06-17 06:57
本说明书实施例公开了一种文本内容修正的方法及系统。所述方法包括:获取待检测文本;生成所述待检测文本中各个字符对应的语义向量;对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。

【技术实现步骤摘要】
一种文本内容修正的方法和系统
本说明书涉及自然语言处理(naturallanguageprocessing,NLP)领域,特别涉及一种文本内容修正的方法和系统。
技术介绍
拼写错误通常存在于自动语音识别技术(ASR,automaticspeechrecognition)获得的文本、光学字符识别(OCR,OpticalCharacterRecognition)获得的文本以及输入法输入的文本中。汉字的许多字符发音或者字形相似,但是语义不同,因此容易因为字符的音近或者形近造成拼写错误。中文拼写检查(CSC,ChineseSpellingCheck)模型用于纠正类似的错误。由于汉字的特点,拼写检查模型不仅需要根据字符的语义对文本进行修正,还需要有字符发音和字形的约束。因此,期望一种文本内容修正的方法,可以结合字符的语义以及发音和字形等符号上的相似关系对文本进行修正。
技术实现思路
本说明书实施例之一提供一种文本内容修正的方法。所述方法包括:获取待检测文本;生成所述待检测文本中各个字符对应的语义向量;对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。本说明书实施例之一提供一种文本内容修正的系统,所述系统包括:待检测文本获取模块,用于获取待检测文本;语义向量提取模块,用于生成所述待检测文本中各个字符对应的语义向量;字符修正模块,用于对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。本说明书实施例之一提供一种文本内容修正装置,所述装置包括:至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现文本内容修正的方法。本说明书实施例之一提供一种文本修正模型系统,所述系统包括:提取模型,用于生成待检测文本中各个字符对应的语义向量;混淆模型,用于基于词嵌入矩阵和混淆关系图生成混淆特征矩阵,所述混淆关系图表示字符之间的符号近似关系;以及,全连接层,用于对每个所述语义向量进行处理,得到该语义向量在字符集中对应的字符;其中,全连接层的权重矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和所述混淆特征矩阵生成;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。本说明书实施例之一提供一种混淆特征矩阵获取方法,所述混淆特征矩阵包括混淆字符集中各字符的混淆特征向量,所述混淆特征向量反映该字符与其他至少一个字符的符号近似信息,其中,所述方法包括:通过混淆模型处理词嵌入矩阵和混淆关系图,获得所述混淆特征矩阵;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。附图说明本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的文本内容修正的结构化流程图;图2是根据本说明书一些实施例所示的生成混淆特征矩阵的结构化流程图;图3是根据本说明书一些实施例所示的生成修正矩阵的结构化流程图;图4是根据本说明书一些实施例所示的文本内容修正模型的应用场景图;图5是根据本说明书一些实施例所示的文本内容修正模型的结构示意图;以及图6是根据本说明书一些实施例所示的文本内容修正的系统的模块图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1是根据本说明书一些实施例所示的文本内容修正的结构化流程图。步骤110,获取待检测文本,生成待检测文本中各个字符对应的语义向量。在一些实施例中,待检测文本可以为有一定概率存在拼写错误的文本。在一些实施例中,待检测文本可以通过自动语音识别技术(ASR,automaticspeechrecognition)得到。在一些实施例中,待检测文本也可以通过光学字符识别(OCR,OpticalCharacterRecognition)得到。在一些实施例中,待检测文本也可以通过其他方式获得,例如:手写输入、输入法输入等,不受本说明书的表述所限。例如:通过ASR获得的一个文本“...餐厅的换经费产适合约会...”,存在拼写错误的文字“换经费产”,可以将该文本作为待检测文本。在一些实施例中,可以基于词嵌入算法处理待检测文本,获得其各个字符对应的词嵌入向量。词嵌入算法可以按照一定的映射规则,将字符转化为其在词嵌入矩阵中对应的修正向量。在一些实施例中,词嵌入矩阵可以由字符集中各个字符的词嵌入向量组成,词嵌入矩阵的每一行为一个词嵌入向量,每个词嵌入向量具有固定的维度。例如:一个20K个字符的字符集,每个字符使用300维的词嵌入向量表示,则对应的词嵌入矩阵的形状可以为20*1000行、300列。在一些实施例中,字符集中的每个字符在词嵌入矩阵中都有一个固定的表示,而不管该字符出现在什么上下文中。例如:在两个句子“Themanwasaccusedofrobbingabank.”和“Themanwentfishingbythebankoftheriver.”中,本文档来自技高网...

【技术保护点】
1.一种文本内容修正的方法,所述方法包括:/n获取待检测文本;/n生成所述待检测文本中各个字符对应的语义向量;/n对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;/n所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。/n

【技术特征摘要】
1.一种文本内容修正的方法,所述方法包括:
获取待检测文本;
生成所述待检测文本中各个字符对应的语义向量;
对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;
所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。


2.根据权利要求1所述的方法,其中,所述生成所述待检测文本中各个字符对应的语义向量包括:
利用提取模型处理所述待检测文本,得到所述待检测文本中各个字符对应的语义向量;其中,所述提取模型的词嵌入层用于将字符映射到所述词嵌入矩阵。


3.根据权利要求1所述的方法,其中,所述对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符包括:
计算所述语义向量与所述修正矩阵中各字符的修正向量的相似度;
将相似度最大的修正向量对应的字符确定为所述修正后的字符。


4.根据权利要求1所述的方法,其中,所述对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符包括:
利用全连接层处理所述语义向量,得到所述修正后的字符;其中,所述全连接层的权重矩阵包括所述修正矩阵。


5.根据权利要求1所述的方法,其中,修正矩阵基于词嵌入矩阵和混淆特征矩阵生成包括:
对于字符集中的每一个字符,如果所述字符存在于混淆字符集中,则使用所述混淆特征矩阵中与所述字符对应的混淆特征向量作为所述修正矩阵中所述字符的修正向量,否则使用所述词嵌入矩阵中与所述字符对应的词嵌入向量作为所述修正矩阵中所述字符的修正向量;其中,所述混淆字符集是字符集的子集,所述混淆特征矩阵包括混淆字符集中各字符的混淆特征向量,所述混淆特征向量反映该字符与其他至少一个字符的符号近似信息。


6.根据权利要求5所述的方法,其中,所述混淆关系图的节点与混淆字符集中的字符一一对应;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得包括:
获取混淆关系图对应的初始混淆特征矩阵以及邻接矩阵,所述混淆关系图的节点与混淆字符集中的字符一一对应;所述初始混淆特征矩阵包括混淆关系图中各节点对应字符在所述词嵌入矩阵中的词嵌入向量,所述邻接矩阵反映混淆关系图中两两节点对应的字符间的相关性;
利用所述混淆模型对所述初始混淆特征矩阵以及邻接矩阵进行至少一次迭代处理,得到所述混淆特征矩阵,所述混淆模型包括图卷积神经网络。


7.根据权利要求6所述的方法,其中,所述混淆关系图包括形近混淆关系图和/或音近混淆关系图;所述至少一次迭代处理包括图卷积处理以及基于注意力机制的图组合处理。


8.一种文本内容修正的系统,所述系统包括:
待检测文本获取模块,用于获取待检测文本;
语义向量提取模块,生成所述待检测文本中各个字符对应的语义向量;
字符修正模块,用于对于每个所述语义向量,确定该语义向量在修正矩阵中对应的修正向量,进而将所述修正向量对应的字符作为修正后的字符;
所述修正矩阵包括所述字符集中各字符的修正向量,其基于词嵌入矩阵和混淆特征矩阵生成;所述混淆特征矩阵基于所述词嵌入矩阵和混淆关系图,通过混淆模型获得;所述混淆关系图表示字符之间的符号近似关系;所述词嵌入矩阵包括字符集中各字符的词嵌入向量。


9.一种文本内容修正的装置,其中,所述装置包括至少一个处理器以及至少一个存储器;
所述至少一个存储器用于存储计算机指令;
所述至...

【专利技术属性】
技术研发人员:成幸毅徐威迪陈昆龙王太峰褚崴
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1