【技术实现步骤摘要】
一种基于有限状态转换器的文本纠错方法和装置
[0001]本专利技术涉及文本处理领域,尤其涉及一种基于有限状态转换器的文本纠错方法和装置。
技术介绍
[0002]文本纠错技术旨在自动将用户输入文本中拼写、手写等错误进行纠正,以提升输入文本的正确性、可用性。文本纠错技术的应用领域较为广泛,如搜索引擎、智能聊天机器人、稿件编辑等。对于搜索引擎来讲,用户输入关键字的准确性会极大程度的影响最终搜索结果的匹配率;对于客服机器人来讲,正确的输入文本为后续的语义分析、语义匹配提供了坚实的基础;对于稿件编辑来讲,文本自动纠错减轻了稿件编辑者在错别字矫正环节的劳动,极大的节约了人工成本。因此,作为自然语言处理中重要的一环,文本纠错有着不可或缺的意义。
[0003]目前,学术界通常采用有监督的深度学习模型来实现文本纠错,深度学习模型是通过将预先标注的文本纠错数据输入到设计好的深度神经网络模型中不断的进行迭代训练得到的,其拟合、泛化能力均较为优秀。
[0004]但是,深度学习模型在训练时都需要大量的样本数据,这就需要投入很多的人力资 ...
【技术保护点】
【技术特征摘要】
1.一种基于有限状态转换器的文本纠错方法,其特征在于,所述方法包括:基于预存的音素表,确定待纠错文本对应的FST;将所述待纠错文本对应的FST与预存的纠错模型进行复合,得到复合后的FST;搜索所述复合后的FST,得到待纠错文本的纠错结果;其中,所述纠错模型为FST形式的模型,且所述纠错模型是基于待纠错文本所属领域的专属语料、分词词典和通用语料生成的。2.根据权利要求1所述的基于有限状态转换器的文本纠错方法,其特征在于,所述基于预存的音素表,确定待纠错文本对应的FST,包括:对待纠错文本进行分词,得到待纠错文本对应的分词序列;根据所述音素表,将所述分词序列中的分词转换为音素,得到待纠错文本对应的音素序列;将所述音素序列转换为FST形式,得到待纠错文本对应的FST;其中,所述待纠错文本对应的FST的输入标签与输出标签均为音素。3.根据权利要求1所述的基于有限状态转换器的文本纠错方法,其特征在于,所述纠错模型的生成过程,包括:将分词词典转换为FST形式,得到FST形式的分词词典;复合所述FST形式的分词词典和预存的专用语言模型,得到所述纠错模型;其中,所述分词词典中记录了分词与音素的映射关系,所述专用语言模型为FST形式的模型;所述FST形式的分词词典和所述纠错模型,均以输入标签为音素、输出标签为词的形式展现。4.根据权利要求3所述的基于有限状态转换器的文本纠错方法,其特征在于,所述预存的专用语言模型的生成方法,包括:将所述通用语料与所述待纠错文本所属领域的专属语料进行插值模型训练,得到专用语言模型;将专用语言模型转换为FST形式,得到所述预存的专用语言模型;其中,所述预存的专用语言模型的输入标签与输出标签均为词。5.根据权利要求1所述的基于有限状态转换器的文本纠错方法,其...
【专利技术属性】
技术研发人员:薛东伟,
申请(专利权)人:北京沃丰时代数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。