一种基于拼音的对话系统文本纠错系统及方法技术方案

技术编号:22444618 阅读:48 留言:0更新日期:2019-11-02 04:31
本发明专利技术公开了一种基于拼音的对话系统文本纠错系统及方法,设置了基于拼音的文本容错模型(PTFM,Pinyin‑Based Text Fault‑Tolerant Model),该PTFM在基于领域问题集及领域实体的情况下,实现对基于拼音的对话系统文本中的异常领域实体和异常领域词的容错。这样,本发明专利技术实施例就可以在降低纠错成本的基础上,实现各个领域的基于拼音的对话系统文本的纠错。

A text error correction system and method of dialogue system based on Pinyin

【技术实现步骤摘要】
一种基于拼音的对话系统文本纠错系统及方法
本专利技术涉及计算机领域中的语言处理技术,特别涉及一种基于拼音的对话系统文本纠错系统及方法。
技术介绍
基于语音的识别结果对语音进行纠错,是语音理解过程中的一项重要工作。由于受限于语音识别的准确性,语音识别的结果常常会出现错误,这会对语音理解的后续工作造成障碍,增加了语音理解的难度。在对基于拼音的对话文本进行纠错时,分为两个步骤,第一个步骤为错误检测,第二个步骤为错误纠正。其中,错误检测常用的方法有最大熵、n-gram语音模型等,错误纠正则利用困惑集或语言模型对检测出来的错误进行有选择的替换。随着语言处理技术的发展,将端到端的深度学习模型应用在基于拼音的对话文本的纠错过程中,设置深度学习模型进行对话文本的特征提取,而非人工特征提取,减少了人工工作量。深度学习模型对文本拟合能力强。深度学习模型中的seq2seq模型使用RNN将文本中的句子表示为一个向量,再使用另一个RNN解码该向量输出。为了充分获取水温表的上下文的语义信息,深度学习模型在设置的seq2seq模型基础上增加了前向后向及注意力机制。采用深度学习模型可以输入文本,如果文本中有错误的拼音句子,则直接输出纠正后的拼音句子,简单省事。但是,采用深度学习模型对基于拼音的对话系统文本进行纠错,也存在训练需要的数据量大,训练耗时长,不容易实现,这增加了纠错成本。另外,训练好的深度学习模型在训练时针对某一领域的基于拼音的对话系统文本进行纠错,当将该深度学习模块迁移应用到另一领域的基于拼音的对话系统文本的纠错,则纠错准确性会大大降低,也就是采用深度学习模型对基于拼音的对话系统文本进行纠错的迁移性差。
技术实现思路
有鉴于此,本专利技术实施例提供一种基于拼音的对话系统文本纠错系统,该系统能够降低纠错成本的基础上,实现各个领域的基于拼音的对话系统文本的纠错。本专利技术实施例还提供一种基于拼音的对话系统文本纠错方法,该方法能够降低纠错成本的基础上,实现各个领域的基于拼音的对话系统文本的纠错。本专利技术实施例是这样实现的:一种基于拼音的对话系统文本纠错系统,包括参数提取PE模块及TF模块,PE模块由参数提取EPE子模块和词参数提取WPE子模块组成,TF模块由实体文本容错ETF子模块和WTF子模块组成,其中,EPE子模块,用于对领域实体数据进行实体列表提取,得到实体列表,基于实体列表及领域问题数据进行实体上下文参数提取,得到实体上下文参数;WPS子模块,用于对领域问题数据分别进行词列表提取及词频参数提取,分别得到词列表及词频参数,基于词列表及领域问题数据进行词上下文参数提取,得到词上下文参数;ETF子模块,用于接收基于拼音的对话系统文本后,采用词上下文参数及词频参数进行异常词提取AWE后,采用实体列表及实体上下文参数进行异常实体纠错AEC,输出实体容错后的基于拼音的对话系统文本;WTF子模块,用于对实体容错后的基于拼音的对话系统文本,采用词上下文参数及词频参数进行AWE后,采用词列表及词上下文参数进行异常词纠正AWC,输出词容错后的基于拼音的对话系统文本。所述EPE子模块,还用于进行实体列表提取为去重处理;所述进行实体上下文参数提取为实体到对应左字符列表的映射和实体到对应右字符列表的映射。所述WPE子模块,还用于得到词列表包括:对领域问题数据的分词结果进行遍历后,去重处理;得到词频参数包括:对领域问题数据的分词结果进行遍历后,将得到的词到频数的进行映射;得到词上下文参数包括:词到对应左字符列表进行映射和词到对应右字符列表进行映射。所述AWE包括:对基于拼音的对话系统文本进行分词处理;对每个词进行异常判定;将被确定为异常词添加到异常词列表中;返回基于拼音的对话系统文本的异常词列表。所述进行异常判定包括:设置阈值T1和阈值T2,且1小于阈值T1,阈值T1小于阈值T2;如果该词在该词到频数的映射表中的频数小于T1但是大于0,则确定为候选异常词;如果该词在该词到频数的映射表中的频数不小于T1但是小于T2,则进一步判断该是否与基于拼音的对话系统文本中的第一设定的上下文冲突,如果冲突,则确定为候选异常词;如果该词在该词到频数的映射表的频数等于0,则该词确定为异常词;如果该词为候选异常词,则对该词进行第二设定的上下文冲突判断确定是否为异常词。所述AEC包括:将包含有异常词的基于拼音的对话系统文本与实体列表中的实体进行模糊匹配,并输出采用设置的相似度算法计算得到的相似度对应的匹配实体和异常实体;使用获得的匹配实体对基于拼音的对话系统文本的异常实体进行替换;所述AWC包括:将包含有异常词的基于拼音的对话系统文本与词列表中的词进行模糊匹配,并输出采用设置的相似度算法计算得到的相似度对应的匹配词和异常词;使用获得的匹配词对异常词进行替换。一种基于拼音的对话系统文本纠错方法,包括:对领域实体数据进行实体列表提取,得到实体列表,基于实体列表及领域问题数据进行实体上下文参数提取,得到实体上下文参数;对领域问题数据分别进行词列表提取及词频参数提取,分别得到词列表及词频参数,基于词列表及领域问题数据进行词上下文参数提取,得到词上下文参数;对基于拼音的对话系统文本采用词上下文参数及词频参数进行异常词提取后,采用实体列表及实体上下文参数进行异常实体纠错,输出实体容错后的基于拼音的对话系统文本;对实体容错后的基于拼音的对话系统文本,采用词上下文参数及词频参数进行异常词提取后,采用词列表及词上下文参数进行异常词纠正,输出词容错后的基于拼音的对话系统文本。所述进行实体列表提取为去重处理;所述进行实体上下文参数提取为实体到对应左字符列表的映射和实体到对应右字符列表的映射;所述得到词列表包括:对领域问题数据的分词结果进行遍历后,去重处理;所述得到词频参数包括:对领域问题数据的分词结果进行遍历后,将得到的词到频数的进行映射;所述得到词上下文参数包括:词到对应左字符列表进行映射和词到对应右字符列表进行映射。所述AWE包括:对基于拼音的对话系统文本进行分词处理;对每个词进行异常判定;将被确定为异常词添加到异常词列表中;返回基于拼音的对话系统文本的异常词列表。所述进行异常判定包括:设置阈值T1和阈值T2,且1小于阈值T1,阈值T1小于阈值T2;如果该词在该词到频数的映射表中的频数小于T1但是大于0,则确定为候选异常词;如果该词在该词到频数的映射表中的频数不小于T1但是小于T2,则进一步判断该是否与基于拼音的对话系统文本中的设定的第一上下文冲突,如果冲突,则确定为候选异常词;如果该词在该词到频数的映射表的频数等于0,则该词确定为异常词;如果该词为候选异常词,则对该词进行设定的第二上下文冲突判断确定是否为异常词。所述AEC包括:将包含有异常词的基于拼音的对话系统文本与实体列表中的实体进行模糊匹配,并输出采用设置的相似度算法计算得到的相似度对应的匹配实体和异常实体;使用获得的匹配实体对基于拼音的对话系统文本的异常实体进行替换;所述AWC包括:将包含有异常词的基于拼音的对话系统文本与词列表中的词进行模糊匹配,并输出采用设置的相似度算法计算得到的相似度对应的匹配词和异常词;使用获得的匹配词对异常词进行替换。如上可见,本专利技术实施例设置了基于拼音的文本容错模型(PTFM,Pinyin-BasedTe本文档来自技高网
...

【技术保护点】
1.一种基于拼音的对话系统文本纠错系统,其特征在于,包括参数提取PE模块及TF模块,PE模块由参数提取EPE子模块和词参数提取WPE子模块组成,TF模块由实体文本容错ETF子模块和WTF子模块组成,其中,EPE子模块,用于对领域实体数据进行实体列表提取,得到实体列表,基于实体列表及领域问题数据进行实体上下文参数提取,得到实体上下文参数;WPS子模块,用于对领域问题数据分别进行词列表提取及词频参数提取,分别得到词列表及词频参数,基于词列表及领域问题数据进行词上下文参数提取,得到词上下文参数;ETF子模块,用于接收基于拼音的对话系统文本后,采用词上下文参数及词频参数进行异常词提取AWE后,采用实体列表及实体上下文参数进行异常实体纠错AEC,输出实体容错后的基于拼音的对话系统文本;WTF子模块,用于对实体容错后的基于拼音的对话系统文本,采用词上下文参数及词频参数进行AWE后,采用词列表及词上下文参数进行异常词纠正AWC,输出词容错后的基于拼音的对话系统文本。

【技术特征摘要】
1.一种基于拼音的对话系统文本纠错系统,其特征在于,包括参数提取PE模块及TF模块,PE模块由参数提取EPE子模块和词参数提取WPE子模块组成,TF模块由实体文本容错ETF子模块和WTF子模块组成,其中,EPE子模块,用于对领域实体数据进行实体列表提取,得到实体列表,基于实体列表及领域问题数据进行实体上下文参数提取,得到实体上下文参数;WPS子模块,用于对领域问题数据分别进行词列表提取及词频参数提取,分别得到词列表及词频参数,基于词列表及领域问题数据进行词上下文参数提取,得到词上下文参数;ETF子模块,用于接收基于拼音的对话系统文本后,采用词上下文参数及词频参数进行异常词提取AWE后,采用实体列表及实体上下文参数进行异常实体纠错AEC,输出实体容错后的基于拼音的对话系统文本;WTF子模块,用于对实体容错后的基于拼音的对话系统文本,采用词上下文参数及词频参数进行AWE后,采用词列表及词上下文参数进行异常词纠正AWC,输出词容错后的基于拼音的对话系统文本。2.如权利要求1所述的系统,其特征在于,所述EPE子模块,还用于进行实体列表提取为去重处理;所述进行实体上下文参数提取为实体到对应左字符列表的映射和实体到对应右字符列表的映射。3.如权利要求1所述的系统,其特征在于,所述WPE子模块,还用于得到词列表包括:对领域问题数据的分词结果进行遍历后,去重处理;得到词频参数包括:对领域问题数据的分词结果进行遍历后,将得到的词到频数的进行映射;得到词上下文参数包括:词到对应左字符列表进行映射和词到对应右字符列表进行映射。4.如权利要求1所述的系统,其特征在于,所述AWE包括:对基于拼音的对话系统文本进行分词处理;对每个词进行异常判定;将被确定为异常词添加到异常词列表中;返回基于拼音的对话系统文本的异常词列表。5.如权利要求4所述的系统,其特征在于,所述进行异常判定包括:设置阈值T1和阈值T2,且1小于阈值T1,阈值T1小于阈值T2;如果该词在该词到频数的映射表中的频数小于T1但是大于0,则确定为候选异常词;如果该词在该词到频数的映射表中的频数不小于T1但是小于T2,则进一步判断该是否与基于拼音的对话系统文本中的第一设定的上下文冲突,如果冲突,则确定为候选异常词;如果该词在该词到频数的映射表的频数等于0,则该词确定为异常词;如果该词为候选异常词,则对该词进行第二设定的上下文冲突判断确定是否为异常词。6.如权利要求1所述的系统,其特征在于,所述AEC包括:将包含有异常词的基于拼音的对话系统文本与实体列表中的实体进行模糊匹配,并输出采用设置的相似度算法计算得到的相似度对应的匹配实体和异常实体;使用获得的匹配实体对基于拼音的对话系统文本的异常实体进行替换;所述A...

【专利技术属性】
技术研发人员:杨志明
申请(专利权)人:深思考人工智能机器人科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1