【技术实现步骤摘要】
文本纠错方法、相关设备及可读存储介质
本申请涉及自然语言处理
,更具体的说,是涉及一种文本纠错方法、相关设备及可读存储介质。
技术介绍
在一些语音识别场景下,往往需要将语音转换为文本,比如,在基于语音的自动问答场景下,自动问答系统需要将用户的提问转换为文本,以根据转换的文本,确定出与用户的提问对应的答案反馈给用户;在演讲场景下,需要将用户演讲的语音转换为文本,以帮助听讲者理解演讲内容,等等。但是,将语音转换为文本时,转换得到文本常常会出现错误。比如,语音录入时,由于受到噪声、衰落信道等多种因素的影响,导致语音受损,进而导致转换的文本出现错误,再比如,语音中往往会出现一些符号,如数字、字母和一些特殊字符,这些符号转换为汉字,也可能导致转换的文本出现错误,示例如,语音为“T2级小米加步枪”,将其转换为文本之后可能为“替而级小米加步枪”。因此,需要提供一种文本纠错方式。
技术实现思路
鉴于上述问题,本申请提出了一种文本纠错方法、相关设备及可读存储介质。具体方案如下:一种文本纠错方法 ...
【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;/n确定所述文本中的待纠错实体名;/n对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名;/n基于各个纠错后的实体名,得到纠错后的文本。/n
【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定所述文本中的待纠错实体名;
对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名;
基于各个纠错后的实体名,得到纠错后的文本。
2.根据权利要求1所述的方法,其特征在于,所述判断所述实体名库中是否存在与所述待纠错实体名对应的实体名,包括:
获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;
针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度;
基于各个实体名与所述待纠错实体名之间的相似度,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度的过程,包括:
将所述待纠错实体名以及所述实体名库,输入语义相似度模型,所述语义相似度模型输出所述实体名库中每个实体名与所述待纠错实体名之间的相似度;
所述语义相似度模型用于获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度。
4.根据权利要求2至3中任意一项所述的方法,其特征在于,如果所述实体名库中不存在与所述待纠错实体名对应的实体名,所述方法还包括:
确定所述待纠错实体名的拼音;
基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名。
5.根据权利要求4所述的方法,其特征在于,所述基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名,包括:
获取预置的实体名拼音库,所述实体名拼音库中包括多个实体名的拼音,其中,每个包括预设符号的实体名有至少一个拼音;
从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音;
根...
【专利技术属性】
技术研发人员:张兆银,朱南阳,李直旭,法羚玲,郑新,邓宸博,
申请(专利权)人:科大讯飞苏州科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。