【技术实现步骤摘要】
文本处理方法、装置、计算机设备和计算机可读存储介质
[0001]本申请涉及计算机
,特别是涉及一种文本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]随着计算机技术的飞速发展,通过向计算机输入文本信息来实现人机交互的方式得到了非常广泛的应用。例如,用户可以向计算机输入汉语拼音序列,实现基于中文的人机交互。然而,部分用户由于难以区分汉语拼音中部分容易混淆的拼音片段(例如前鼻音和后鼻音),无法使用中文文本的标准拼音进行人机交互,可能会影响人机交互的顺利进行。
[0003]传统的文本处理方法,根据预设的模糊音组合对用户输入的拼音序列进行模糊音替换,以完成拼音纠错,再根据纠错结果生成中文文本。由于模糊音组合中通常包括两个互为模糊音的拼音片段,例如“an”和“ang”,采用传统的文本处理方法,在用户输入的拼音序列中包括模糊音组合中的拼音片段的情况下进行拼音片段替换,可能存在将原本正确的标准拼音序列替换成非标准拼音序列的情况,进而导致基于替换后拼音序列所确定的中文语义不准确。因此,传 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取中文样本,确定所述中文样本的全拼拼音序列样本;基于模糊音替换关系,将所述全拼拼音序列样本中的至少一部分目标拼音片段,替换成所述至少一部分目标拼音片段各自对应的模糊拼音片段,得到与所述中文样本匹配的模糊拼音序列样本;使用包括所述模糊拼音序列样本和所述中文样本的训练样本,对初始神经网络模型进行模型训练,得到目标神经网络模型;所述目标神经网络模型用于将模糊拼音序列转换为中文文本,所述中文文本的全拼拼音序列与所述模糊拼音序列符合所述模糊音替换关系。2.根据权利要求1所述的方法,其特征在于,所述基于模糊音替换关系,将所述全拼拼音序列样本中的至少一部分目标拼音片段,替换成所述至少一部分目标拼音片段各自对应的模糊拼音片段,得到与所述中文样本匹配的模糊拼音序列样本,包括:从多组包含两个互为模糊音的拼音片段的候选模糊音组合中,确定出其中一个拼音片段为所述全拼拼音序列样本中目标拼音片段的目标模糊音组合;所述互为模糊音的两个拼音片段符合模糊音替换关系;从所述目标模糊音组合中,确定各所述目标拼音片段各自对应的模糊拼音片段;将所述全拼拼音序列样本中的至少一部分目标拼音片段,替换成所述至少一部分目标拼音片段各自对应的模糊拼音片段,得到与所述中文样本匹配的模糊拼音序列样本。3.根据权利要求2所述的方法,其特征在于,所述将所述全拼拼音序列样本中的至少一部分目标拼音片段,替换成所述至少一部分目标拼音片段各自对应的模糊拼音片段,得到与所述中文样本匹配的模糊拼音序列样本,包括:获取各所述目标模糊音组合各自的权重,根据所述权重确定所述中文样本对应的各模糊拼音序列样本构建过程中,各所述目标模糊音组合各自的应用次数;根据各所述应用次数,将各所述目标模糊音组合中的至少一部分确定为当前模糊拼音序列样本构建过程中的应用模糊音组合;将所述全拼拼音序列样本中所述应用模糊音组合所包含的目标替换拼音片段,替换成所述目标替换拼音片段对应的模糊拼音片段,得到与所述中文样本匹配的模糊拼音序列样本。4.根据权利要求2所述的方法,其特征在于,所述中文样本包括至少两个中文字符;所述将所述全拼拼音序列样本中的至少一部分目标拼音片段,替换成所述至少一部分目标拼音片段各自对应的模糊拼音片段,得到与所述中文样本匹配的模糊拼音序列样本,包括:基于对所述中文样本进行分字或分词处理得到的划分结果,将所述全拼拼音序列样本划分为多个子拼音序列;将各子拼音序列中的至少一部分确定为目标子拼音序列;将所述目标子拼音序列中的至少一部分目标拼音片段,替换成所述至少一部分目标拼音片段各自对应的模糊拼音片段,得到与所述中文样本匹配的模糊拼音序列样本。5.根据权利要求4所述的...
【专利技术属性】
技术研发人员:周昊,冉邱,周杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。