【技术实现步骤摘要】
一种通顺模型训练方法及辅助语音识别方法
本专利技术属于自然语言处理领域,尤其涉及对话系统中辅助语音识别的通顺模型方法及辅助语音识别方法。
技术介绍
N-gram是自然语言处理领域中的一个较为重要的语言模型,应用于判断句子是否合理,句子矫正,模糊查询等。该模型通常与预设的阈值做比对来判断一个句子是否合理。评估语音信息的得分,若该得分小于或等于预设的阈值得分,则判定句子是不合理的。若该得分大于预设的阈值得分,则判定句子是合理的并且句子通顺。人工智能分为三大学派:行为主义,符号主义,连接主义。其中连接主义认为人工智能源于仿生学,特别是对人脑模型的研究,研究的主要代表为神经网络模型。学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中,学习算法的研究有着十分重要的地位。目前,人们所提出的神经网络模型都是和学习算法相应的。中国专利CN202010600771.X公开了一种文本通顺度确定方法、装置、设备及介质,对目标文本进行划分,得到至少一个文本片段,对该至少一个文本片段中的每个文本片段进行划分,得到该每个 ...
【技术保护点】
1.一种通顺模型训练方法,其特征在于,包括如下步骤:/n步骤1,生成字数为2和3的统计词频的字典:使用预先准备的通顺数据生成统计词频个数为2以及词频个数为3的字典;/n步骤2,非通顺数据集预处理:通顺数据集中的每个句子通过分词生成基于词的列表;/n步骤3,非通顺数据集生成:将词的列表打乱,生成非通顺数据集;/n步骤4,数据集向量化:通过3-gram技术,使用字数为2和3的统计词频的字典,将非通顺和通顺数据集向量化,同时分别给通顺数据集和非通顺数据集打上0,1标签;/n步骤5,模型准备:搭建textcnn神经网络模型;/n步骤6,通顺模型训练:使用向量化的数据对神经网络模型进 ...
【技术特征摘要】
1.一种通顺模型训练方法,其特征在于,包括如下步骤:
步骤1,生成字数为2和3的统计词频的字典:使用预先准备的通顺数据生成统计词频个数为2以及词频个数为3的字典;
步骤2,非通顺数据集预处理:通顺数据集中的每个句子通过分词生成基于词的列表;
步骤3,非通顺数据集生成:将词的列表打乱,生成非通顺数据集;
步骤4,数据集向量化:通过3-gram技术,使用字数为2和3的统计词频的字典,将非通顺和通顺数据集向量化,同时分别给通顺数据集和非通顺数据集打上0,1标签;
步骤5,模型准备:搭建textcnn神经网络模型;
步骤6,通顺模型训练:使用向量化的数据对神经网络模型进行训练,从而获得通顺模型。
2.根据权利要求1所述的通顺模型训练方法,其特征在于:
步骤1后进一步包括如下步骤:使用同义词替换、回译的方式对预...
【专利技术属性】
技术研发人员:田泽,孙非凡,陆俊贤,何华健,周院平,孙信中,矫人全,
申请(专利权)人:南京奥拓电子科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。