模型训练方法及装置和错别字识别方法及装置制造方法及图纸

技术编号：15616633 阅读：116 留言：0更新日期：2017-06-14 03:30

本申请公开了一种模型训练方法及装置和错别字识别方法及装置。其中，该模型训练方法包括：从预设文本数据源中提取文本信息，其中，预设文本数据源中所包含的文本为不包含有错别字的文本；确定出文本信息中每个词语对应的词向量，其中，词向量为用于唯一表示词语的多维数组；以文本信息中的语句为单位，将每条语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，神经网络模型用于识别文本中的错别字。本申请解决了现有技术中文本中错别字的识别率低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及装置和错别字识别方法及装置
本申请涉及文本处理领域，具体而言，涉及一种模型训练方法及装置和错别字识别方法及装置。
技术介绍
文本是记载信息的重要载体。由于文本大都是人工编辑的，而人工编辑难免会出现失误，从而使得文本中出现错别字。对于文本中错别字的识别，目前通常采用人工建立正确的词汇库，并进行文本匹配，来识别错别字的方式，然而这种很难找到全面、正确的词汇库，致使漏检率较高，进而导致文本中错别字的识别率低。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种模型训练方法及装置和错别字识别方法及装置，以至少解决现有技术中文本中错别字的识别率低的技术问题。根据本申请实施例的一个方面，提供了一种模型训练方法，包括：从预设文本数据源中提取文本信息，其中，所述预设文本数据源中所包含的文本为不包含有错别字的文本；确定出所述文本信息中每个词语对应的词向量，其中，所述词向量为用于唯一表示词语的多维数组；以文本信息中的语句为单位，将每条语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，所述神经网络模型用于识别文本中的错别字。进一步地，在确定出所述文本信息中每个词语对应的词向量之前，所述模型训练方法还包括：获取目标文本库，所述目标文本库所包含的文本为不包含有错别字的文本；利用词向量模型对所述目标文本库进行训练，以生成所述目标文本库中的词语对应的词向量，得到第一训练集。进一步地，确定出所述文本信息中每个词语对应的词向量包括：对所述文本信息进行分词处理，得到第二训练集；从所述第一训练集中查找所述第二训练集中每个词语对应...
模型训练方法及装置和错别字识别方法及装置

【技术保护点】
一种模型训练方法，其特征在于，包括：从预设文本数据源中提取文本信息，其中，所述预设文本数据源中所包含的文本为不包含有错别字的文本；确定出所述文本信息中每个词语对应的词向量，其中，所述词向量为用于唯一表示词语的多维数组；以文本信息中的语句为单位，将每条语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，所述神经网络模型用于识别文本中的错别字。

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：从预设文本数据源中提取文本信息，其中，所述预设文本数据源中所包含的文本为不包含有错别字的文本；确定出所述文本信息中每个词语对应的词向量，其中，所述词向量为用于唯一表示词语的多维数组；以文本信息中的语句为单位，将每条语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，所述神经网络模型用于识别文本中的错别字。2.根据权利要求1所述的模型训练方法，其特征在于，在确定出所述文本信息中每个词语对应的词向量之前，所述模型训练方法还包括：获取目标文本库，所述目标文本库所包含的文本为不包含有错别字的文本；利用词向量模型对所述目标文本库进行训练，以生成所述目标文本库中的词语对应的词向量，得到第一训练集。3.根据权利要求2所述的模型训练方法，其特征在于，确定出所述文本信息中每个词语对应的词向量包括：对所述文本信息进行分词处理，得到第二训练集；从所述第一训练集中查找所述第二训练集中每个词语对应的词向量。4.根据权利要求1所述的模型训练方法，其特征在于，在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前，所述模型训练方法还包括：将每条语句中的每个词语对应的词向量标记为预设标识，其中，所述预设标识表示词向量对应的词语为非错别字，以使得在利用所述神经网络模型识别出非错别字时，将非错别字的词语标记为所述预设标识。5.一种错别字识别方法，其特征在于，包括：对待测文本进行分词处理，确定出每个词语对应的词向量；以所述待测文本中的语句为单位，将每条语句中的每个词语对应的词向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的神经网络模型中，利用所述神经网络模型识别出所述待测文本中的错别字。6.一种模型训练装置，其特征在于，包括：提取单元，用于从预...

【专利技术属性】
技术研发人员：刘粉香，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人