文本数据处理方法及装置和错别字识别方法及装置制造方法及图纸

技术编号：15618323 阅读：178 留言：0更新日期：2017-06-14 03:57

本申请公开了一种文本数据处理方法及装置和错别字识别方法及装置。其中，该文本数据处理方法包括：从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息；确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量，其中，词向量为用于唯一表示词语的多维数组，每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间；以文本信息中的语句为单位，将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，神经网络模型用于识别文本中的错别字。本申请解决了现有技术中文本中错别字的识别率低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及装置和错别字识别方法及装置
本申请涉及文本处理领域，具体而言，涉及一种模型训练方法及装置和错别字识别方法及装置。
技术介绍
文本是记载信息的重要载体。由于文本大都是人工编辑的，而人工编辑难免会出现失误，从而使得文本中出现错别字。对于文本中错别字的识别，目前通常采用人工建立正确的词汇库，并进行文本匹配，来识别错别字的方式，然而这种很难找到全面、正确的词汇库，致使漏检率较高，且有些语句随着时间的变化，其表达也发生变化，例如，王五副主任最近晋升为王五主任，在最近的新闻中为王五主任，历史新闻中为王五副主任，如果最新发布新闻中为“王五副主任”，则认为该组合的“副主任”为错别字，而现有的识别方式无法识别出这种错别字，进而导致文本中错别字的识别率低。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种模型训练方法及装置和错别字识别方法及装置，以至少解决现有技术中文本中错别字的识别率低的技术问题。根据本申请实施例的一个方面，提供了一种模型训练方法，包括：从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息，其中，所述预设文本数据源中所包含的文本为不包含有错别字的文本；确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量，其中，所述词向量为用于唯一表示词语的多维数组，所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间；以文本信息中的语句为单位，将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，所述神经网络模型用于识...
<a href="http://www.xjishu.com/zhuanli/55/201510849928.html" title="文本数据处理方法及装置和错别字识别方法及装置原文来自X技术">文本数据处理方法及装置和错别字识别方法及装置</a>

【技术保护点】
一种模型训练方法，其特征在于，包括：从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息，其中，所述预设文本数据源中所包含的文本为不包含有错别字的文本；确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量，其中，所述词向量为用于唯一表示词语的多维数组，所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间；以文本信息中的语句为单位，将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，所述神经网络模型用于识别文本中的错别字。

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息，其中，所述预设文本数据源中所包含的文本为不包含有错别字的文本；确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量，其中，所述词向量为用于唯一表示词语的多维数组，所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间；以文本信息中的语句为单位，将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络，训练得到神经网络模型，其中，所述神经网络模型用于识别文本中的错别字。2.根据权利要求1所述的模型训练方法，其特征在于，在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前，所述模型训练方法还包括：获取目标文本库，所述目标文本库所包含的文本为不包含有错别字的文本；利用词向量模型对所述目标文本库进行训练，以生成所述目标文本库中的词语对应的词向量，得到第一训练集。3.根据权利要求2所述的模型训练方法，其特征在于，确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量包括：对所述文本信息中每条语句进行分词处理，并将所述文本信息中每条语句对应的时间信息加入到对应的语句中，得到第二训练集；从所述第一训练集中查找所述第二训练集中每个词语对应的词向量，并生成每个词语所在语句对应的时间向量。4.根据权利要求1所述的模型训练方法，其特征在于，在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前，所述模型训练方法还包括：将每条语句中的每个词语对应的词向量标记为预设标识，其中，所述预设标识表示词向量对应的词语为非错别字，以使得在利用所述神经网络模型识别出非错别字时，将非错别字的词语标记为所述预设标识。5.一种错别字识别方法，其特征在于，包括：获取待测文本及其每条语句发布的时间信息；根据所述时间信息生成每条语句对应的时间向量；对所述待测文本进行分词处理，确定出每个词语对应的词向量；以所述待测文本中的语句为单位，将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的神经网络模型中，利用所述神经网络模型识别出所述待测文本中的错别字。6.一种模型训练装置，其特征在于，包括：提取单元，用于从预...

【专利技术属性】
技术研发人员：刘粉香，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人