文本数据处理方法及装置和错别字识别方法及装置制造方法及图纸

技术编号:15618323 阅读:178 留言:0更新日期:2017-06-14 03:57
本申请公开了一种文本数据处理方法及装置和错别字识别方法及装置。其中,该文本数据处理方法包括:从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息;确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,神经网络模型用于识别文本中的错别字。本申请解决了现有技术中文本中错别字的识别率低的技术问题。

【技术实现步骤摘要】
模型训练方法及装置和错别字识别方法及装置
本申请涉及文本处理领域,具体而言,涉及一种模型训练方法及装置和错别字识别方法及装置。
技术介绍
文本是记载信息的重要载体。由于文本大都是人工编辑的,而人工编辑难免会出现失误,从而使得文本中出现错别字。对于文本中错别字的识别,目前通常采用人工建立正确的词汇库,并进行文本匹配,来识别错别字的方式,然而这种很难找到全面、正确的词汇库,致使漏检率较高,且有些语句随着时间的变化,其表达也发生变化,例如,王五副主任最近晋升为王五主任,在最近的新闻中为王五主任,历史新闻中为王五副主任,如果最新发布新闻中为“王五副主任”,则认为该组合的“副主任”为错别字,而现有的识别方式无法识别出这种错别字,进而导致文本中错别字的识别率低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种模型训练方法及装置和错别字识别方法及装置,以至少解决现有技术中文本中错别字的识别率低的技术问题。根据本申请实施例的一个方面,提供了一种模型训练方法,包括:从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。进一步地,在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,所述模型训练方法还包括:获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。进一步地,确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量包括:对所述文本信息中每条语句进行分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;从所述第一训练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。进一步地,在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,所述模型训练方法还包括:将每条语句中的每个词语对应的词向量标记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。根据本申请实施例的另一方面,还提供了一种错别字识别方法,包括:获取待测文本及其每条语句发布的时间信息;根据所述时间信息生成每条语句对应的时间向量;对所述待测文本进行分词处理,确定出每个词语对应的词向量;以所述待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。根据本申请实施例的另一方面,还提供了一种模型训练装置,包括:提取单元,用于从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;确定单元,用于确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;训练单元,用于以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。进一步地,所述模型训练装置还包括:获取单元,用于在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;生成单元,用于利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。进一步地,所述确定单元包括:分词模块,用于对所述文本信息中每条语句进行分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;查找模块,用于从所述第一训练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。进一步地,所述模型训练装置还包括:标记模块,用于在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,将每条语句中的每个词语对应的词向量标记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。根据本申请实施例的另一方面,还提供了一种错别字识别装置,包括:时间获取单元,用于获取待测文本及其每条语句发布的时间信息;向量生成单元,用于根据所述时间信息生成每条语句对应的时间向量;向量确定单元,用于对所述待测文本进行分词处理,确定出每个词语对应的词向量;识别单元,用于以所述待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。根据本申请实施例,通过从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间,以及以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,以便于利用神经网络模型来识别文本中的错别字,利用了文字的时效性,提高了对文本中错别字的识别率,解决了现有技术中文本中错别字的识别率低的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的模型训练方法的流程图;图2是根据本申请实施例的错别字识别方法的流程图;图3是根据本申请实施例的模型训练装置的示意图;图4是根据本申请实施例的错别字识别装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201510849928.html" title="文本数据处理方法及装置和错别字识别方法及装置原文来自X技术">文本数据处理方法及装置和错别字识别方法及装置</a>

【技术保护点】
一种模型训练方法,其特征在于,包括:从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。2.根据权利要求1所述的模型训练方法,其特征在于,在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,所述模型训练方法还包括:获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。3.根据权利要求2所述的模型训练方法,其特征在于,确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量包括:对所述文本信息中每条语句进行分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;从所述第一训练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。4.根据权利要求1所述的模型训练方法,其特征在于,在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,所述模型训练方法还包括:将每条语句中的每个词语对应的词向量标记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。5.一种错别字识别方法,其特征在于,包括:获取待测文本及其每条语句发布的时间信息;根据所述时间信息生成每条语句对应的时间向量;对所述待测文本进行分词处理,确定出每个词语对应的词向量;以所述待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。6.一种模型训练装置,其特征在于,包括:提取单元,用于从预...

【专利技术属性】
技术研发人员:刘粉香
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1