一种文本识别方法及装置制造方法及图纸

技术编号:24889431 阅读:33 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种文本识别方法及装置,涉及数据处理技术领域,主要目的在于提高识别命名实体的准确率;主要技术方案包括:利用语料进行语言模型训练,得到语言模型;确定所述语料对应的词向量列表;基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对所述待识别文本进行命名实体识别。

【技术实现步骤摘要】
一种文本识别方法及装置
本专利技术涉及数据处理
,特别是涉及一种文本识别方法及装置。
技术介绍
命名实体识别是指识别文本中具有特定意义的实体,该具有特定意义的实体主要包括人名、地名、机构名、专有名词等。在电商、信息检索、智能翻译等应用中命名实体识别尤为重要,因为通过命名实体识别可以获取用户意图,从而快速准确完成搜索等业务处理。目前,命名实体识别通常是基于规则或词表的识别方法进行的。在基于规则进行命名实体识别时,通常按照规则识别出待识别文本的固定部分和可变部分,但是由于待识别文本内容上的不确定性,因此命名实体识别的准确度不高。在基于词表进行命名实体识别时,该词表中存储了大量的已识别出的命名实体。在对待识别文本进行识别时,将待识别文本与词表中的命名实体进行匹配,在匹配上时则就识别出了待识别文本中的命名实体。但是如果待识别文本中的命名实体未记载在词表中,则就不能识别出待识别文本中的命名实体,可见,命名实体识别的准确度不高。
技术实现思路
有鉴于此,本专利技术提出了一种文本识别方法及装置,主要目的在于提高识别命名实体的准确率。第一方面,本专利技术提供了一种文本识别方法,该方法包括:利用语料进行语言模型训练,得到语言模型;确定所述语料对应的词向量列表;基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对所述待识别文本进行命名实体识别。第二方面,本专利技术提供了一种文本识别装置,该装置包括:训练单元,用于利用语料进行语言模型训练,得到语言模型;第一确定单元,用于确定所述语料对应的词向量列表;第二确定单元,用于基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;第一识别单元,用于至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过预设的命名实体识别模型对所述待识别文本进行命名实体识别。第三方面,本专利技术提供了一种电子设备,所述电子设备包括:存储介质和处理器;所述处理器,适于实现各指令;所述存储介质,适于存储多条指令;所述指令适于由所述处理器加载并执行如上述中任意一项所述的文本识别方法。借由上述技术方案,本专利技术提供的文本识别方法及装置,通过利用语料进行语言模型训练得到语言模型,并基于该语言模型确定待识别文本的字符的第一词向量。然后确定预设语料对应的词向量列表,并基于该词向量列表确定待识别文本的字符的第二词向量。最后基于待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对待识别文本进行命名实体识别。可见,本方案中命名实体识别是基于待识别文本的字符的第一词向量以及第二词向量来进行的,由于字符的第一向量可以反映出字符在待识别文本中的上下文关系,第二向量可以对字符进行静态表示反映出字符的字面特征,因此本专利技术提供的方案可以提高识别命名实体的准确率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术一个实施例提供的一种文本识别方法的流程图;图2示出了本专利技术另一个实施例提供的一种文本识别方法的流程图;图3示出了本专利技术一个实施例提供的一种文本识别方法的结构示意图;图4示出了本专利技术另一个实施例提供的一种文本识别方法的结构示意图。具体实施方式下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种文本识别方法,如图1所示,该方法主要包括:101、利用语料进行语言模型训练,得到语言模型。其中,该文本识别方法可以在任意应用场景中使用,因此,本步骤中所涉及的语料应是该方法应用场景中所涉及的语料。举例说明:在该文本识别方法的应用场景为电商场景时,语料为电商运营过程所涉及的大量文本,该大量文本中可以包括但不限于品牌名称、产地名称、厂商名称、产品规格等命名实体。另外,该大量文本可以为但不限于中文文本。可见,本步骤中所涉及的语料与本方法的应用场景有关,也就是本方法可以对任意应用场景中的待识别文本进行文本识别,业务适用性较强。本步骤中利用语料进行语言模型训练时可以利用语料的n-gram特征进行语言模型训练,其所涉及的语料的n-gram特征是从语料中提取的。从语料中提取n-gram特征的过程可以包括但不限于:基于语料中的标点符号将语料拆分成若干个短句子;基于预设的n(n为大于0的整数)的数值,从语料中提取若干个长度是n的字节片段序列,每一个长度是n的字节片段序列均为一个n-gram特征。举例说明:以语料中的一个短句“美的空调”为例进行说明,n的数值为1,则提取的1-gram特征分为:美、的、空、调。举例说明:以语料中的一个短句“美的空调”为例进行说明,n的数值为2,则提取的2-gram特征分为:美的、的空、空调、调。举例说明:以语料中的一个短句“美的空调”为例进行说明,n的数值为3,则提取的3-gram特征分为:美的空、的空调、空调、调。通过上述的举例说明可以看出,任意一个n-gram特征仅与其前面的n-1个字符相关,而与其他任何字符不相关。另外,需要说明的是,语料的n-gram特征可以是同一个数值n的n-gram特征,也可以是至少两个不同数值n的n-gram特征。本步骤中在提取出语料的n-gram特征之后,采用预设的模型算法依据语料的n-gram特征训练出语言模型,该语言模型可以体现各个n-gram特征之间的上下文信息。该预设的模型算法可以根据业务要求确定,且可以包括但不限于双向多层LSTM(LongShort-TermMemory)。102、确定所述语料对应的词向量列表。具体的,将语料输入到预设的词向量产生模型中,由预设的词向量产生模型生成语料对应的词向量列表。该词向量列表中包括至少一个分词以及至少一个词向量的对应关系,且不同的分词对应不同的词向量,其中,至少一个分词均包括在语料中。词向量列表中的分词可以由至少一个字符排列成。需要说明的是,词向量产生模型的具体类型可以根据业务要求确定。可选的,词向量产生模型可以包括但不限于word2vec。<本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n利用语料进行语言模型训练,得到语言模型;/n确定所述语料对应的词向量列表;/n基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;/n至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对所述待识别文本进行命名实体识别。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
利用语料进行语言模型训练,得到语言模型;
确定所述语料对应的词向量列表;
基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;
至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对所述待识别文本进行命名实体识别。


2.根据权利要求1所述的方法,还包括:
拼接所述待识别文本的字符的第一词向量和第二词向量得到所述待识别文本的字符的第三词向量;
将所述待识别文本的字符的第三词向量均输入到所述命名实体识别模型;
利用所述命名实体识别模型通过所述待识别文本的字符的第三词向量对所述待识别文本进行命名实体识别。


3.根据权利要求2所述的方法,还包括:
将所述待识别文本的字符的第三词向量输入到所述命名实体识别模型中的双向LSTM进行训练,得到所述待识别文本的语义信息特征;
将所述语义信息特征输入所述命名实体识别模型中的条件随机场(CRF),利用所述命名实体识别模型中的条件随机场(CRF)对待识别文本进行标注,得到标注结果;
基于所述标注结果识别所述待识别文本中的命名实体。


4.根据权利要求1-3中任一所述的方法,还包括:
将所述待识别文本输入到所述语言模型;
利用所述语音模型确定待识别文本中每一个字符对应的待选词向量以及所述待选词向量的概率;
针对每一个所述字符分别执行:将所述字符对应的待选词向量中概率最高的词向量确定为所述字符的第一词向量。


5.根据权利要求1-3中任一所述的方法,其特征在于,所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;还包括:
针对每一个所述字符分别执行:查询所述词向量列表确定与所述字符对应的目标分词;将与所述目标分词对应的词向量确定为所述字符的第二词向量。


6.根据权利要求1-3中任一所述的方法,其特征在于,还包括:
确定所述语料的n-gram特征;
确定每一个所述n-gram特征的词向量;
将每一个所述n-gram特征的词向量输入双向LSTM进行训练,得到所述语言模型。


7.根据权利要求1-3中任一所述的方法,其特征在于,还包括:
对所述语料进行分词处理;
利用预设的词向量产生算法对分词处理后的所述语料进行训练得到所述词向量列表;所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;所述至少一个分词是对所述语料进行分词处理后得到的。


8.一种文本识别装置,其特征在于,包括:
训练单元,用于利用语料进行语言模型训练,得到语言模型;
第一确定单元,用于确定所述语料对应的词向量列表;
第二确定单元,用于基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;<...

【专利技术属性】
技术研发人员:龙定坤徐光伟李辰包祖贻刘恒友李林琳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1