文本数据处理方法和装置制造方法及图纸

技术编号:18302094 阅读:48 留言:0更新日期:2018-06-28 12:00
本发明专利技术公开了一种文本数据处理方法和装置,涉及数据处理领域。其中的文本数据处理方法包括:将文本中待识别的短语按字进行切分;从待识别的短语中提取n‑gram特征;根据提取的n‑gram特征确定n‑gram特征的向量特征;将提取的n‑gram特征和n‑gram特征的向量特征输入到命名实体识别模型;根据命名实体识别模型的输出结果确定待识别的短语是否为目标命名实体。本发明专利技术通过提取按字切分后的待识别的短语中的n‑gram特征以及n‑gram特征的向量特征,能够反映待识别的短语中相邻的字之间的相关性,并能够通过n‑gram特征以及n‑gram特征的向量特征体现待识别的短语的字面特征和泛化特征,从而能够提升命名实体识别的准确率。

Text data processing methods and devices

The invention discloses a text data processing method and device, and relates to the field of data processing. The text data processing methods include: dividing the phrase to be identified in the text according to the word, extracting the N gram feature from the phrase to be identified, and determining the vector features of the N gram feature based on the extracted N gram feature, and input the extracted N gram features and the vector features of the N gram feature to the named entity recognition model According to the output of the named entity recognition model, whether the phrase to be identified is named named entity. This invention can reflect the correlation between the adjacent words in the phrase to be identified by extracting the N gram features of the identified phrase and the vector features of the N gram feature, and can reflect the literal features and generalization characteristics of the phrases to be identified by the N gram features and the vector features of the N gram features. It can improve the accuracy of named entity recognition.

【技术实现步骤摘要】
文本数据处理方法和装置
本专利技术涉及数据处理领域,特别涉及一种文本数据处理方法和装置。
技术介绍
命名实体是指以名称为标识的实体,例如人名、机构名、地名等等。通过识别命名实体,可以获取用户的搜索意图、提取文本的属性等等,从而有助于提升搜索效率、实现对用户的准确推送。目前,命名实体识别技术主要是通过规则的方法,通过按照预设的规则识别出短语中的固定部分和可变部分。例如,对于数量词类型的命名实体,现有的识别方法是将数词和量词分开,通过匹配文本中的数字识别数词,包括基础词(例如10万)、序数词(第1)、纯数字(1.5)、百分数(50%)等等,通过建立词表识别量词,例如kg、千克、公斤、g、克、p、匹等等。由于用户输入和文本内容的不确定性,命名实体的格式多样化。例如500ml还可以表示成500ML、500毫升、五百毫升、大约500ML、500ML左右、500ML+,下午2点还可以表示成14:00、下午2:00、下午两点、2:00PM等等。由于命名实体形式多样化,因此规则识别的方法准确率较低。
技术实现思路
本专利技术实施例所要解决的一个技术问题是:如何提高命名实体识别的准确率。根据本专利技术实施例的一个方面,提供一种文本数据处理方法,包括:将文本中待识别的短语按字进行切分;从待识别的短语中提取n-gram特征;根据提取的n-gram特征确定n-gram特征的向量特征;将提取的n-gram特征进行数量化编码;将进行编码后的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型;根据命名实体识别模型的输出结果确定待识别的短语是否为目标命名实体。在一个实施例中,方法还包括:根据待识别的短语中各个字的字向量确定待识别的短语的句子向量特征;将提取的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型包括:将提取的n-gram特征、n-gram特征的向量特征和句子向量特征输入到命名实体识别模型。在一个实施例中,还包括:通过训练数据对命名实体识别模型进行训练;其中,训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征和从训练样本的短语中提取的n-gram特征的向量特征,或者,训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征、从训练样本的短语中提取的n-gram特征的向量特征和训练样本中的短语的句子向量特征。在一个实施例中,获取训练样本包括:标记训练数据中的目标命名实体;将训练数据中的目标命名实体中的部分字替换为其他字得到非目标命名实体并进行标记;将标记后的目标命名实体和非目标命名实体作为训练样本。在一个实施例中,根据提取的n-gram特征确定n-gram特征的向量特征包括:在除uni-gram之外的n-gram特征中,根据n-gram特征中各个字的字向量确定n-gram特征的向量特征。在一个实施例中,采用以下方法获得字的字向量:获得包含目标命名实体的字向量训练语料;将字向量训练语料按字符进行切分;将按字进行切分后的字向量训练语料输入到word2vec算法中进行训练;获得word2vec算法输出的各个字的字向量。在一个实施例中,采用以下方法对短语按字进行切分:将连续的数字切分为一个独立的字。在一个实施例中,目标命名实体为表示数量的短语、表示时间的短语、表示机构名称的短语或者表示地点的短语,和/或,命名实体识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型。根据本专利技术实施例的第二个方面,提供一种文本数据处理装置,包括:短语切分模块,用于将文本中待识别的短语按字进行切分;n-gram特征提取模块,用于从待识别的短语中提取n-gram特征;向量特征生成模块,用于根据提取的n-gram特征确定n-gram特征的向量特征;编码模块,用于将提取的n-gram特征进行数量化编码;待测数据输入模块,用于将提取的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型;命名实体识别模块,用于根据命名实体识别模型的输出结果确定待识别的短语是否为目标命名实体。在一个实施例中,装置还包括:句子向量特征确定模块,用于根据待识别的短语中各个字的字向量确定待识别的短语的句子向量特征;待测数据输入模块用于将提取的n-gram特征、n-gram特征的向量特征和句子向量特征输入到命名实体识别模型。在一个实施例中,装置还包括训练数据生成模块,用于生成训练数据,以便对命名实体识别模型进行训练;其中,生成的训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征和从训练样本的短语中提取的n-gram特征的向量特征,或者,训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征、从训练样本的短语中提取的n-gram特征的向量特征和训练样本中的短语的句子向量特征。在一个实施例中,装置还包括:目标命名实体标记模块,用于标记训练数据中的目标命名实体;非目标命名实体获取模块,用于将训练数据中的目标命名实体中的部分字替换为其他字得到非目标命名实体并进行标记;训练样本获得模块,用于将标记后的目标命名实体和非目标命名实体作为训练样本。在一个实施例中,向量特征生成模块进一步用于在除uni-gram之外的n-gram特征中,根据n-gram特征中各个字的字向量确定n-gram特征的向量特征。在一个实施例中,装置还包括:训练语料获得模块,用于获得包含目标命名实体的字向量训练语料;语料切分模块,用于将字向量训练语料按字符进行切分;切分语料输入模块,用于将按字进行切分后的字向量训练语料输入到word2vec算法中进行训练;字向量获得模块,用于获得word2vec算法输出的各个字的字向量。在一个实施例中,短语切分模块进一步用于将连续的数字切分为一个独立的字。在一个实施例中,目标命名实体为表示数量的短语、表示时间的短语、表示机构名称的短语或者表示地点的短语,和/或,命名实体识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型。根据本专利技术实施例的第三个方面,提供一种文本数据处理装置,其特征在于,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种文本数据处理方法。本专利技术通过提取按字切分后的待识别的短语中的n-gram特征以及n-gram特征的向量特征,能够反映待识别的短语中相邻的字之间的相关性,并能够通过n-gram特征以及n-gram特征的向量特征体现待识别的短语的字面特征和泛化特征,从而能够提升命名实体识别的准确率。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1A、1B为本专利技术用于识别命名实体的文本数据处理方法的不同实施例的流程图。图2A、2B为本专利技术命名实体识别模型的训练数据生成方法的不同实施例的流程图。图3为本专利技术文本数据处理装置的一个实施例的结构图。图4为本专利技术文本数据处理装置的另一个实施例的结构图。图5为本本文档来自技高网...
文本数据处理方法和装置

【技术保护点】
1.一种文本数据处理方法,其特征在于,包括:将文本中待识别的短语按字进行切分;从所述待识别的短语中提取n‑gram特征;根据提取的n‑gram特征确定n‑gram特征的向量特征;将提取的n‑gram特征进行数量化编码;将进行编码后的n‑gram特征和n‑gram特征的向量特征输入到命名实体识别模型;根据所述命名实体识别模型的输出结果确定所述待识别的短语是否为目标命名实体。

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:将文本中待识别的短语按字进行切分;从所述待识别的短语中提取n-gram特征;根据提取的n-gram特征确定n-gram特征的向量特征;将提取的n-gram特征进行数量化编码;将进行编码后的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型;根据所述命名实体识别模型的输出结果确定所述待识别的短语是否为目标命名实体。2.根据权利要求1所述的方法,其特征在于,还包括:根据所述待识别的短语中各个字的字向量确定所述待识别的短语的句子向量特征;所述将提取的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型包括:将提取的n-gram特征、n-gram特征的向量特征和所述句子向量特征输入到命名实体识别模型。3.根据权利要求1所述的方法,其特征在于,还包括:通过训练数据对所述命名实体识别模型进行训练;其中,所述训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征和从所述训练样本的短语中提取的n-gram特征的向量特征,或者,所述训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征、从所述训练样本的短语中提取的n-gram特征的向量特征和所述训练样本中的短语的句子向量特征。4.根据权利要求3所述的方法,其特征在于,采用以下方法获取训练样本:标记训练数据中的目标命名实体;将训练数据中的目标命名实体中的部分字替换为其他字得到非目标命名实体并进行标记;将标记后的目标命名实体和非目标命名实体作为训练样本。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据提取的n-gram特征确定n-gram特征的向量特征包括:在除uni-gram之外的n-gram特征中,根据n-gram特征中各个字的字向量确定n-gram特征的向量特征。6.根据权利要求5所述的方法,其特征在于,采用以下方法获得字的字向量:获得包含目标命名实体的字向量训练语料;将所述字向量训练语料按字符进行切分;将按字进行切分后的字向量训练语料输入到word2vec算法中进行训练;获得word2vec算法输出的各个字的字向量。7.根据权利要求1-4中任一项所述的方法,其特征在于,采用以下方法对短语按字进行切分:将连续的数字切分为一个独立的字。8.根据权利要求1-4中任一项所述的方法,其特征在于,所述目标命名实体为表示数量的短语、表示时间的短语、表示机构名称的短语或者表示地点的短语,和/或,所述命名实体识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型。9.一种文本数据处理装置,其特征在于,包括:短语切分模块,用于将文本中待识别的短语按字进行切分;n-gram特征提取模块,用于从所述待识别的短语中提取n-gram特征;向量特征生成模块,用于根据提取的n-...

【专利技术属性】
技术研发人员:高维国
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1