The invention discloses a text data processing method and device, and relates to the field of data processing. The text data processing methods include: dividing the phrase to be identified in the text according to the word, extracting the N gram feature from the phrase to be identified, and determining the vector features of the N gram feature based on the extracted N gram feature, and input the extracted N gram features and the vector features of the N gram feature to the named entity recognition model According to the output of the named entity recognition model, whether the phrase to be identified is named named entity. This invention can reflect the correlation between the adjacent words in the phrase to be identified by extracting the N gram features of the identified phrase and the vector features of the N gram feature, and can reflect the literal features and generalization characteristics of the phrases to be identified by the N gram features and the vector features of the N gram features. It can improve the accuracy of named entity recognition.
【技术实现步骤摘要】
文本数据处理方法和装置
本专利技术涉及数据处理领域,特别涉及一种文本数据处理方法和装置。
技术介绍
命名实体是指以名称为标识的实体,例如人名、机构名、地名等等。通过识别命名实体,可以获取用户的搜索意图、提取文本的属性等等,从而有助于提升搜索效率、实现对用户的准确推送。目前,命名实体识别技术主要是通过规则的方法,通过按照预设的规则识别出短语中的固定部分和可变部分。例如,对于数量词类型的命名实体,现有的识别方法是将数词和量词分开,通过匹配文本中的数字识别数词,包括基础词(例如10万)、序数词(第1)、纯数字(1.5)、百分数(50%)等等,通过建立词表识别量词,例如kg、千克、公斤、g、克、p、匹等等。由于用户输入和文本内容的不确定性,命名实体的格式多样化。例如500ml还可以表示成500ML、500毫升、五百毫升、大约500ML、500ML左右、500ML+,下午2点还可以表示成14:00、下午2:00、下午两点、2:00PM等等。由于命名实体形式多样化,因此规则识别的方法准确率较低。
技术实现思路
本专利技术实施例所要解决的一个技术问题是:如何提高命名实体识别的准确率。根据本专利技术实施例的一个方面,提供一种文本数据处理方法,包括:将文本中待识别的短语按字进行切分;从待识别的短语中提取n-gram特征;根据提取的n-gram特征确定n-gram特征的向量特征;将提取的n-gram特征进行数量化编码;将进行编码后的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型;根据命名实体识别模型的输出结果确定待识别的短语是否为目标命名实体。在一个实施例中, ...
【技术保护点】
1.一种文本数据处理方法,其特征在于,包括:将文本中待识别的短语按字进行切分;从所述待识别的短语中提取n‑gram特征;根据提取的n‑gram特征确定n‑gram特征的向量特征;将提取的n‑gram特征进行数量化编码;将进行编码后的n‑gram特征和n‑gram特征的向量特征输入到命名实体识别模型;根据所述命名实体识别模型的输出结果确定所述待识别的短语是否为目标命名实体。
【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:将文本中待识别的短语按字进行切分;从所述待识别的短语中提取n-gram特征;根据提取的n-gram特征确定n-gram特征的向量特征;将提取的n-gram特征进行数量化编码;将进行编码后的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型;根据所述命名实体识别模型的输出结果确定所述待识别的短语是否为目标命名实体。2.根据权利要求1所述的方法,其特征在于,还包括:根据所述待识别的短语中各个字的字向量确定所述待识别的短语的句子向量特征;所述将提取的n-gram特征和n-gram特征的向量特征输入到命名实体识别模型包括:将提取的n-gram特征、n-gram特征的向量特征和所述句子向量特征输入到命名实体识别模型。3.根据权利要求1所述的方法,其特征在于,还包括:通过训练数据对所述命名实体识别模型进行训练;其中,所述训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征和从所述训练样本的短语中提取的n-gram特征的向量特征,或者,所述训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征、从所述训练样本的短语中提取的n-gram特征的向量特征和所述训练样本中的短语的句子向量特征。4.根据权利要求3所述的方法,其特征在于,采用以下方法获取训练样本:标记训练数据中的目标命名实体;将训练数据中的目标命名实体中的部分字替换为其他字得到非目标命名实体并进行标记;将标记后的目标命名实体和非目标命名实体作为训练样本。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据提取的n-gram特征确定n-gram特征的向量特征包括:在除uni-gram之外的n-gram特征中,根据n-gram特征中各个字的字向量确定n-gram特征的向量特征。6.根据权利要求5所述的方法,其特征在于,采用以下方法获得字的字向量:获得包含目标命名实体的字向量训练语料;将所述字向量训练语料按字符进行切分;将按字进行切分后的字向量训练语料输入到word2vec算法中进行训练;获得word2vec算法输出的各个字的字向量。7.根据权利要求1-4中任一项所述的方法,其特征在于,采用以下方法对短语按字进行切分:将连续的数字切分为一个独立的字。8.根据权利要求1-4中任一项所述的方法,其特征在于,所述目标命名实体为表示数量的短语、表示时间的短语、表示机构名称的短语或者表示地点的短语,和/或,所述命名实体识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型。9.一种文本数据处理装置,其特征在于,包括:短语切分模块,用于将文本中待识别的短语按字进行切分;n-gram特征提取模块,用于从所述待识别的短语中提取n-gram特征;向量特征生成模块,用于根据提取的n-...
【专利技术属性】
技术研发人员:高维国,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。