一种非正式文本实体标签识别方法和装置制造方法及图纸

技术编号:37486802 阅读:25 留言:0更新日期:2023-05-07 09:25
本发明专利技术公开了一种非正式文本实体标签识别方法和装置。其中方法包括:采用将待识别非正式文本分割为短句,参照基础词库进行定性标签识别;使用通用领域语料集,构建并训练通用领域预训练模型;参照需要识别的实体标签设计对应的实体字典;根据设计的实体字典中包含的实体标签,对小样本领域文本进行序列标注,生成小样本数据集,采用小样本数据集进行微调训练,将待识别非正式文本输入微调后的预训练模型,输出对待识别非正式文本解析得到的实体序列。本发明专利技术能够通过自然语言处理技术创新,实现减少地产行业实体识别技术的人力成本;并通过针对通用语言预训练模型进行微调训练,实现模型的领域适配、识别出非正式文本的命名实体。体。体。

【技术实现步骤摘要】
一种非正式文本实体标签识别方法和装置


[0001]本申请涉及自然语言处理
,特别是涉及一种非正式文本实体标签识别方法和装置。

技术介绍

[0002]目前在地产行业使用的用户画像标签多依托于业务数据,通过从存量文本数据中提取新的用户标签以丰富CDP成为提升企业客户洞察能力的突破口,要想从非正式文本中获取标签,绕不开命名实体识别技术,但命名实体识别能识别出通用领域文本中客观实体,却无法区分行业领域非正式文本下相同实体词在不同业务需求下的表达。
[0003]命名实体识别又称为序列标注,该技术旨在从一段文本中抽取到找到任何想要的东西,可能是某个字,某个词,或者某个短语,根据方法不同命名实体识别可以分为三类:(1)基于词典和规则的方法;(2)基于机器学习的方法;(3)基于深度学习语义编码的方法。
[0004]基于词典和规则的方法是利用已有的先验知识构建词典,通过词匹配的方式识别出句子中的潜在实体,再通过一些规则进行筛选,或采用句式模板来识别句子中的实体;基于机器学习的方法中命名实体识别被当作是序列标注问题,主要使用完成监督训练的算法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种非正式文本实体标签识别方法,其特征在于,包括:S1,将待识别非正式文本分割为短句,参照基础词库对所述待识别非正式文本进行匹配,并进行定性标签识别;S2,使用通用领域语料集,构建并训练通用领域预训练模型;S3,参照需要识别的实体标签设计对应的实体字典,并设定实体字典的使用方式;S4,根据步骤S3中设计的实体字典中包含的实体标签,对小样本领域文本进行序列标注,生成小样本数据集;S5,采用所述小样本数据集对所述通用领域预训练模型进行微调训练,将待识别非正式文本输入微调后的预训练模型,输出对待识别非正式文本解析得到的实体序列。2.根据权利要求1所述的非正式文本实体标签识别方法,其特征在于,步骤S1包括:加载复合词库,对所述待识别非正式文本进行预处理,将所述待识别非正式文本根据标点分割为短句;将分割得到的短句输入文本矩阵,参照基础词库对其中以词定标类标签进行匹配,得到完成初步标注的文本数据T1;参照基础词库对所述文本数据T1中以词滤标类标签进行二次匹配,得到完成二次标注的文本数据T2;将所述文本数据T2中存在标签的对话文本及其周边的多条对话文本作为目标文本T3;在所述目标文本T3中构建滑动窗口,不断生成窗口内由短句组成的长文本T4,并计算每个所述长文本T4与对应标签在所述基础词库中的每个长文本句向量的相似度;对于每个所述长文本T4中包含的每个标签,若所述基础词库中存在至少一个长文本句向量与所述长文本T4的相似度达到预设相似度阈值,则判定当前标签为所述长文本T4的定性标签L1。3.根据权利要求2所述的非正式文本实体标签识别方法,其特征在于,所述滑动窗口的长度为5。4.根据权利要求1所述的非正式文本实体标签识别方法,其特征在于,步骤S2包括:S21,加载通用领域语料集;S22,从通用领域语料集中获取文本;S23,对获取到的文本中的随机字符进行MASK操作;S24,利用基础模型对进行MASK操作的文本进行预测;S25,当通用领域语料集完成遍历后,计算预测结果与实际结果的差异;S26,若差异值未达到预设相应阈值,重新加载通用领域语料集对模型继续训练,重复步骤S22

S26;S27,若差异值达到预设相应阈值,则训练结束,得到通用领域预训练模型。5.根据权利要求4所述的非正式文本实体标签识别方法,其特征在于,所述基础模型为RoBERTa模型。6.根据权利要求1所述的非正式文本实体标签识别方法,...

【专利技术属性】
技术研发人员:徐星晨朱亮
申请(专利权)人:金茂云科技服务北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1