当前位置: 首页 > 专利查询>苏州大学专利>正文

基于领域自适应的文本信息提取方法、装置、系统及介质制造方法及图纸

技术编号:19177554 阅读:47 留言:0更新日期:2018-10-17 00:24
本申请公开了一种基于领域自适应的文本信息提取方法,包括:对输入文本进行预处理,得到文本向量;根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征,根据第一领域内的私有特征提取参数提取文本向量的私有特征;对进行领域模糊后的共有特征进行领域分类;根据分类结果以及第一领域的领域信息对共有特征提取参数进行分析修正;根据私有特征对文本向量进行相邻词语预测;根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正。该方法可提升社交媒体等领域的文本分析提取能力。本申请还公开了基于领域自适应的文本信息提取装置、系统及可读存储介质,具有上述有益效果。

Text information extraction method, device, system and medium based on domain adaptation

This application discloses a domain-based adaptive text information extraction method, which includes: preprocessing input text to obtain text vectors; extracting common features of text vectors from common features between the second and first fields; and extracting text parameters from private features in the first field. Private features of vectors; domain classification of common features after domain ambiguity; analysis and correction of common feature extraction parameters based on classification results and domain information of the first domain; prediction of adjacent words based on private features for text vectors; and prediction of private words based on adjacent words in text There are feature extraction parameters for analysis and correction. This method can enhance the ability of text analysis and extraction in social media and other fields. The application also discloses a text information extraction device, a system and a readable storage medium based on domain adaptation, which has the above beneficial effects.

【技术实现步骤摘要】
基于领域自适应的文本信息提取方法、装置、系统及介质
本申请涉及领域自适应领域,特别涉及一种基于领域自适应的文本信息提取方法、装置、系统及一种可读存储介质。
技术介绍
目前大多数的文本特征信息的提取都是在大规模人工标注语料库的基础上用监督学习的方法训练得到的。在进行命名实体识别过程中,有些领域(比如新闻领域等正式文本)可以比较容易获得大规模标注的数据集,在大规模人工标注语料库的基础上训练得到识别系统;但是有些领域,比如社交媒体领域,语料库相对缺乏,例如有一份来源于新浪微博被用来监督学习和评估的语料,其规模仅有1890句,这样的语料大小不足以用来训练模型。由于缺乏大规模的社交媒体语料导致了该领域的特征提取以及命名实体识别存在很大的挑战。另外,文本的非正式性是阻碍社交媒体等领域文本信息提取的另一个因素。图1展示了一个新浪微博中一个文本的示例,可以看到该文本是不合语法的,社交媒体领域提及的实体很少出现在正式文本中,并且包含错误的拼写和噪声,会干扰对实体的识别,出于这些原因,在正式文本上训练的识别系统,例如Newswire语料库,在处理非正式文本时会出现一些下降。在这种情况下,目前大多采用从多本文档来自技高网...

【技术保护点】
1.一种基于领域自适应的文本信息提取方法,其特征在于,包括:对进行领域模糊后的前一次提取的共有特征进行领域分类;根据分类结果以及领域信息对共有特征提取参数进行分析修正;根据前一次提取的私有特征对前一次处理得到的文本向量进行相邻词语预测;根据预测结果以及所述文本中的相邻词语对私有特征提取参数进行分析修正;对当前输入文本进行预处理,得到文本向量;其中,所述当前输入文本属于第一领域;根据第二领域与所述第一领域间的修正后的共有特征提取参数提取所述文本向量的共有特征,根据所述第一领域内的修正后的私有特征提取参数提取所述文本向量的私有特征。

【技术特征摘要】
1.一种基于领域自适应的文本信息提取方法,其特征在于,包括:对进行领域模糊后的前一次提取的共有特征进行领域分类;根据分类结果以及领域信息对共有特征提取参数进行分析修正;根据前一次提取的私有特征对前一次处理得到的文本向量进行相邻词语预测;根据预测结果以及所述文本中的相邻词语对私有特征提取参数进行分析修正;对当前输入文本进行预处理,得到文本向量;其中,所述当前输入文本属于第一领域;根据第二领域与所述第一领域间的修正后的共有特征提取参数提取所述文本向量的共有特征,根据所述第一领域内的修正后的私有特征提取参数提取所述文本向量的私有特征。2.如权利要求1所述的基于领域自适应的文本信息提取方法,其特征在于,所述对当前输入文本进行预处理包括:提取所述当前输入文本的字符信息以及词级信息,得到字符向量及词级向量。3.如权利要求2所述的基于领域自适应的文本信息提取方法,其特征在于,所述提取所述当前输入文本的字符信息以及词级信息前还包括:筛选出所述当前输入文本中长度小于阈值的输入文本;则所述提取所述当前输入文本的字符信息以及词级信息具体为:提取筛选后输入文本的字符信息以及词级信息。4.如权利要求3所述的基于领域自适应的文本信息提取方法,其特征在于,所述对进行领域模糊后的前一次提取的共有特征进行领域分类前还包括:对所述前一次提取的共有特征进行简化处理,得到简化共有特征;则所述对进行领域模糊后的前一次提取的共有特征进行领域分类具体为:对进行领域模糊后的简化共有特征进行领域分类。5.一种基于领域自适应的文本信息提取装置,其特征在于,包括:领域分类单元,用于对进行领域模糊后的前一次提取的共有特征进行领域分类;第一修正单元,用于根据分类结果以及领域信息对共有特征提取参数进行分析修正;词语预测单元,用于根据前一次提取的私有特征对前一次处理得到的文本向量进行相邻词语预测;第二修正单元,用于根据预测结果以及所述文本中的相邻词语对私有特征提取参数进行分析修正;预处理单元,用于对对当前输入文本进行...

【专利技术属性】
技术研发人员:陈文亮卢奇张民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1