当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种混合特征融合的中文化工文献分词方法技术

技术编号:26763909 阅读:16 留言:0更新日期:2020-12-18 23:31
本发明专利技术公开了一种混合特征融合的中文化工文献分词方法,首先构建化工科学文献语料库来训练中文分词任务;接着,利用BiLSTM和CNN提取并融合文档特征,结合边界特征构建条件随机场训练端到端中文分词模型;然后,开放模型接口,对用户输入文本进行分词;最后,通过ECharts渲染分词结果实现化工关键词可视化,系统接受用户反馈并进行处理。本发明专利技术将自然语言处理和深度学习方法应用于化工领域,通过特征融合提高对包含中英文专业词汇的化工中文文档分词效果,解决大量新词和中英文混合专业词汇给分词结果造成化工领域术语识别率低的问题。

【技术实现步骤摘要】
一种混合特征融合的中文化工文献分词方法
本专利技术属于自然语言处理和信息检索
,特别涉及一种混合特征融合的中文化工文献分词方法。
技术介绍
本专利技术中的中文化工文献分词方法对自然语言处理和信息检索有重要的作用和意义。借助大数据技术,从文本文档中提取结构化信息和发现知识并反馈给研究者,研究者们可以更科学地分析、总结实验结果,从而更好地指导化工生产实践。然而中文化工文档的数据处理往往面临更困难的局面,一方面,中文是用连续的字符序列编写的,单词之间不似英文有明显的空格界限。另一方面,化工领域文档中包含化学式以及中英文混合词汇,以致计算机难以识别有中文意义的专业单词。因此,将自然语言处理和深度学习等方法应用于化工领域具有很好的研究价值。中文分词(CWS,ChineseWordSegment),是进行中文自然语言处理的基础。到目前为止,已有的自动分词研究成果仍不能完全满足应用的需要,在一些专业关键领域问题上仍然值得继续探讨,如分词的规范性、切分歧义、未登录词识别、分词与理解的先后等。特征提取,针对传统机器学习的序列标注模型存在着特征向量稀疏而且维度庞大,导致内存和计算资源的浪费的缺点,利用深度学习(DNNs)自动学习和提取深度特征的优势可作为CWS的有效工具。中文里,CNN可以使用在句子里分词后的字层面,获取更多特征,BiLSTM相比于CNN的好处是能保留到远端的上下文信息,也符合文本的建模。BiLSTM可以学习上下文特征,但不利于编码,而CNN可以学习字符级拼写特征,但很难提取文本的序列化特征。>现有的中文分词任务已取得了很好的效果。然而,化工领域中文分词方法还存在以下问题:1、化工领域术语识别问题,提高新词识别率;2、大量新词和中英文混合专业词汇给分词结果带来了困难等问题。基于以上技术中存在的问题,本文提出一种基于混合特征融合的中文化工文献中文分词方法。
技术实现思路
专利技术目的:针对上述问题,本专利技术提供一种混合特征融合的中文化工文献分词方法,通过CNN和BiLSTM模型抽取文本特征,将融合后的特征输入到CRF层以获得更好的分词,从而解决化工领域术语识别无法分割等问题。技术方案:本专利技术提出一种混合特征融合的中文化工文献分词方法,包括如下步骤:(1)从化工科学文献挖掘中文化工文献数据,并对文献数据进行预处理,得到清洗后语料T1,提取关键词构建化学技术行业中英文关键词库K;(2)使用化学技术行业中英文关键词库K对挖掘的语料库数据进行分词标记和词性标注,得到化工文献语料T2,构建中英文词典V,训练并得到word2vec语言模型W;(3)输入化工文献语料T2,处理每一条文本记录,通过语言模型W处理得到字向量序列S,分别输入到预先构建的CNN和BiLSTM模型中抽取局部特征Fc和上下文特征Fb,并融合特征Fc和Fb,得到新的特征F;(4)将步骤(3)得到新的特征F输入CRF模型,利用邻居标签信息提高标签标记准确性,训练混合特征融合的端到端中文分词模型,得到训练后的模型M;(5)开放word2vec语言模型接口API,获取用户输入带分词文本T′,调用W模型接口对文本进行处理得到对应词向量;(6)开放中文分词模型接口API,调用M模型接口,利用混合特征融合的中文分词模型M处理得到分词结果;封装分词结果返还WEB平台,通过ECharts对实体信息可视化返回用户,用户判断分词准确性并反馈处理,分词过程结束。进一步地,所述步骤(1)包括以下步骤:(11)挖掘中文化工文献数据,包括文献摘要和关键词;(12)对挖掘的化工文献数据进行去重,去除标点符号及特殊字符,得到清洗后语料库T1,其中T1={t1,t2,t3,…,tN},N为语料库大小;(13)提取关键词构建化学技术行业中英文关键词库K。进一步地,所述步骤(2)包括以下步骤:(21)将步骤(1)中清洗后的语料库T1输入到自动化分词和词性标注程序中;(22)定义循环变量i1,赋初始值为1,遍历清洗后语料库T1;(23)如果i1≤N则跳转到步骤(24),否则跳转到步骤(26);(24)使用化学技术行业中英文关键词库K对记录T1i1进行分词标记和词性标注,得到(word,label)二元组,word表示单词,label表示词性标记;(25)i1=i1+1,转到步骤(23);(26)使用YEDDA工具对标注后的数据进行补充标注,手动标识未匹配的关键词;(27)构建中英文词典V;(28)将分词后文本输入word2vec语言模型,训练并得到word2vec语言模型W。进一步地,所述步骤(3)包括以下步骤:(301)将化工文献语料T2输入到步骤(2)获得的语言模型W中;(302)定义循环变量i2,赋初始值为1,遍历化工文献语料T2;(303)如果i2≤N则跳转到步骤(304),否则跳转到步骤(312);(304)对文本T2i2进行文本字符化,使文本切分为Max_len个字符,对超过长度Max_len的字符进行截断,长度不足以字符0标识;(305)将文本T2i2通过word2vec语言模型W映射编码,得到字符w(i)组成的文本映射到文本矩阵s(i)=w(1),w(2),...,w(i);(306)输入文本矩阵s(i),对其进行卷积操作,提取s(i)的局部特征C,计算公式为ci=RELU(X·W(i:i+r-1)+b),其中,X为r×k的滤波器,b为偏置;W(i:i+r-1)为s(i)从i到i+r-1的r行向量;ci表示通过卷积操作得到的局部特征;(307)通过最大池化的方法提取值最大的特征代替整个局部特征,以大幅降低特征向量的大小:di=max(C),其中C={c1,c2,...,cr};(308)最后将所有池化后得到的向量输入全连接层进行组合输出特征向量Fc(i2)={d1,d2,...,dMax_len};(309)输入文本矩阵s(i),对其进行卷积操作,提取s(i)的上下文特征L;(310)分别计算t时刻LSTM前向语义输出Lf(t)和后向语义输出Lb(t);(311)拼接隐藏层单向和反向输出Lt=Lf(t)+Lb(t),来捕获文档句子前后之间的语义信息,得到全局性文本特征Fb(i2)={L1,L2,...,LMax_len};(312)i2=i2+1,转至步骤(303);(313)得到包含局部特征的特征向量集合Fc和包含上下文特征向量集合Fb;(314)将两个特征向量融合以获得新的向量序列F=concat(Fc,Fb)。进一步地,所述步骤(4)包括以下步骤:(41)步骤(3)得到的特征F及对应的序列标记Y作为CRF模型的输入;(42)关注句子级别利用邻居标签信息,拟合F和Y之间的关系:Z(x)为归一化因子,可表示为Z(x)=∑yexp(∑i,kvitk(yi-1,yi,x,i)+∑i,luisl本文档来自技高网...

【技术保护点】
1.一种混合特征融合的中文化工文献分词方法,其特征在于,包括如下步骤:/n(1)从化工科学文献挖掘中文化工文献数据,并对文献数据进行预处理,得到清洗后语料T1,提取关键词构建化学技术行业中英文关键词库K;/n(2)使用化学技术行业中英文关键词库K对挖掘的语料库数据进行分词标记和词性标注,得到化工文献语料T2,构建中英文词典V,训练并得到word2vec语言模型W;/n(3)输入化工文献语料T2,处理每一条文本记录,通过语言模型W处理得到字向量序列S,分别输入到预先构建的CNN和BiLSTM模型中抽取局部特征Fc和上下文特征Fb,并融合特征Fc和Fb,得到新的特征F;/n(4)将步骤(3)得到新的特征F输入CRF模型,利用邻居标签信息提高标签标记准确性,训练混合特征融合的端到端中文分词模型,得到训练后的模型M;/n(5)开放word2vec语言模型接口API,获取用户输入带分词文本T′,调用W模型接口对文本进行处理得到对应词向量;/n(6)开放中文分词模型接口API,调用M模型接口,利用混合特征融合的中文分词模型M处理得到分词结果;封装分词结果返还WEB平台,通过ECharts对实体信息可视化返回用户,用户判断分词准确性并反馈处理,分词过程结束。/n...

【技术特征摘要】
1.一种混合特征融合的中文化工文献分词方法,其特征在于,包括如下步骤:
(1)从化工科学文献挖掘中文化工文献数据,并对文献数据进行预处理,得到清洗后语料T1,提取关键词构建化学技术行业中英文关键词库K;
(2)使用化学技术行业中英文关键词库K对挖掘的语料库数据进行分词标记和词性标注,得到化工文献语料T2,构建中英文词典V,训练并得到word2vec语言模型W;
(3)输入化工文献语料T2,处理每一条文本记录,通过语言模型W处理得到字向量序列S,分别输入到预先构建的CNN和BiLSTM模型中抽取局部特征Fc和上下文特征Fb,并融合特征Fc和Fb,得到新的特征F;
(4)将步骤(3)得到新的特征F输入CRF模型,利用邻居标签信息提高标签标记准确性,训练混合特征融合的端到端中文分词模型,得到训练后的模型M;
(5)开放word2vec语言模型接口API,获取用户输入带分词文本T′,调用W模型接口对文本进行处理得到对应词向量;
(6)开放中文分词模型接口API,调用M模型接口,利用混合特征融合的中文分词模型M处理得到分词结果;封装分词结果返还WEB平台,通过ECharts对实体信息可视化返回用户,用户判断分词准确性并反馈处理,分词过程结束。


2.根据权利要求1所述的混合特征融合的中文化工文献分词方法,其特征在于,所述步骤(1)包括以下步骤:
(11)挖掘中文化工文献数据,包括文献摘要和关键词;
(12)对挖掘的化工文献数据进行去重,去除标点符号及特殊字符,得到清洗后语料库T1,其中T1={t1,t2,t3,…,tN},N为语料库大小;
(13)提取关键词构建化学技术行业中英文关键词库K。


3.根据权利要求1所述的混合特征融合的中文化工文献分词方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将步骤(1)中清洗后的语料库T1输入到自动化分词和词性标注程序中;
(22)定义循环变量i1,赋初始值为1,遍历清洗后语料库T1;
(23)如果i1≤N则跳转到步骤(24),否则跳转到步骤(26);
(24)使用化学技术行业中英文关键词库K对记录T1i1进行分词标记和词性标注,得到(word,label)二元组,word表示单词,label表示词性标记;
(25)i1=i1+1,转到步骤(23);
(26)使用YEDDA工具对标注后的数据进行补充标注,手动标识未匹配的关键词;
(27)构建中英文词典V;
(28)将分词后文本输入word2vec语言模型,训练并得到word2vec语言模型W。


4.根据权利要求1所述的混合特征融合的中文化工文献分词方法,其特征在于,所述步骤(3)包括以下步骤:
(301)将化工文献语料T2输入到步骤(2)获得的语言模型W中;
(302)定义循环变量i2,赋初始值为1,遍历化工文献语料T2;
(303)如果i2≤N则跳转到步骤(304),否则跳转到步骤(312);
(304)对文本T2i2进行文本字符化,使文本切分为Max_len个字符,对超过长度Max_len的字符进行截断,长度不足以字符0标识;
(305)将文本T2i2通过word2vec语言模型W映射编码,得到字符w(i)组成的文本映射到文本矩阵s(i)=w(1),w(2),...,w(i);
(306)输入文本矩阵s(i),对其进行卷积操作,提取s(i)的局部特征C,计算公式为ci=RELU(X·W(i:i+r-1)+b),其中,X为r×k的滤波器,b为偏置;W(i:i+r-1)为s(i)从i到i+r-1的...

【专利技术属性】
技术研发人员:李翔张柯文朱全银高尚兵王媛媛丁行硕沈天宇
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1