一种混合特征融合的中文化工文献分词方法技术

技术编号：26763909 阅读：38 留言：0更新日期：2020-12-18 23:31

本发明专利技术公开了一种混合特征融合的中文化工文献分词方法，首先构建化工科学文献语料库来训练中文分词任务；接着，利用BiLSTM和CNN提取并融合文档特征，结合边界特征构建条件随机场训练端到端中文分词模型；然后，开放模型接口，对用户输入文本进行分词；最后，通过ECharts渲染分词结果实现化工关键词可视化，系统接受用户反馈并进行处理。本发明专利技术将自然语言处理和深度学习方法应用于化工领域，通过特征融合提高对包含中英文专业词汇的化工中文文档分词效果，解决大量新词和中英文混合专业词汇给分词结果造成化工领域术语识别率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种混合特征融合的中文化工文献分词方法
本专利技术属于自然语言处理和信息检索
，特别涉及一种混合特征融合的中文化工文献分词方法。
技术介绍
本专利技术中的中文化工文献分词方法对自然语言处理和信息检索有重要的作用和意义。借助大数据技术，从文本文档中提取结构化信息和发现知识并反馈给研究者，研究者们可以更科学地分析、总结实验结果，从而更好地指导化工生产实践。然而中文化工文档的数据处理往往面临更困难的局面，一方面，中文是用连续的字符序列编写的，单词之间不似英文有明显的空格界限。另一方面，化工领域文档中包含化学式以及中英文混合词汇，以致计算机难以识别有中文意义的专业单词。因此，将自然语言处理和深度学习等方法应用于化工领域具有很好的研究价值。中文分词(CWS，ChineseWordSegment)，是进行中文自然语言处理的基础。到目前为止，已有的自动分词研究成果仍不能完全满足应用的需要，在一些专业关键领域问题上仍然值得继续探讨，如分词的规范性、切分歧义、未登录词识别、分词与理解的先后等。特征提取，针对传统机器学习的...

【技术保护点】
1.一种混合特征融合的中文化工文献分词方法，其特征在于，包括如下步骤：/n(1)从化工科学文献挖掘中文化工文献数据，并对文献数据进行预处理，得到清洗后语料T1，提取关键词构建化学技术行业中英文关键词库K；/n(2)使用化学技术行业中英文关键词库K对挖掘的语料库数据进行分词标记和词性标注，得到化工文献语料T2，构建中英文词典V，训练并得到word2vec语言模型W；/n(3)输入化工文献语料T2，处理每一条文本记录，通过语言模型W处理得到字向量序列S，分别输入到预先构建的CNN和BiLSTM模型中抽取局部特征Fc和上下文特征Fb，并融合特征Fc和Fb，得到新的特征F；/n(4)将步骤(3)得到新...

【技术特征摘要】
1.一种混合特征融合的中文化工文献分词方法，其特征在于，包括如下步骤：
(1)从化工科学文献挖掘中文化工文献数据，并对文献数据进行预处理，得到清洗后语料T1，提取关键词构建化学技术行业中英文关键词库K；
(2)使用化学技术行业中英文关键词库K对挖掘的语料库数据进行分词标记和词性标注，得到化工文献语料T2，构建中英文词典V，训练并得到word2vec语言模型W；
(3)输入化工文献语料T2，处理每一条文本记录，通过语言模型W处理得到字向量序列S，分别输入到预先构建的CNN和BiLSTM模型中抽取局部特征Fc和上下文特征Fb，并融合特征Fc和Fb，得到新的特征F；
(4)将步骤(3)得到新的特征F输入CRF模型，利用邻居标签信息提高标签标记准确性，训练混合特征融合的端到端中文分词模型，得到训练后的模型M；
(5)开放word2vec语言模型接口API，获取用户输入带分词文本T′，调用W模型接口对文本进行处理得到对应词向量；
(6)开放中文分词模型接口API，调用M模型接口，利用混合特征融合的中文分词模型M处理得到分词结果；封装分词结果返还WEB平台，通过ECharts对实体信息可视化返回用户，用户判断分词准确性并反馈处理，分词过程结束。

2.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(1)包括以下步骤：
(11)挖掘中文化工文献数据，包括文献摘要和关键词；
(12)对挖掘的化工文献数据进行去重，去除标点符号及特殊字符，得到清洗后语料库T1，其中T1＝{t1，t2，t3，…，tN}，N为语料库大小；
(13)提取关键词构建化学技术行业中英文关键词库K。

3.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(2)包括以下步骤：
(21)将步骤(1)中清洗后的语料库T1输入到自动化分词和词性标注程序中；
(22)定义循环变量i1，赋初始值为1，遍历清洗后语料库T1；
(23)如果i1≤N则跳转到步骤(24)，否则跳转到步骤(26)；
(24)使用化学技术行业中英文关键词库K对记录T1i1进行分词标记和词性标注，得到(word，label)二元组，word表示单词，label表示词性标记；
(25)i1＝i1+1，转到步骤(23)；
(26)使用YEDDA工具对标注后的数据进行补充标注，手动标识未匹配的关键词；
(27)构建中英文词典V；
(28)将分词后文本输入word2vec语言模型，训练并得到word2vec语言模型W。

4.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(3)包括以下步骤：
(301)将化工文献语料T2输入到步骤(2)获得的语言模型W中；
(302)定义循环变量i2，赋初始值为1，遍历化工文献语料T2；
(303)如果i2≤N则跳转到步骤(304)，否则跳转到步骤(312)；
(304)对文本T2i2进行文本字符化，使文本切分为Max_len个字符，对超过长度Max_len的字符进行截断，长度不足以字符0标识；
(305)将文本T2i2通过word2vec语言模型W映射编码，得到字符w(i)组成的文本映射到文本矩阵s(i)＝w(1)，w(2)，...，w(i)；
(306)输入文本矩阵s(i)，对其进行卷积操作，提取s(i)的局部特征C，计算公式为ci＝RELU(X·W(i：i+r-1)+b)，其中，X为r×k的滤波器，b为偏置；W(i：i+r-1)为s(i)从i到i+r-1的...

【专利技术属性】
技术研发人员：李翔，张柯文，朱全银，高尚兵，王媛媛，丁行硕，沈天宇，
申请(专利权)人：淮阴工学院，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人