基于层次嵌入的方面抽取方法技术

技术编号：19745172 阅读：35 留言：0更新日期：2018-12-12 04:43

本发明专利技术涉及一种基于层次嵌入的方面抽取方法，对原始语料执行多阶段的预处理操作，使用字符层次的嵌入和双向循环神经网络获得词的高层次特征，通过级联词嵌入与字符嵌入特征以作为词层次双向循环神经网络的输入，获得最终标注结果。本发明专利技术提出的一种基于层次嵌入的方面抽取方法，有效地提高方面抽取模型自动化的程度。

全部详细技术资料下载

【技术实现步骤摘要】
基于层次嵌入的方面抽取方法
本专利技术涉及自然语言处理中的细粒度情感分析领域，特别是一种基于层次嵌入的方面抽取方法。
技术介绍
随着信息时代的到来，网络观点调查已经逐步取代了传统纸质问卷调查，不仅包括商品评论领域，还涉及社会公众事件、外交以及国家政策等领域。但是随着互联网便利性的增强，网络上涌现出大量的用户生成内容，除了新闻报道等客观信息外，带有主观色彩的评论数据也占据了很大一部分，且呈现出大数据化的发展趋势。对这些海量的数据进行细粒度的情感分析(又称观点挖掘)，不仅有利于发现、分析及控制舆论，还可以帮助生产者改进产品、服务质量，以及帮助消费者做出购买决策。对评论文本进行细粒度情感分析，即挖掘出文本中的评价对象(又称方面)、观点词及观点持有者。如在笔记本电脑评论“Thebatterylifeislong”中，观点持有者即发布这条评论的消费者，用观点词“long”对方面短语“batterylife”进行描述。现如今，观点挖掘技术被广泛应用于自然语言处理、人工智能等领域。现有的方面抽取研究大多集中于基于规则或基于传统机器学习模型的方法。基于规则的方法简单易行、执行效率高，但性能严重依赖于专家制定的规则质量和语料中语法的正确性；基于传统机器学习模型的方法，大多采用HMM模型和CRF模型，本质上是将方面抽取看成是一个序列标注任务，获得比基于规则更高的性能，但是该类方法需要大量的特征工程，性能也严重依赖于所选特征的质量。
技术实现思路
本专利技术的目的在于提供一种基于层次嵌入的方面抽取方法，以克服现有技术中存在的缺陷。为实现上述目的，本专利技术的技术方案是：一种基于层次...

【技术保护点】
1.一种基于层次嵌入的方面抽取方法，其特征在于，按照如下步骤实现：步骤S1：对在线评论文本进行预处理；步骤S2：对低频词进行过滤，过滤掉文本中出现频次小于预设阈值的单词；步骤S3：进行字符嵌入和单词嵌入初始化；步骤S4：通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征；步骤S5：将词嵌入特征和字符层次的词特征进行级联，通过采用词层次的双向循环神经网络获得最终的标注结果。

【技术特征摘要】
1.一种基于层次嵌入的方面抽取方法，其特征在于，按照如下步骤实现：步骤S1：对在线评论文本进行预处理；步骤S2：对低频词进行过滤，过滤掉文本中出现频次小于预设阈值的单词；步骤S3：进行字符嵌入和单词嵌入初始化；步骤S4：通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征；步骤S5：将词嵌入特征和字符层次的词特征进行级联，通过采用词层次的双向循环神经网络获得最终的标注结果。2.根据权利要求1所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S1中，所述预处理还包括如下步骤：步骤S11：进行分词处理；采用NLTK工具提供的正则分词器，并设置正则匹配规则；步骤S12：进行特殊符号处理；移除文本中出现的各种标点符号；步骤S13：进行数字处理；将语料中的所有数字都用单词“DIGIT”进行替换；步骤S14：进行转小写处理；将同一个单词的不同大小写形式都转换成统一的小写形式；步骤S15：进行词形还原处理；采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式；步骤S16：进行词干提取处理；采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。3.根据权利要求1所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S2中，还包括如下步骤：步骤S21：选定低频词过滤阈值；根据如下公式过滤掉出现频次小于过滤阈值的单词；Lw＝{wi|fi＜F}其中，fi为单词wi在所有语料中出现过的次数，F为相应的低频词过滤阈值，且F∈{1，2，3，4，5，6，7，8，9，10}；步骤S22：进行低频词过滤；根据所选定的低频词过滤阈值，过滤掉所用到的语料中，出现次数少于该阈值的所有低频词。4.根据权利要求1所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S3中，还包括如下步骤：步骤S31：采用GoogleEmbeddings初始化词嵌入；该GoogleEmbeddings在谷歌新闻语料上通过采用基于词袋的模型进行训练建立，其中，每个单词都被表示成一个固定维度为300维的向量；将经预处理和低频词过滤后的所有单词使用GoogleEmbeddings进行向量化，如果该单词不存在于GoogleEmbedding，则将该单词标记为“UNKONWN”并进行相应的向量化；步骤S32：采用AmazonEmbeddings初始化词嵌入；该AmazonEmbeddings在Amazon商品评论语料上采用基于词袋的模型进行训练建立，其中，每个单词都被表示成一个固定维度为300维的向量；将经预处理和低频词过滤后的所有单词使用AmazonEmbeddings进行向量化，如果该单词不存在于AmazonEmbeddings，则将该单词标记为“UNKONWN”并进行相应的向量化；步骤S33：随机初始化词嵌入；将每个单词随机初始化为预设固定维数的向量，向量中的...

【专利技术属性】
技术研发人员：刘漳辉，肖顺鑫，郭昆，陈羽中，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人