当前位置: 首页 > 专利查询>福州大学专利>正文

基于层次嵌入的方面抽取方法技术

技术编号:19745172 阅读:35 留言:0更新日期:2018-12-12 04:43
本发明专利技术涉及一种基于层次嵌入的方面抽取方法,对原始语料执行多阶段的预处理操作,使用字符层次的嵌入和双向循环神经网络获得词的高层次特征,通过级联词嵌入与字符嵌入特征以作为词层次双向循环神经网络的输入,获得最终标注结果。本发明专利技术提出的一种基于层次嵌入的方面抽取方法,有效地提高方面抽取模型自动化的程度。

【技术实现步骤摘要】
基于层次嵌入的方面抽取方法
本专利技术涉及自然语言处理中的细粒度情感分析领域,特别是一种基于层次嵌入的方面抽取方法。
技术介绍
随着信息时代的到来,网络观点调查已经逐步取代了传统纸质问卷调查,不仅包括商品评论领域,还涉及社会公众事件、外交以及国家政策等领域。但是随着互联网便利性的增强,网络上涌现出大量的用户生成内容,除了新闻报道等客观信息外,带有主观色彩的评论数据也占据了很大一部分,且呈现出大数据化的发展趋势。对这些海量的数据进行细粒度的情感分析(又称观点挖掘),不仅有利于发现、分析及控制舆论,还可以帮助生产者改进产品、服务质量,以及帮助消费者做出购买决策。对评论文本进行细粒度情感分析,即挖掘出文本中的评价对象(又称方面)、观点词及观点持有者。如在笔记本电脑评论“Thebatterylifeislong”中,观点持有者即发布这条评论的消费者,用观点词“long”对方面短语“batterylife”进行描述。现如今,观点挖掘技术被广泛应用于自然语言处理、人工智能等领域。现有的方面抽取研究大多集中于基于规则或基于传统机器学习模型的方法。基于规则的方法简单易行、执行效率高,但性能严重依赖于专家制定的规则质量和语料中语法的正确性;基于传统机器学习模型的方法,大多采用HMM模型和CRF模型,本质上是将方面抽取看成是一个序列标注任务,获得比基于规则更高的性能,但是该类方法需要大量的特征工程,性能也严重依赖于所选特征的质量。
技术实现思路
本专利技术的目的在于提供一种基于层次嵌入的方面抽取方法,以克服现有技术中存在的缺陷。为实现上述目的,本专利技术的技术方案是:一种基于层次嵌入的方面抽取方法,按照如下步骤实现:步骤S1:对在线评论文本进行预处理;步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;步骤S3:进行字符嵌入和单词嵌入初始化;步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。在本专利技术一实施例中,在所述步骤S1中,所述预处理还包括如下步骤:步骤S11:进行分词处理;采用NLTK工具提供的正则分词器,并设置正则匹配规则;步骤S12:进行特殊符号处理;移除文本中出现的各种标点符号;步骤S13:进行数字处理;将语料中的所有数字都用单词“DIGIT”进行替换;步骤S14:进行转小写处理;将同一个单词的不同大小写形式都转换成统一的小写形式;步骤S15:进行词形还原处理;采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式;步骤S16:进行词干提取处理;采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。在本专利技术一实施例中,在所述步骤S2中,还包括如下步骤:步骤S21:选定低频词过滤阈值;根据如下公式过滤掉出现频次小于过滤阈值的单词;Lw={wi|fi<F}其中,fi为单词wi在所有语料中出现过的次数,F为相应的低频词过滤阈值,且F∈{1,2,3,4,5,6,7,8,9,10};步骤S22:进行低频词过滤;根据所选定的低频词过滤阈值,过滤掉所用到的语料中,出现次数少于该阈值的所有低频词。在本专利技术一实施例中,在所述步骤S3中,还包括如下步骤:步骤S31:采用GoogleEmbeddings初始化词嵌入;该GoogleEmbeddings在谷歌新闻语料上通过采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用GoogleEmbeddings进行向量化,如果该单词不存在于GoogleEmbedding,则将该单词标记为“UNKONWN”并进行相应的向量化;步骤S32:采用AmazonEmbeddings初始化词嵌入;该AmazonEmbeddings在Amazon商品评论语料上采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用AmazonEmbeddings进行向量化,如果该单词不存在于AmazonEmbeddings,则将该单词标记为“UNKONWN”并进行相应的向量化;步骤S33:随机初始化词嵌入;将每个单词随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dw={50,100,150,200,250,300};步骤S34:随机初始化字符嵌入;将单词中的每个字符都随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dc=150。在本专利技术一实施例中,在所述步骤S4中,还包括如下步骤:步骤S41:将每个单词Wi都表示成相应的字符序列,wi={ci1,ci2,...,cij};步骤S42:将每个单词对应字符序列中的每个字符,使用字符嵌入进行向量化处理;步骤S43:将字符序列按序输入到一个字符层次的双向长短期记忆网络中,其中,正向长短期记忆网络的输入序列为{ci1,ci2,...,cij},反向长短期记忆网络的输入序列为{cij,cij-1,...,ci1},一个长短期记忆网络的隐藏层单元计算公式如下:it=σ(Xixt+Hiht-1+Mimt-1+bi),ft=σ(Xfxt+Hfht-1+Mfmt-1+bf),mt=ft⊙mt-1+it⊙τ(Xmxt+Hmht-1+bm)ot=σ(Xoxt+Hoht-1+Momt+bo),ht=ot⊙τ(mt),其中,xt为当前时刻的输入,ht-1、mt-1分别为上一时刻隐藏层的输出和记忆细胞的输出,it、ft、mt和ot分别为当前时刻输入门、遗忘门、记忆细胞和输出门的状态,ht为该循环神经网络在t时刻的输出,门函数σ为sigmoid激活函数,τ为双曲正切函数,符号⊙代表两个向量对应元素的乘积,Xi、Hi、Mi、bi、Xf、Hf、Mf、bf、Xm、Hm、bm、Xo、Ho、Mo和bo为网络中的不同层之间的连接边的权重;步骤S44:将正向隐藏层输出向量与反向隐藏层输出向量进行级联,获得单词的字符层次的词特征,计算公式如下:其中,为正向隐藏层输出向量,为反向隐藏层输出向量,ht为级联后的向量。在本专利技术一实施例中,在所述步骤S5中,还包括如下步骤:步骤S51:将每条句子s表示为相应的单词序列,s=(w1,w2,...,wT);步骤S52:对每条句子中的单词,使用词嵌入进行向量化处理;步骤S53:将每个单词的词嵌入向量与其字符层次的词特征向量进行级联,作为一个词层次的双向长短期记忆网络的输入;步骤S54:将词层次双向长短期记忆网络的正向和反向隐藏层输出进行级联;步骤S55:将级联后的向量输入到网络输出层以进行分类,得到每个单词是否为方面词;使用softmax作为输出层的映射器,它会获得当前单词属于各个类别的概率分布,其计算公式如下:P(yt|ht)=softmax(Wht+b)其中,为word-biLSTM隐藏层与网络输出层之间的权重矩阵,|ht|为的隐藏层的维度,b为偏差向量,N=3为所有的类别数,即“B”、“I”、“O”三种。相较于现有技术,本专利技术具有以下有益效果:第一,设计一个包含多阶段的预处理流程,为后续步骤提供一个可靠的输入。第二,利用提本文档来自技高网...

【技术保护点】
1.一种基于层次嵌入的方面抽取方法,其特征在于,按照如下步骤实现:步骤S1:对在线评论文本进行预处理;步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;步骤S3:进行字符嵌入和单词嵌入初始化;步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。

【技术特征摘要】
1.一种基于层次嵌入的方面抽取方法,其特征在于,按照如下步骤实现:步骤S1:对在线评论文本进行预处理;步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;步骤S3:进行字符嵌入和单词嵌入初始化;步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。2.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S1中,所述预处理还包括如下步骤:步骤S11:进行分词处理;采用NLTK工具提供的正则分词器,并设置正则匹配规则;步骤S12:进行特殊符号处理;移除文本中出现的各种标点符号;步骤S13:进行数字处理;将语料中的所有数字都用单词“DIGIT”进行替换;步骤S14:进行转小写处理;将同一个单词的不同大小写形式都转换成统一的小写形式;步骤S15:进行词形还原处理;采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式;步骤S16:进行词干提取处理;采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。3.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S2中,还包括如下步骤:步骤S21:选定低频词过滤阈值;根据如下公式过滤掉出现频次小于过滤阈值的单词;Lw={wi|fi<F}其中,fi为单词wi在所有语料中出现过的次数,F为相应的低频词过滤阈值,且F∈{1,2,3,4,5,6,7,8,9,10};步骤S22:进行低频词过滤;根据所选定的低频词过滤阈值,过滤掉所用到的语料中,出现次数少于该阈值的所有低频词。4.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S3中,还包括如下步骤:步骤S31:采用GoogleEmbeddings初始化词嵌入;该GoogleEmbeddings在谷歌新闻语料上通过采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用GoogleEmbeddings进行向量化,如果该单词不存在于GoogleEmbedding,则将该单词标记为“UNKONWN”并进行相应的向量化;步骤S32:采用AmazonEmbeddings初始化词嵌入;该AmazonEmbeddings在Amazon商品评论语料上采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用AmazonEmbeddings进行向量化,如果该单词不存在于AmazonEmbeddings,则将该单词标记为“UNKONWN”并进行相应的向量化;步骤S33:随机初始化词嵌入;将每个单词随机初始化为预设固定维数的向量,向量中的...

【专利技术属性】
技术研发人员:刘漳辉肖顺鑫郭昆陈羽中
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1