一种评价信息的抽取方法、装置及设备制造方法及图纸

技术编号:19098571 阅读:44 留言:0更新日期:2018-10-03 02:39
本发明专利技术公开了一种评价信息抽取方法,通过对评论文本进行分词,得到由多个词组成的词序列,在得到词序列之后,只需要将词分别与该词相邻的预设个数的词组成词对,然后计算各个词对的相似度,并从中确定相似度最大的预设个数的词对,最后将其作为评价信息抽取出来,避免了对整句评论文本的分析,不需要预先已标注的训练词序列,也不需要构建复杂的模型或特征向量,更不需要考虑复杂的语法规则,大大降低了抽取评价信息的复杂度。此外,本发明专利技术还提供了一种评价信息的抽取装置、设备以及一种计算机可读存储介质,其作用与上述方法相对应。

【技术实现步骤摘要】
一种评价信息的抽取方法、装置及设备
本专利技术涉及计算机领域,特别涉及一种评价信息的抽取方法、装置、设备以及一种计算机可读存储介质。
技术介绍
评价信息抽取,是指将人们关心的评价信息从评价文本中抽取出来的过程。评价信息抽取属于情感信息抽取的范畴,情感信息抽取是情感分析的底层任务,情感分析是一个对带有情感色彩的主观性文本进行提取、分析、处理、归纳和推理的过程,在情感分析的过程当中,情感信息的抽取效果与上层情感分析的结果有直接关系,如果关于情感的关键信息没有被抽取出来,无论上层的分析工具如何完备,其结果都会不同于原文所表达的情感,可见,如何从评价文本中抽取出评价信息非常具有研究意义。目前,一种常见的评价信息抽取方法是基于条件随机场模型的序列标注的抽取方法。该方法将已知评价信息的评论文本作为训练集,以未知评价信息的评论文本作为预测集,通过分词工具将训练集中的每条评论文本由句子切分成若干个有序的词,得到词序列,并对词序列进行标注。利用标注后的训练集对模型进行训练,然后把预测集输入到训练好的模型,模型将输出对预测集的标注结果,最后,标注结果将被输入到若干个被称为特征模版的自定义函数中,由特征模本文档来自技高网...

【技术保护点】
1.一种评价信息的抽取方法,其特征在于,包括:对评论文本进行分词,得到由多个词组成的词序列;遍历所述词序列,将所述词与满足预设条件的词组成词对,其中,满足所述预设条件的词为在所述词序列中与该词相邻的且位于该词前的第一预设个数的词、以及位于该词后的第二预设个数的词;计算各个所述词对中词与词之间的相似度,得到多个相似度值;确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。

【技术特征摘要】
1.一种评价信息的抽取方法,其特征在于,包括:对评论文本进行分词,得到由多个词组成的词序列;遍历所述词序列,将所述词与满足预设条件的词组成词对,其中,满足所述预设条件的词为在所述词序列中与该词相邻的且位于该词前的第一预设个数的词、以及位于该词后的第二预设个数的词;计算各个所述词对中词与词之间的相似度,得到多个相似度值;确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。2.如权利要求1所述的方法,其特征在于,所述对评论文本进行分词,得到由多个词组成的词序列包括:根据参考词典对评论文本进行分词,得到由多个词组成的词序列;过滤所述词序列中的停用词。3.如权利要求2所述的方法,其特征在于,所述根据参考词典对评论文本进行分词,得到由多个词组成的词序列包括:预先确定需要抽取的评价对象,和/或评价用语,并构建观测词典;构建命名实体词典;根据所述观测词典和所述命名实体词典对评论文本进行分词,得到由多个词组成的词序列。4.如权利要求2所述的方法,其特征在于,所述遍历所述词序列,将所述词与满足预设条件的词组成词对包括:遍历所述词序列,确定所述词序列中满足预设要求的词;将所述满足预设要求的词与满足预设条件的词组成词对。5.如权利要求4所述的方法,其特征在于,所述遍历所述词序列,确定所述词序列中满足预设要求的词包括:遍历所述词序列,计算所述词序列中的所述词的近似词集合相似度;确定所述词序列的中所述近似词集合相似度大于预设阈值的词。6.如权利要求4所述的方法,其特征在于,所述遍历所述词序列,确定所述词序列中满足预设要求的词包括:遍历所述词序列,确定所述词序列中词性为预设词性的词;所述将所述满足预设要求的词与满足预设条件的词组成词对包括:将词性为所述预设词性的词,与满足预设条件的词组成词对;判断各个所述词对是否满足预设词性搭配要求;若所述词对不满足预设词性搭配要求,则删除该词对。7.如权利要求1-...

【专利技术属性】
技术研发人员:何溢张浩川余荣谢嘉元吴耿楠
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1