一种基于语法树的实时文本观点抽取方法技术

技术编号:20176827 阅读:41 留言:0更新日期:2019-01-23 00:24
本发明专利技术公开了一种基于语法树的实时文本观点抽取方法,该方法包括步骤:a)输入文本语句,所述文本语句包含一个描述词或情感词;b)对所述文本语句进行拆分成句子;c)对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖;d)在语义关系图中搜索出特定模式的短语;e)同义词合并;f)统计短语频数;g)计算词组排名;h)抽取排名最高的观点,至此结束。本发明专利技术不同于传统的算法,可以直接抽取出评论中的重要观点,而不是单个词,并且在计算效率和实时性上有重要优化。

A Real-time Text Viewpoint Extraction Method Based on Grammar Tree

The invention discloses a real-time text viewpoint extraction method based on grammar tree, which includes steps: a) input text statement, which contains a descriptor or an emotional word; b) split the text statement into sentences; c) analyze the grammatical dependence of each sentence to obtain a semantic relationship graph, which is a directed acyclic graph with vertex of the graph being a directed acyclic graph. The edges of the graph are grammatical dependence between words and parts of speech; d) searching for phrases with specific patterns in the semantic relation graph; e) merging synonyms; f) counting phrase frequency; g) calculating phrase ranking; h) extracting the highest ranking viewpoints, and so on. The invention is different from the traditional algorithm, can directly extract the important points in the comments, rather than a single word, and has important optimization in computational efficiency and real-time.

【技术实现步骤摘要】
一种基于语法树的实时文本观点抽取方法
本专利技术涉及一种基于语法树的实时文本观点抽取方法。
技术介绍
随着互联网的发展,在线购物平台越来越多。购物平台通常允许用户对买过的商品发表自己的评论,久而久之就积累了大量的评论数据。对评论文本的挖掘有重要的应用价值:对于买家,可以参考别人的评论选购适合自己的商品;对于卖家可以参考评论改进自己产品的缺陷或提高服务质量。然而面对海量的评论数据人工逐条阅读的方法是费时又费力的。所以需要借助自然语言处理算法抽取评论中的关键点。传统的文本关键点抽取方法包括:1.基于词频和逆文本频率的方法。2.模仿网页排名算法(PageRank)的TextRank算法。3.LDA主题模型。这些算法对传统文本内容比如网页、学术论文关键点的抽取比较有效,但是对于在线评论效果不甚理想,具体体现在以下几个方面:1.偏重于抽取单个词,而不是一个意义完整的观点。2.有价值的负面观点容易被埋没。3.计算复杂程度高,对于实时性要求高的场合不适合。
技术实现思路
本专利技术的目的在于克服以上存在的技术问题,提供一种基于语法树的实时文本观点抽取方法。为实现上述目的,本专利技术采用如下的技术方案:一种基于语法树的实时文本观点抽取方法,该方法包括步骤:a)输入文本语句,所述文本语句包含一个描述词或情感词;b)对所述文本语句进行拆分成句子;c)对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖;d)在语义关系图中搜索出特定模式的短语;e)同义词合并;f)统计短语频数;g)计算词组排名;h)抽取排名最高的观点,至此结束。进一步地,所述特定模式的短语包括名词+形容词模式的短语、To不定式形式的短语、动词+副词形式的短语、动词+名词形式的短语和With短语。进一步地,所述名词+形容词模式的短语的搜索步骤为:(1)遍历所有名词节点;(2)判断该名词是否在黑名单中;(3)获取该名词节点的父节点;(4)遍历该名词节点的子节点;(5)判断子节点和该节点的语法关系是否为“amod”或“dep”;(6)如果步骤(5)返回true且子节点的词性是形容词(JJ),则把该名词和该子节点组合成短语加入候选列表;(7)如果父节点是形容词且与父节点的关系是”nsubj”,则把该名词和父节点组合成短语加入候选列表。进一步地,所述To不定式形式的短语的搜索步骤为:(1)遍历语义关系图的所有边集;(2)如果依赖关系为“mark”且主词词性为动词,依赖词词性为形容词则组合成词组加入候选列表。进一步地,所述动词+副词形式的短语的搜索步骤为:(1)遍历所有动词节点;(2)搜索与每个动词节点具有“advmod”关系的子节点;(3)如果子节点的词性为副词“RB”则把动词和副词拼成短语加入候选列表。进一步地,所述动词+名词形式的短语的搜索步骤为:(1)遍历所有名词节点;(2)如果该名词与其父节点的关系是“nsubj”或“dobj”且父节点是动词则加入候选列表。进一步地,所述With短语的搜索步骤为:(1)遍历所有关系为“nmod:with”的边集;(2)如果关系的主导词是动词且依赖词是名词则加入候选列表。进一步地,所述步骤3)同义词合并的具体步骤为:(1)每一组近义词选出一个代表;(2)如果短语中出现的词有近义词,则用代表词替换。本专利技术不同于传统的算法,可以直接抽取出评论中的重要观点,而不是单个词,并且在计算效率和实时性上有重要优化。附图说明图1:本专利技术一种基于语法树的实时文本观点抽取方法的流程图。具体实施方式下面结合附图及实施例对本专利技术进行详细说明。本专利技术的方案先是抽取出一段文本中的观点,然后对文本中的观点做过滤,最后筛选出最有价值的观点。S1:本实施例先定义一个观点,即输入文本语句,该文本语句首先必须包含一个aspect,即事物的某一个方面,然后必须包含一个描述词或情感词。S2:对所述文本语句进行拆分成句子。S3:对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖,比如主谓关系、复合关系、否定关系等。S4:在语义关系图中搜索出特定模式的短语,本实施例定义了5种基本形式,还可以在此基础上扩充,包括:名词+形容词模式的短语、To不定式形式的短语、动词+副词形式的短语、动词+名词形式的短语和With短语。名词+形容词模式的短语,比如:colorsbright(色彩艳丽),curledpartsoft(弯曲部分很软)。其具体的搜索步骤为:(1)遍历所有名词节点;(2)判断该名词是否在黑名单中;(3)获取该名词节点的父节点;(4)遍历该名词节点的子节点;(5)判断子节点和该节点的语法关系是否为“amod”或“dep”;(6)如果步骤(5)返回true且子节点的词性是形容词(JJ),则把该名词和该子节点组合成短语加入候选列表;(7)如果父节点是形容词且与父节点的关系是”nsubj”,则把该名词和父节点组合成短语加入候选列表。To不定式形式的短语,比如:easytohold。其具体的搜索步骤为:(1)遍历语义关系图的所有边集;(2)如果依赖关系为“mark”且主词词性为动词,依赖词词性为形容词则组合成词组加入候选列表。动词+副词形式的短语,比如:arrivequickly。其具体的搜索步骤为:(1)遍历所有动词节点;(2)搜索与每个动词节点具有“advmod”关系的子节点;(3)如果子节点的词性为副词“RB”则把动词和副词拼成短语加入候选列表。动词+名词形式的短语,比如:dryhair(弄干头发)。其具体的搜索步骤为:(1)遍历所有名词节点;(2)如果该名词与其父节点的关系是“nsubj”或“dobj”且父节点是动词则加入候选列表。With短语,比如:helpedwithteachin,其具体的搜索步骤为:(1)遍历所有关系为“nmod:with”的边集;(2)如果关系的主导词是动词且依赖词是名词则加入候选列表。S5:同义词合并,具体步骤为:(1)每一组近义词选出一个代表;(2)如果短语中出现的词有近义词,则用代表词替换。S6:统计短语出现频率f和短语中负面词的个数n。S7)用公式f+k*n计算每个短语的权重,k可以根据情况调节,本实施例取的k=5。S8)将候选短语按照权重从高到低排序,取一定比例的词作为最终抽取出的观点。最后应说明的是:以上实施例仅用以说明本专利技术而并非限制本专利技术所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本专利技术已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本专利技术进行修改或等同替换;而一切不脱离本专利技术的精神和范围的技术方案及其改进,其均应涵盖在本专利技术的权利要求范围中。本文档来自技高网...

【技术保护点】
1.一种基于语法树的实时文本观点抽取方法,其特征在于,该方法包括步骤:a)输入文本语句,所述文本语句包含一个描述词或情感词;b)对所述文本语句进行拆分成句子;c)对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖;d)在语义关系图中搜索出特定模式的短语;e)同义词合并;f)统计短语频数;g)计算词组排名;h)抽取排名最高的观点,至此结束。

【技术特征摘要】
1.一种基于语法树的实时文本观点抽取方法,其特征在于,该方法包括步骤:a)输入文本语句,所述文本语句包含一个描述词或情感词;b)对所述文本语句进行拆分成句子;c)对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖;d)在语义关系图中搜索出特定模式的短语;e)同义词合并;f)统计短语频数;g)计算词组排名;h)抽取排名最高的观点,至此结束。2.根据权利要求1所述的基于语法树的实时文本观点抽取方法,其特征在于,所述特定模式的短语包括名词+形容词模式的短语、To不定式形式的短语、动词+副词形式的短语、动词+名词形式的短语和With短语。3.根据权利要求2所述的基于语法树的实时文本观点抽取方法,其特征在于,所述名词+形容词模式的短语的搜索步骤为:(1)遍历所有名词节点;(2)判断该名词是否在黑名单中;(3)获取该名词节点的父节点;(4)遍历该名词节点的子节点;(5)判断子节点和该节点的语法关系是否为“amod”或“dep”;(6)如果步骤(5)返回true且子节点的词性是形容词(JJ),则把该名词和该子节点组合成短语加入候选列表;(7)如果父节点是形容词且与父节点的关系是”nsubj”,则把该名词和父节点组合成短语加入候选列表...

【专利技术属性】
技术研发人员:颜鹏丁圣超
申请(专利权)人:北京所问数据科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1