The invention discloses a real-time text viewpoint extraction method based on grammar tree, which includes steps: a) input text statement, which contains a descriptor or an emotional word; b) split the text statement into sentences; c) analyze the grammatical dependence of each sentence to obtain a semantic relationship graph, which is a directed acyclic graph with vertex of the graph being a directed acyclic graph. The edges of the graph are grammatical dependence between words and parts of speech; d) searching for phrases with specific patterns in the semantic relation graph; e) merging synonyms; f) counting phrase frequency; g) calculating phrase ranking; h) extracting the highest ranking viewpoints, and so on. The invention is different from the traditional algorithm, can directly extract the important points in the comments, rather than a single word, and has important optimization in computational efficiency and real-time.
【技术实现步骤摘要】
一种基于语法树的实时文本观点抽取方法
本专利技术涉及一种基于语法树的实时文本观点抽取方法。
技术介绍
随着互联网的发展,在线购物平台越来越多。购物平台通常允许用户对买过的商品发表自己的评论,久而久之就积累了大量的评论数据。对评论文本的挖掘有重要的应用价值:对于买家,可以参考别人的评论选购适合自己的商品;对于卖家可以参考评论改进自己产品的缺陷或提高服务质量。然而面对海量的评论数据人工逐条阅读的方法是费时又费力的。所以需要借助自然语言处理算法抽取评论中的关键点。传统的文本关键点抽取方法包括:1.基于词频和逆文本频率的方法。2.模仿网页排名算法(PageRank)的TextRank算法。3.LDA主题模型。这些算法对传统文本内容比如网页、学术论文关键点的抽取比较有效,但是对于在线评论效果不甚理想,具体体现在以下几个方面:1.偏重于抽取单个词,而不是一个意义完整的观点。2.有价值的负面观点容易被埋没。3.计算复杂程度高,对于实时性要求高的场合不适合。
技术实现思路
本专利技术的目的在于克服以上存在的技术问题,提供一种基于语法树的实时文本观点抽取方法。为实现上述目的,本专利技术采用如下的技术方案:一种基于语法树的实时文本观点抽取方法,该方法包括步骤:a)输入文本语句,所述文本语句包含一个描述词或情感词;b)对所述文本语句进行拆分成句子;c)对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖;d)在语义关系图中搜索出特定模式的短语;e)同义词合并;f)统计短语频数;g)计算词组排名;h)抽取 ...
【技术保护点】
1.一种基于语法树的实时文本观点抽取方法,其特征在于,该方法包括步骤:a)输入文本语句,所述文本语句包含一个描述词或情感词;b)对所述文本语句进行拆分成句子;c)对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖;d)在语义关系图中搜索出特定模式的短语;e)同义词合并;f)统计短语频数;g)计算词组排名;h)抽取排名最高的观点,至此结束。
【技术特征摘要】
1.一种基于语法树的实时文本观点抽取方法,其特征在于,该方法包括步骤:a)输入文本语句,所述文本语句包含一个描述词或情感词;b)对所述文本语句进行拆分成句子;c)对每个句子分析语法依赖,得到语义关系图,所述语义关系图是一个有向无环图,图的顶点是句子中出现的词和词性,图的边是词与词之间的语法依赖;d)在语义关系图中搜索出特定模式的短语;e)同义词合并;f)统计短语频数;g)计算词组排名;h)抽取排名最高的观点,至此结束。2.根据权利要求1所述的基于语法树的实时文本观点抽取方法,其特征在于,所述特定模式的短语包括名词+形容词模式的短语、To不定式形式的短语、动词+副词形式的短语、动词+名词形式的短语和With短语。3.根据权利要求2所述的基于语法树的实时文本观点抽取方法,其特征在于,所述名词+形容词模式的短语的搜索步骤为:(1)遍历所有名词节点;(2)判断该名词是否在黑名单中;(3)获取该名词节点的父节点;(4)遍历该名词节点的子节点;(5)判断子节点和该节点的语法关系是否为“amod”或“dep”;(6)如果步骤(5)返回true且子节点的词性是形容词(JJ),则把该名词和该子节点组合成短语加入候选列表;(7)如果父节点是形容词且与父节点的关系是”nsubj”,则把该名词和父节点组合成短语加入候选列表...
【专利技术属性】
技术研发人员:颜鹏,丁圣超,
申请(专利权)人:北京所问数据科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。