一种文本分析知识库的构建方法技术

技术编号:19009118 阅读:207 留言:0更新日期:2018-09-22 08:59
本发明专利技术公开了一种文本分析知识库的构建方法,它涉及文本类数据分析领域。包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充。本发明专利技术基于此知识库,在进行文本类数据的分析或相关智能应用时,可以让计算机理解新词或业务领域专有词汇,去除无效内容,并对特定场景形成准确的情感倾向判断。

A method of constructing knowledge base for text analysis

The invention discloses a method for constructing a text analysis knowledge base, which relates to the field of text class data analysis. It includes proprietary dictionary module, invalid sentence library module, affective dictionary module and affective rule library module; the proprietary dictionary module mainly analyzes new words and proprietary vocabulary in the domain; the invalid sentence library module mainly contains the content without actual meaning in the domain, which is easy to interfere with understanding and analysis; and the situation described. Sensory dictionary module is mainly the score of affective words and emotional inclination in the domain, and the affective rule base module is mainly a supplement to the use of emotional dictionary. Based on this knowledge base, the invention can enable a computer to understand new words or business domain-specific vocabulary, remove invalid content, and form an accurate judgment of emotional orientation for a specific scene when analyzing text data or related intelligent applications.

【技术实现步骤摘要】
一种文本分析知识库的构建方法
本专利技术涉及的是文本类数据分析领域,具体涉及一种知识库的构建方法,该知识库主要用于文本类数据的基础处理和分析。
技术介绍
目前对于文本类数据的知识库,主要集中在实体关系和问答两个方面。实体关系类主要是帮助计算机做联想,例如刘德华(实体)-职业(关系)-演员(实体),这一组知识,以实体-关系-实体的形式关联并存储,使用时当输入“刘德华,职业”时,可以找到演员,从而实现知识库的使用。另一部分是问答,主要用在自动客服领域,例如“今天天气怎么样/今天天气如何/今天什么天”-“今天*获取天气预报数据*”,这一组知识,以多对一或多对多映射的形式存储,使用时当输入“今天天气怎么样/今天天气如何/今天什么天”等问题时,计算机会获取相应答案“今天*获取天气预报数据*”进行回答。这些知识库的构建,主要是针对文本类数据的后端的理解和应用,但对于文本类数据的基础处理分析,目前尚没有专门的知识库构建方法来进行支持,所产生的问题是:1.计算机无法对新词、业务领域特有词进行理解;2.文本中大量无效内容干扰了整体的分析和应用;3.对特定业务领域的情感倾向判断不准确。综上所述,本专利技术设计了一种文本分析知识库的构建方法。
技术实现思路
针对现有技术上存在的不足,本专利技术目的是在于提供一种文本分析知识库的构建方法,基于此知识库,在进行文本类数据的分析或相关智能应用时,可以让计算机理解新词或业务领域专有词汇,去除无效内容,并对特定场景形成准确的情感倾向判断。为了实现上述目的,本专利技术是通过如下的技术方案来实现:一种文本分析知识库的构建方法,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块。作为优选,所述的专有词典模块主要是分析领域的新词、专有词汇。作为优选,所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容。作为优选,所述的情感词典模块主要是领域内情感词和情感倾向得分。作为优选,所述的情感规则库模块主要是对情感词典使用的一个补充。本专利技术具有以下有益效果:1.本专利技术所设计的知识库构建方法,可以应用于通用的文本类数据分析和应用,不只限定于特定应用;2.本专利技术使文本类数据分析中的新词、业务领域专有词可以被机器识别和分析;3.本专利技术可以有效提高文本分析的精准性;4.本专利技术可以提高对于特定领域的文本情感分析。附图说明下面结合附图和具体实施方式来详细说明本专利技术;图1为本专利技术的构建框架图。具体实施方式为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。参照图1,本具体实施方式采用以下技术方案:一种文本分析知识库的构建方法,包括专有词典,无效语句库,情感词典和情感规则库四个模块。值得注意的是,所述的专有词典模块主要是分析领域的新词、专有词汇。比如,“爱疯”这个词是“iPhone”的代称,属于新词,属于网络用语词,也属于手机行业特有词,这样的词汇机器通常无法识别,只有加载到词典中,才可以完成识别,从而进行更准确的分析。值得注意的是,所述的专有词典可以不断加入新词汇,其加入词汇的方法可以是:1.直接加入词汇;2.加入词汇和权重;3.加入词汇和词性;4.词汇、词性和权重。加入后可以对词性和权重进行修改。使用时,根据需要将词典与分词工具或文本分析工具对接即可。值得注意的是,所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容。比如,词语“您好”和语句“很高兴为您服务”,他们在文本数据中没有实际含义,人工进行阅读时会直接忽略,但是对于机器会造成重复的分析扫描。同时语句中的“高兴”、“服务”等词汇,本身有用,但在句中无意义,这样会影响到文本分析效果,如“高兴”会判断为正面情感,“服务”会判断为文本内容和具体服务相关。这类词汇、语句,剔除后能使文本分析更加准确有效。值得注意的是,所述的无效语句库可以加入无效的词汇和语句,加入方法为:1.无效词语直接加入库中;2.无效句子可以直接加入库中,或者用正则表达式的形式替代部分或全部内容并加入库中。使用时,将无效语句库和文本分析工具对接,剔除相关内容即可。值得注意的是,所述的情感词典模块主要是领域内情感词和情感倾向得分。比如:“热”这个词,在社交文本分析里常表示流行程度高,属于正面倾向;但在手机评论文本分析中常表示手机或电池发烫,属于负面倾向。定义了专有的情感词和情感倾向后,机器才能对文本进行准确的情感分析。值得注意的是,所述的情感词典可以单独或批量地添加情感词以及其对应的情感分数,加入方法为:添加情感词,设置情感词对应的情感分值。使用时,将情感词典与文本分析工具对接,结合适合的情感算法即可应用。值得注意的是,所述的情感规则库模块主要是对情感词典使用的一个补充。比如:当“高兴”这个正面倾向的情感词前面加上“不”字之后,情感将变为负面。定义了专有的情感规则后,机器基于情感词的情感分析才能更准确。此外,所述的情感规则库可以进行编辑设置后加入,加入后符合规则的模式都将对应相应的情感倾向。情感规则用如下元素进行组合来实现:1.单个词语,可以是任意具体词语;2.否定词,如“不”;3.修饰词,如“非常”;4.词性,如名词性;5.情感词,如正面词;6.概念词,如疾病名称。情感规则模式的编写主要由核心词、前置词、后置词组成,编写时将前文所述的不同内容放置到相应位置,每个位置有必须出现和不可出现两种选择,其中,核心词位置必须有词。情感规则最终的倾向性定义类型分为两种:1.转换情感,将核心词的情感进行程度增加或正负面反转的转换;2.固定情感,将整个规则直接定义为一个固定的情感分值。例如:前置词一位放置“否定词”,前置词二位放置修饰词“太”,核心词放置“正面词”,其定义的情感倾向为“情感程度降低,且倾向性反转”。使用时,将情感规则库、情感词典与文本分析工具对接即可应用,如当遇到文本数据“这道菜不是太好吃”时,情感规则匹配命中,将根据情感词“好吃”的情感程度进行降低,然后反转为负面倾向。以上显示和描述了本专利技术的基本原理和主要特征和本专利技术的优点。本行业的技术人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本专利技术要求保护范围由所附的权利要求书及其等效物界定。本文档来自技高网...
一种文本分析知识库的构建方法

【技术保护点】
1.一种文本分析知识库的构建方法,其特征在于,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充。

【技术特征摘要】
1.一种文本分析知识库的构建方法,其特征在于,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充。2.根据权利要求1所述的一种文本分析知识库的构建方法,其特征在于,所述的专有词典模块加入词汇的方法是:(1).直接加入词汇;(2).加入词汇和权重;(3).加入词汇和词性;(4).词汇、词性和权重;加入后可以对词性和权重进行修改;使用时,根据需要将词典与分词工具或文本分析工具对接即可。3.根据权利要求1所述的一种文...

【专利技术属性】
技术研发人员:王晓峰袁波
申请(专利权)人:上海蔚界信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1