The invention discloses a method for constructing a text analysis knowledge base, which relates to the field of text class data analysis. It includes proprietary dictionary module, invalid sentence library module, affective dictionary module and affective rule library module; the proprietary dictionary module mainly analyzes new words and proprietary vocabulary in the domain; the invalid sentence library module mainly contains the content without actual meaning in the domain, which is easy to interfere with understanding and analysis; and the situation described. Sensory dictionary module is mainly the score of affective words and emotional inclination in the domain, and the affective rule base module is mainly a supplement to the use of emotional dictionary. Based on this knowledge base, the invention can enable a computer to understand new words or business domain-specific vocabulary, remove invalid content, and form an accurate judgment of emotional orientation for a specific scene when analyzing text data or related intelligent applications.
【技术实现步骤摘要】
一种文本分析知识库的构建方法
本专利技术涉及的是文本类数据分析领域,具体涉及一种知识库的构建方法,该知识库主要用于文本类数据的基础处理和分析。
技术介绍
目前对于文本类数据的知识库,主要集中在实体关系和问答两个方面。实体关系类主要是帮助计算机做联想,例如刘德华(实体)-职业(关系)-演员(实体),这一组知识,以实体-关系-实体的形式关联并存储,使用时当输入“刘德华,职业”时,可以找到演员,从而实现知识库的使用。另一部分是问答,主要用在自动客服领域,例如“今天天气怎么样/今天天气如何/今天什么天”-“今天*获取天气预报数据*”,这一组知识,以多对一或多对多映射的形式存储,使用时当输入“今天天气怎么样/今天天气如何/今天什么天”等问题时,计算机会获取相应答案“今天*获取天气预报数据*”进行回答。这些知识库的构建,主要是针对文本类数据的后端的理解和应用,但对于文本类数据的基础处理分析,目前尚没有专门的知识库构建方法来进行支持,所产生的问题是:1.计算机无法对新词、业务领域特有词进行理解;2.文本中大量无效内容干扰了整体的分析和应用;3.对特定业务领域的情感倾向判断不准确。综上所述,本专利技术设计了一种文本分析知识库的构建方法。
技术实现思路
针对现有技术上存在的不足,本专利技术目的是在于提供一种文本分析知识库的构建方法,基于此知识库,在进行文本类数据的分析或相关智能应用时,可以让计算机理解新词或业务领域专有词汇,去除无效内容,并对特定场景形成准确的情感倾向判断。为了实现上述目的,本专利技术是通过如下的技术方案来实现:一种文本分析知识库的构建方法,包括专有词典模块,无 ...
【技术保护点】
1.一种文本分析知识库的构建方法,其特征在于,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充。
【技术特征摘要】
1.一种文本分析知识库的构建方法,其特征在于,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充。2.根据权利要求1所述的一种文本分析知识库的构建方法,其特征在于,所述的专有词典模块加入词汇的方法是:(1).直接加入词汇;(2).加入词汇和权重;(3).加入词汇和词性;(4).词汇、词性和权重;加入后可以对词性和权重进行修改;使用时,根据需要将词典与分词工具或文本分析工具对接即可。3.根据权利要求1所述的一种文...
【专利技术属性】
技术研发人员:王晓峰,袁波,
申请(专利权)人:上海蔚界信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。