【技术实现步骤摘要】
一种基于逻辑表达式的短文本标签识别方法
本专利技术涉及一种识别方法,尤其涉及一种基于逻辑表达式的短文本标签识别方法。
技术介绍
短文本的自然语言处理技术在各行各业中的作用越来越重要,对于文本分析需要有一定的语料基础,通过已有标签的语料去分析要解决的文本内容。在处理大量的文本之前,需要人工去标记一定量的文本数据,比如标记该文本的主题,分类等,这是一个非常耗费时间的过程。目前,在短文本标签提取场景中,现有的短文本识别方法存在着一定的技术缺陷,例如:监督学习的分类方法标签范围不能灵活选取;无监督学习的关键词抽取方法中的TFIDF方式提取标签缺乏文档的覆盖率。因此,亟需提供一种基于逻辑表达式的标签识别方式,能灵活的识别关键词标签,识别的标签兼顾关键词的区分度和覆盖率。
技术实现思路
为了解决上述技术所存在的不足之处,本专利技术提供了一种基于逻辑表达式的短文本标签识别方法。为了解决以上技术问题,本专利技术采用的技术方案是:一种基于逻辑表达式的短文本标签识别方法,包括如下步骤:步骤一、规则提取:通过对 ...
【技术保护点】
1.一种基于逻辑表达式的短文本标签识别方法,其特征在于:所述短文本标签的识别方法的包括如下步骤:/n步骤一、规则提取:通过对领域内大量文本的解读,分别为每一个标签梳理出一套特征文本,对上述特征文本进行分析,提取出核心文本,并将核心文本转化为标签识别规则;/n步骤二、规则管理:利用规则管理系统,管理步骤一中获得的标签识别规则;通过规则管理系统为每一个标签建立一个专属的标签识别规则库,在标签识别规则库下管理着对应短文本标签的全部标签识别规则;/n步骤三、规则获取:业务系统通过调用标签规则识别接口将所需要的标签识别库、标签识别规则和短文本传递给规则识别引擎,规则识别引擎根据传递过 ...
【技术特征摘要】
1.一种基于逻辑表达式的短文本标签识别方法,其特征在于:所述短文本标签的识别方法的包括如下步骤:
步骤一、规则提取:通过对领域内大量文本的解读,分别为每一个标签梳理出一套特征文本,对上述特征文本进行分析,提取出核心文本,并将核心文本转化为标签识别规则;
步骤二、规则管理:利用规则管理系统,管理步骤一中获得的标签识别规则;通过规则管理系统为每一个标签建立一个专属的标签识别规则库,在标签识别规则库下管理着对应短文本标签的全部标签识别规则;
步骤三、规则获取:业务系统通过调用标签规则识别接口将所需要的标签识别库、标签识别规则和短文本传递给规则识别引擎,规则识别引擎根据传递过来的标签识别库及标签识别规则去规则管理数据库中查询规则数据并存放到内存中;
步骤四、标签识别:应用规则识别引擎依次为短文本自动识别标签;
步骤五、标签提取:规则识别引擎提取出与短文本相匹配的标签识别规则的标识,将这个标识作为短文本的标签。
2.根据权利要求1所述的基于逻辑表达式的短文本标签识别方法,其特征在于:步骤三中所述规则获取是业务系统根据业务需要调用业务相关的标签识别规则的过程,具体为:
S001:业务系统调用标签规则识别接口,在接口参数中传入需要自动识别标签的短文本、标签识别库的规则库名、标签识别规则的规则名称,规则库名及规则名称允许为多个,为空时,获取全部规则;
S002:通过标签规则识别接口,将参数传递给规则识别引擎,以规则库名和规则名称作为查询条件,在规则管理数据库中查询标签识别规则内容;
S003:规则...
【专利技术属性】
技术研发人员:高研,崔放,张少卓,王聪,李旭,
申请(专利权)人:长春嘉诚信息技术股份有限公司,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。