词处理方法、装置、存储介质以及处理器制造方法及图纸

技术编号:24251996 阅读:65 留言:0更新日期:2020-05-22 23:48
本发明专利技术公开了一种词处理方法、装置、存储介质以及处理器。其中,该方法包括:获取预先配置的专用词;获取待处理的多条文本;使用专用词对每条文本进行分词;对进行分词之后得到的每条文本进行标记;将训练数据输入到条件随机场CRF模型中进行训练,其中,训练数据包括多组数据,多组数据中的每一组数据均包括一条文本以及对该文本分词后进行标记后的结果,一条文本为多条文本中的之一;将待测试文本输入到CRF模型中,得到标记后的待测试文本;根据标记后的待测试文本得到待测试文本的分词结果。本发明专利技术解决了现有技术中的词处理效果不佳的技术问题。

Word processing method, device, storage medium and processor

【技术实现步骤摘要】
词处理方法、装置、存储介质以及处理器
本专利技术涉及词处理领域,具体而言,涉及一种词处理方法、装置、存储介质以及处理器。
技术介绍
在泛在电力物联网的大背景下,95598客户服务系统作为泛在电力物联网应用的重要组成部分,登记了海量客户信息。当前主要依靠人工统计工单分析,产生效率不足等相关问题,无法对客户诉求转变进行风险提示。随着现有技术的不断发展,工单中出现了越来越多的未登陆词,如:煤改电等。如何有效处理具有未登陆词的文本信息,全面开展95598工单的多维度研究和智能分析,引入自然语言领域的文本挖掘等人工智能技术去实现客户服务领域的大数据研究,成为当前较为迫切的需求和问题。而现有技术中,通常采用隐马尔可夫模型、maximum-entropy,前者由于实体本身结构所具的复杂性,利用简单的特征函数往往无法涵盖所有特性;而后者模型中二值化特征只是记录特征出现与否,在文本分类中强调特征的强度,所以不是最优的。由于算法收敛速度较慢,导致最大熵模型的计算代价大,数据稀疏问题较为严重。针对上述现有技术中的词处理效果不佳的问题,目前尚未提出有效本文档来自技高网...

【技术保护点】
1.一种词处理方法,其特征在于,包括:/n获取预先配置的专用词,其中,所述专用词为预定领域的专用词,所述专用词为多个,所述专用词由至少一个汉字组成;/n获取待处理的多条文本,其中,所述多条文本中的每条文本包括一个或多个句子;/n使用所述专用词对所述每条文本进行分词,其中,分词后的每条文本由一个或多个词组成;/n对进行分词之后得到的每条文本进行标记,其中,所述标记用于标记每个字在词中的位置;/n将训练数据输入到条件随机场CRF模型中进行训练,其中,所述训练数据包括多组数据,所述多组数据中的每一组数据均包括一条文本以及对该文本分词后进行标记后的结果,所述一条文本为所述多条文本中的之一;/n将待测试...

【技术特征摘要】
1.一种词处理方法,其特征在于,包括:
获取预先配置的专用词,其中,所述专用词为预定领域的专用词,所述专用词为多个,所述专用词由至少一个汉字组成;
获取待处理的多条文本,其中,所述多条文本中的每条文本包括一个或多个句子;
使用所述专用词对所述每条文本进行分词,其中,分词后的每条文本由一个或多个词组成;
对进行分词之后得到的每条文本进行标记,其中,所述标记用于标记每个字在词中的位置;
将训练数据输入到条件随机场CRF模型中进行训练,其中,所述训练数据包括多组数据,所述多组数据中的每一组数据均包括一条文本以及对该文本分词后进行标记后的结果,所述一条文本为所述多条文本中的之一;
将待测试文本输入到所述CRF模型中,得到标记后的待测试文本;
根据所述标记后的待测试文本得到所述待测试文本的分词结果,其中,所述分词结果中包括至少一个词。


2.根据权利要求1所述的方法,其特征在于,在根据所述标记后的待测试文本得到所述待测试文本的分词结果之后,所述方法还包括:
将所述分词结果中的每一个词与所述专用词进行比较,得到在所述专用词中没有的词;
将在所述专用词中没有的词添加到所述专用词中。


3.根据权利要求2所述的方法,其特征在于,将在所述专用词中没有出现的词添加到所述专用词包括:
得到预定数量的待测试文本的分词结果中的词,确定在所述专用词中没有出现的词在所述预定数量的待测试文本的分词结果中出现的次数;
在所述次数超过阈值的情况下,将在所述专用词中没有的词添加到所述专用词中。


4.根据权利要求3所述的方法,其特征在于,将在所述专用词中没有的词添加到所述专用词之后,所述方法还包括:
使用添加后的专用词再次对所述多条文本进行分词并标记;
将重新分词并标记后得到的结果作为训练数据再次对所述CRF模型进行训练。


5.一种词处理装置,其特征在于,包括:
第一获取模块,用于获取预先配置的专用词,其中,所述专用词为预定领域的专用词,所述专用词为多个,所述专用词由至少一个汉字组成...

【专利技术属性】
技术研发人员:王培祎王艳松胡彩娥姚晓明李香龙王健马龙飞陆斯悦张禄徐蕙
申请(专利权)人:国网北京市电力公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1