用于医院后勤运维的短文本数据处理方法、装置制造方法及图纸

技术编号:24173887 阅读:36 留言:0更新日期:2020-05-16 03:54
本发明专利技术公开了一种用于医院后勤运维的短文本数据处理方法、装置、计算机设备和存储介质,通过确定分类词库,将分类词库进行重组,得到初步分词词库,对语料库进行分词处理,对分词后的每个关键词进行词频统计,将统计结果分别加入初步分词词库,得到自定义分词词库,对待处理短文本进行全模式分词并清洗,得到辅助信息分词和多个有效项,对各个有效项采用模糊匹配方式在分类词库中进行匹配,得到各个有效项的初始匹配结果,选取词频最高的匹配结果作为各个有效项的最终匹配结果,以对待处理短文本按语义进行精确切分,得到辅助信息分词和最终匹配结果,以此确定待处理短文本的有效文本信息,提高所确定的有效文本信息的准确性。

【技术实现步骤摘要】
用于医院后勤运维的短文本数据处理方法、装置
本专利技术涉及信号处理
,尤其涉及一种用于医院后勤运维的短文本数据处理方法、装置、计算机设备和存储介质。
技术介绍
报修在大型、超大型功能性建筑群内是一项极其频繁而又非常重要的日常工作,因为各种自动化器械、设备、系统会不定期出现各种故障。为保障正常运转,通常会设置专业后勤团队对整个系统做各种维修维护工作,而在整个过程中会涉及到各个不同的环节,比如维修维护点的发现、上报、记录、评估等等。传统的处理方式是通过手动记录各个环节的关键信息,其繁复性不言而喻。虽然随着IT技术的发展,大部分工作已被软件替代,但就目前而言,主要的改变还只局限于将机械性强的工作电子化。稍微涉及到主观判断的业务都必须人工干预,即使是炙手可热的人工智能技术也远未能解决问题,特别是自然语言处理方面,受限于该领域的固有难度,相关技术发展较为缓慢。而医院后勤运维的各个环节会涉及较多的自然语言和文本处理,若技术发展足够成熟,将给该领域带来极大的效率提升和成本下降。根据实际情况,医院后勤运维领域的关键文字信息有其固有特点,比如对象有限、文句结构和语义相对简单、句子长度有限等等。这些特点为特定场景下的文字自动处理提供了可能性。比如“东院区第一内镜中心右侧女更衣室洗手盆下面的软管破裂”这句话,需要将其按“院区:[]、区域:[]、科室:[]、对象:[]、故障:[]”等不同维度切割并提取。对于人而言这是一项极其简单的工作,但要让计算机完成同样的工作是一个极其复杂的过程。已有的相关处理方法通常有以下几类:正则匹配:利用定义好的特定字符及其组合来生成某个“固定”的模式,将该模式递归作用于待处理文本对象,当文本及其子片段满足该模式时表示匹配成功。基于统计类方法的关键词提取:将原文本先分割成不同的片段,再通过不同的方式计算每个词的某种频率或权重,最终得分最高的词即为关键词。如TextRank算法、RAKE算法、TF-IWF算法等。基于机器学习的关键词提取:从学习方式分主要包括有监督关键词提取、半监督关键词提取、无监督关键词提取。从数学角度讲又可以分为基于统计特征的关键词提取方法、基于词图模型的关键词提取方法、基于主题模型的关键词提取方法等。关键词提取是文本处理,尤其是短文本数据处理的核心任务之一,同时也是自然语言处理的重要分支。但现有关键词提取技术很难做到简短文本的精确关键词切分和提取,主要存在以下关键问题:正则化匹配方法:首先,正则化方法必须满足固定的模式,只适合于精准匹配的应用场景,对于模式变化复杂的短文本关键词提取显得过于单一,无法满足实际需求;其次,该方法在匹配时需要准确的“标志”,这进一步限制了方法的应用。基于统计学的方法:对于长文本关键词提取的效果较好,而对短文本几乎不起作用,原因在于长文本中关键词出现的频率在很大程度上会多于其他词语,而短文本或者单个句子中很难存在重复性关键词,也就失去了利用统计学的事实基础。基于机器学习的方法:首先基于机器学习的方法需要大量的语料库用于训练,特别是以神经网络作为核心的深度学习对训练数据量的要求极其苛刻;其次,机器学习方法的核心算法通常会基于某种文字模型或语言表达模型,例如语法网络图,又或者计算某种参数,例如集聚系数,这些特征在极短文本中是不明显的;再次,基于机器学习的方法在关键词分类上精度不够,无法满足实际需求。前述方法还存在两个共同的问题:一是都无法对提取的关键词做类别判断,比如“手术室”,属于“房间”而不属于“楼层”;二是无法对提取的关键字做向上一级的聚合,从而形成有意义的短语,比如“东院区第一内镜中心右侧女更洗手盆下面的软管要掉”,常规的分词或切分结果通常是“东院区\第一\内镜中心\右侧\女更\洗手盆\下面\的\软管\要掉”,但实际中可能更希望得到“东院区\第一内镜中心右侧\女更洗手盆下面\的\软管要掉”。可见传统的短文本数据处理方案往往存在准确度低的问题。
技术实现思路
针对以上问题,本专利技术提出一种用于医院后勤运维的短文本数据处理方法、装置、计算机设备和存储介质。为实现本专利技术的目的,提供一种用于医院后勤运维的短文本数据处理方法,包括如下步骤:S10,根据语料库确定分类词库;所述分类词库用于描述语料库所包括的各个词的词类别;S20,将所述分类词库按照预设的分词方式进行重组,得到初步分词词库,根据初步分词词库对语料库进行分词处理,对分词后的每个关键词进行词频统计,将统计结果分别加入初步分词词库,得到自定义分词词库;S30,采用所述自定义分词词库对待处理短文本进行全模式分词,对全模式分词的分词结果进行清洗,得到待处理短文本的辅助信息分词和多个有效项,对各个有效项采用模糊匹配方式在分类词库中进行匹配,得到各个有效项的初始匹配结果,在各个有效项的初始匹配结果中选取词频最高的匹配结果作为各个有效项的最终匹配结果;S40,根据辅助信息分词和最终匹配结果确定待处理短文本的有效文本信息。在一个实施例中,所述根据辅助信息分词和最终匹配结果确定待处理短文本的有效文本信息包括:确定各个的最终匹配结果的排列位置,根据排列位置确定有效词序列;确定辅助信息分词在有效词序列中的位置;根据辅助信息分词在有效词序列中的位置合并所述辅助信息分词和有效词序列。在一个实施例中,所述根据语料库确定分类词库之前,还包括:收集设定时段内针对描述对象发生的语句,得到语句源,根据所述语句源构建语料库。作为一个实施例,所述描述对象包括医院。在一个实施例中,所述将所述分类词库按照预设的分词方式进行重组,得到初步分词词库,根据初步分词词库对语料库进行分词处理,对分词后的每个关键词进行词频统计,将统计结果分别加入初步分词词库,得到自定义分词词库之后,还包括:获取公共停用词库,根据所述公共停用词库和分类词库构建自定义停用词库;所述自定义停用词库用于对全模式分词的分词结果进行清洗。作为一个实施例,所述对全模式分词的分词结果进行清洗包括:采用所述自定义停用词库识别全模式分词的分词结果中的停用词,在剔除所识别的停用词后,去除全模式分词的分词结果中的重复词,得到多个有效项,并将所识别的停用词确定为辅助信息分词。一种用于医院后勤运维的短文本数据处理装置,包括:第一确定模块,用于根据语料库确定分类词库;所述分类词库用于描述语料库所包括的各个词的词类别;重组模块,用于将所述分类词库按照预设的分词方式进行重组,得到初步分词词库,根据初步分词词库对语料库进行分词处理,对分词后的每个关键词进行词频统计,将统计结果分别加入初步分词词库,得到自定义分词词库;分词模块,用于采用所述自定义分词词库对待处理短文本进行全模式分词,对全模式分词的分词结果进行清洗,得到待处理短文本的辅助信息分词和多个有效项,对各个有效项采用模糊匹配方式在分类词库中进行匹配,得到各个有效项的初始匹配结果,在各个有效项的初始匹配结果中选取词频最高的匹配结果作为各个有效项的最终匹本文档来自技高网
...

【技术保护点】
1.一种用于医院后勤运维的短文本数据处理方法,其特征在于,包括如下步骤:/nS10,根据语料库确定分类词库;所述分类词库用于描述语料库所包括的各个词的词类别;/nS20,将所述分类词库按照预设的分词方式进行重组,得到初步分词词库,根据初步分词词库对语料库进行分词处理,对分词后的每个关键词进行词频统计,将统计结果分别加入初步分词词库,得到自定义分词词库;/nS30,采用所述自定义分词词库对待处理短文本进行全模式分词,对全模式分词的分词结果进行清洗,得到待处理短文本的辅助信息分词和多个有效项,对各个有效项采用模糊匹配方式在分类词库中进行匹配,得到各个有效项的初始匹配结果,在各个有效项的初始匹配结果中选取词频最高的匹配结果作为各个有效项的最终匹配结果;/nS40,根据辅助信息分词和最终匹配结果确定待处理短文本的有效文本信息。/n

【技术特征摘要】
1.一种用于医院后勤运维的短文本数据处理方法,其特征在于,包括如下步骤:
S10,根据语料库确定分类词库;所述分类词库用于描述语料库所包括的各个词的词类别;
S20,将所述分类词库按照预设的分词方式进行重组,得到初步分词词库,根据初步分词词库对语料库进行分词处理,对分词后的每个关键词进行词频统计,将统计结果分别加入初步分词词库,得到自定义分词词库;
S30,采用所述自定义分词词库对待处理短文本进行全模式分词,对全模式分词的分词结果进行清洗,得到待处理短文本的辅助信息分词和多个有效项,对各个有效项采用模糊匹配方式在分类词库中进行匹配,得到各个有效项的初始匹配结果,在各个有效项的初始匹配结果中选取词频最高的匹配结果作为各个有效项的最终匹配结果;
S40,根据辅助信息分词和最终匹配结果确定待处理短文本的有效文本信息。


2.根据权利要求1所述的用于医院后勤运维的短文本数据处理方法,其特征在于,所述根据辅助信息分词和最终匹配结果确定待处理短文本的有效文本信息包括:
确定各个的最终匹配结果的排列位置,根据排列位置确定有效词序列;
确定辅助信息分词在有效词序列中的位置;
根据辅助信息分词在有效词序列中的位置合并所述辅助信息分词和有效词序列。


3.根据权利要求1所述的用于医院后勤运维的短文本数据处理方法,其特征在于,所述根据语料库确定分类词库之前,还包括:
收集设定时段内针对描述对象发生的语句,得到语句源,根据所述语句源构建语料库。


4.根据权利要求3所述的用于医院后勤运维的短文本数据处理方法,其特征在于,所述描述对象包括医院。


5.根据权利要求1指4任一项所述的用于医院后勤运维的短文本数据处理方法,其特征在于,所述将所述分类词库按照预设的分词方式进行重组,得到初步分词词库,根据初步分词词库对语料库进行分词处理,对分词后的每个关键词进行词频统计,将统计结果分别加入初步分词词库,得到自定义分词词库之后,还包括:
获取公共停用词库,根据所述公共停用词库和分类词库构建自定义停用词库...

【专利技术属性】
技术研发人员:陈高祥肖惠群王兵张海勇
申请(专利权)人:南京天溯自动化控制系统有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1