用于医院后勤运维的短文本数据处理方法、装置制造方法及图纸

技术编号：24173887 阅读：49 留言：0更新日期：2020-05-16 03:54

本发明专利技术公开了一种用于医院后勤运维的短文本数据处理方法、装置、计算机设备和存储介质，通过确定分类词库，将分类词库进行重组，得到初步分词词库，对语料库进行分词处理，对分词后的每个关键词进行词频统计，将统计结果分别加入初步分词词库，得到自定义分词词库，对待处理短文本进行全模式分词并清洗，得到辅助信息分词和多个有效项，对各个有效项采用模糊匹配方式在分类词库中进行匹配，得到各个有效项的初始匹配结果，选取词频最高的匹配结果作为各个有效项的最终匹配结果，以对待处理短文本按语义进行精确切分，得到辅助信息分词和最终匹配结果，以此确定待处理短文本的有效文本信息，提高所确定的有效文本信息的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
用于医院后勤运维的短文本数据处理方法、装置
本专利技术涉及信号处理
，尤其涉及一种用于医院后勤运维的短文本数据处理方法、装置、计算机设备和存储介质。
技术介绍
报修在大型、超大型功能性建筑群内是一项极其频繁而又非常重要的日常工作，因为各种自动化器械、设备、系统会不定期出现各种故障。为保障正常运转，通常会设置专业后勤团队对整个系统做各种维修维护工作，而在整个过程中会涉及到各个不同的环节，比如维修维护点的发现、上报、记录、评估等等。传统的处理方式是通过手动记录各个环节的关键信息，其繁复性不言而喻。虽然随着IT技术的发展，大部分工作已被软件替代，但就目前而言，主要的改变还只局限于将机械性强的工作电子化。稍微涉及到主观判断的业务都必须人工干预，即使是炙手可热的人工智能技术也远未能解决问题，特别是自然语言处理方面，受限于该领域的固有难度，相关技术发展较为缓慢。而医院后勤运维的各个环节会涉及较多的自然语言和文本处理，若技术发展足够成熟，将给该领域带来极大的效率提升和成本下降。根据实际情况，医院后勤运维领域的关键文字信息有其...

【技术保护点】
1.一种用于医院后勤运维的短文本数据处理方法，其特征在于，包括如下步骤：/nS10，根据语料库确定分类词库；所述分类词库用于描述语料库所包括的各个词的词类别；/nS20，将所述分类词库按照预设的分词方式进行重组，得到初步分词词库，根据初步分词词库对语料库进行分词处理，对分词后的每个关键词进行词频统计，将统计结果分别加入初步分词词库，得到自定义分词词库；/nS30，采用所述自定义分词词库对待处理短文本进行全模式分词，对全模式分词的分词结果进行清洗，得到待处理短文本的辅助信息分词和多个有效项，对各个有效项采用模糊匹配方式在分类词库中进行匹配，得到各个有效项的初始匹配结果，在各个有效项的初始匹配结果...

【技术特征摘要】
1.一种用于医院后勤运维的短文本数据处理方法，其特征在于，包括如下步骤：
S10，根据语料库确定分类词库；所述分类词库用于描述语料库所包括的各个词的词类别；
S20，将所述分类词库按照预设的分词方式进行重组，得到初步分词词库，根据初步分词词库对语料库进行分词处理，对分词后的每个关键词进行词频统计，将统计结果分别加入初步分词词库，得到自定义分词词库；
S30，采用所述自定义分词词库对待处理短文本进行全模式分词，对全模式分词的分词结果进行清洗，得到待处理短文本的辅助信息分词和多个有效项，对各个有效项采用模糊匹配方式在分类词库中进行匹配，得到各个有效项的初始匹配结果，在各个有效项的初始匹配结果中选取词频最高的匹配结果作为各个有效项的最终匹配结果；
S40，根据辅助信息分词和最终匹配结果确定待处理短文本的有效文本信息。

2.根据权利要求1所述的用于医院后勤运维的短文本数据处理方法，其特征在于，所述根据辅助信息分词和最终匹配结果确定待处理短文本的有效文本信息包括：
确定各个的最终匹配结果的排列位置，根据排列位置确定有效词序列；
确定辅助信息分词在有效词序列中的位置；
根据辅助信息分词在有效词序列中的位置合并所述辅助信息分词和有效词序列。

3.根据权利要求1所述的用于医院后勤运维的短文本数据处理方法，其特征在于，所述根据语料库确定分类词库之前，还包括：
收集设定时段内针对描述对象发生的语句，得到语句源，根据所述语句源构建语料库。

4.根据权利要求3所述的用于医院后勤运维的短文本数据处理方法，其特征在于，所述描述对象包括医院。

5.根据权利要求1指4任一项所述的用于医院后勤运维的短文本数据处理方法，其特征在于，所述将所述分类词库按照预设的分词方式进行重组，得到初步分词词库，根据初步分词词库对语料库进行分词处理，对分词后的每个关键词进行词频统计，将统计结果分别加入初步分词词库，得到自定义分词词库之后，还包括：
获取公共停用词库，根据所述公共停用词库和分类词库构建自定义停用词库...

【专利技术属性】
技术研发人员：陈高祥，肖惠群，王兵，张海勇，
申请(专利权)人：南京天溯自动化控制系统有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人