【技术实现步骤摘要】
基于汽车维修保养记录的数据处理方法及装置
本专利技术涉及计算机
,尤其是涉及一种基于汽车维修保养记录的数据处理方法及装置。
技术介绍
命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织机构名、时间和数字表达式结构化信息的关键内容,所以需要从文本中去识别这些实体指称及其类别,即命名实体识别和分类。21世纪以后,基于大规模语料库的统计方法成为自然语言处理的主流,例如,有监督的学习方法:马尔科夫模型,最大熵模型,条件随机场等。半监督的学习方法:利用标注的小数据及自举学习。无监督学习:利用词汇资源。上下文聚类,混合方法:几种模型结合。但是,总体来说无论基于上述何种模型的方法,很容易造成各种歧义,错误识别的现象出现。
技术实现思路
本专利技术的目的在于提供一种基于汽车维修保养记录的数据处理方法及装置,以缓解了现有技术中存在的歧义过多的技术问题。第一方面,本专利技术实施例提供一种基于汽车维修保养记录的数据处理方法,包括: ...
【技术保护点】
1.一种基于汽车维修保养记录的数据处理方法,其特征在于,包括:/n对汽车维修保养记录进行预处理,得到预处理后的待识别数据;/n基于预先确定的动名词语料库以及预先确定的语法语料库,对所述待识别数据进行句法分析得到动名结果;/n基于所述动名结果对所述待识别数据进行分割,并识别出所述待识别数据中的零部件以及所述零部件对应的动作。/n
【技术特征摘要】
1.一种基于汽车维修保养记录的数据处理方法,其特征在于,包括:
对汽车维修保养记录进行预处理,得到预处理后的待识别数据;
基于预先确定的动名词语料库以及预先确定的语法语料库,对所述待识别数据进行句法分析得到动名结果;
基于所述动名结果对所述待识别数据进行分割,并识别出所述待识别数据中的零部件以及所述零部件对应的动作。
2.根据权利要求1所述的方法,其特征在于,对汽车维修保养记录进行预处理,得到预处理后的待识别数据的步骤,包括:
对所述汽车维修保养记录进行文本替换以及文本正则处理,得到处理后的汽车维修保养记录;
识别并去处所述处理后的汽车维修保养记录中的歧义实体,以及广告词,得到预处理后的待识别数据。
3.根据权利要求2所述的方法,其特征在于,识别并去处所述处理后的汽车维修保养记录中的歧义实体,以及广告词,得到预处理后的待识别数据,包括:
对所述处理后的汽车维修保养记录方向进行识别,并将识别到的方向与其相关的名词进行组合,得到识别后的汽车维修保养记录;
识别并去处所述识别后的汽车维修保养记录中的歧义实体,以及广告词,得到预处理后的待识别数据。
4.根据权利要求2所述的方法,其特征在于,所述文本正则处理包括对所述待识别数据中存在的特殊字符按照预设的处理方式进行处理,其中,所述特殊字符包括数字和括号,所述预设的处理方式包括删除。
5.一种基于汽车维修保养记录的数据处理装置,其特征在于,包括:
预处理模块,用于对汽车维修保养记录进行预处理,得到预处理后的待识别数据;
分析模块,用于基于预先确定的动名词...
【专利技术属性】
技术研发人员:陈喜旺,章水鑫,
申请(专利权)人:南京三百云信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。