【技术实现步骤摘要】
应用人工智能的数据存储方法、装置及服务器
[0001]本公开涉及人工智能
、
自然语言处理领域,具体而言,涉及一种应用人工智能的数据存储方法
、
装置及服务器
。
技术介绍
[0002]互联网业务数据中,文本数据是重要的组成部分,例如电商业务中的商品评价
、
政务平台中的居民问政反馈
、
社交网络中的舆情监测等,都涉及到文本数据
。
在互联网数据的应用中,数据存储备份前,为了便于后续的数据调用分析,经常会对数据进行前置处理,例如对于文本数据,在前置处理中,通常包括对文本中的关键内容进行标记,例如标记文本的分类
、
文本的情感极性
、
违规内容等,而标记的类型可以诸如不同颜色的高亮
、
文本删除线
、
文本下划线等
。
对于数据量庞大的场景,如面对全市人民的问卷调差
、
全平台电商评价
、
平台舆情监测等大数据场景,海量的文本数据在进行标记时,产生的工作量是不可估量的
。
因此,基于人工智能技术进行数据地自动识别标记是可以考虑的途径,但是如何进行文本的自动化识别标记,同时保证其准确性是需要克服的技术问题
。
技术实现思路
[0003]本公开的目的在于提供一种应用人工智能的数据存储方法
、
装置及服务器,以改善上述问题
。
[0004]本公开的其他特性和 ...
【技术保护点】
【技术特征摘要】
1.
一种应用人工智能的数据存储方法,其特征在于,所述方法包括:获取待处理业务文本序列,基于所述待处理业务文本序列挖掘多特征提取范围的文本分类知识载体;获取从预设掩膜文本序列中挖掘的所述多特征提取范围的掩膜知识载体;获取所述待处理业务文本序列对应的文本标记指引信息;针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列;所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,并且包括所述文本标记指引信息指引的文本标记;将所述分类标记文本序列进行存储
。2.
根据权利要求1所述的方法,其特征在于,所述文本标记指引信息包括预设文本标记集,所述预设文本标记集用于限定所述待处理业务文本序列的文本标记;所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:对所述预设文本标记集进行知识载体挖掘,得到所述预设文本标记集对应的标记集知识载体;针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体
。3.
根据权利要求2所述的方法,其特征在于,所述预设文本标记集对应不同特征提取范围的标记集知识载体,所述不同特征提取范围的标记集知识载体对应的特征提取范围数目少于所述多特征提取范围的文本分类知识载体对应的特征提取范围数目;所述多特征提取范围的文本分类知识载体对应的特征提取范围数目与所述多特征提取范围的掩膜知识载体对应的特征提取范围数目相同;所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:针对所述多特征提取范围的每个特征提取范围,若具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的所述文本分类知识载体和所述标记集知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体;若不具有针对的特征提取范围内的标记集知识载体,按照对应特征提取范围的所述文本分类知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得针对的特征提取范围内的文本知识载体
。4.
根据权利要求2所述的方法,其特征在于,所述预设文本标记集包括所述待处理业务文本序列对应的文本分词标记集,所述方法还包括:获取基于文本分词组成的标记集样版,将所述待处理业务文本序列按照所述待处理业
务文本序列所拆解的文本分词进行拆解,得到所述待处理业务文本序列中的各文本分词区块;获取对所述标记集样版中的每个文本分词进行自主文本标记关联而生成的文本分词标记集;每个所述文本分词用于限定所述待处理业务文本序列中相应文本分词区块的文本标记;其中,所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,且所述分类标记文本序列中的各文本分词区块具有所述文本分词标记集中相应的文本分词所关联的文本标记;或者,所述预设文本标记集包括所述待处理业务文本序列对应的文本段落标记集,所述方法还包括:对所述待处理业务文本序列进行任意标记,得到标记业务文本序列;对所述标记业务文本序列进行文本拆分操作,得到所述待处理业务文本序列的对应的基础文本段落标记集,所述基础文本段落标记集包括所述待处理业务文本序列中各文本段落各自对应的段落标记;基于对所述基础文本段落标记集中不少于一个所述段落标记的自主文本标记优化,获得文本段落标记集;其中,所述分类标记文本序列包括所述待处理业务文本序列的文本分类信息,且所述分类标记文本序列中的各文本段落具有所述文本段落标记集中相应的段落标记指引的文本标记
。5.
根据权利要求1所述的方法,其特征在于,所述方法还包括:确定针对所述待处理业务文本序列的业务关联信息,所述业务关联信息用于表征所述待处理业务文本序列的业务要素;对所述业务关联信息进行知识载体挖掘,得到对应的业务关联知识载体;所述针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体和所述文本标记指引信息,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体,包括:针对所述多特征提取范围的每个特征提取范围,按照对应特征提取范围的所述文本分类知识载体
、
所述文本标记指引信息和所述业务关联知识载体,对针对的特征提取范围内的掩膜知识载体进行知识特征抽取,获得多特征提取范围的文本知识载体;所述对所述多特征提取范围的文本知识载体进行多特征提取范围的知识还原,获得分类标记文本序列,包括:针对所述多特征提取范围的知识还原中的每个特征提取范围,若针对的特征提取范围为所述多特征提取范围的知识还原中的首个特征提取范围,按照对应特征提取范围的文本知识载体,对知识特征抽取得到的最后一特征...
【专利技术属性】
技术研发人员:罗敏,熊强,赵玉军,幸杰,彭水平,
申请(专利权)人:微网优联科技成都有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。