【技术实现步骤摘要】
发酵批次过程数据动态聚类和检索系统
[0001]本专利技术涉及用于发酵批次过程数据的动态聚类和检索系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]生物发酵是一种利用微生物等生物体代谢过程进行有控制的化学反应的技术。它在许多行业中都有广泛的应用。例如,在食品和饮料工业中,酿酒业使用酵母发酵糖来生产啤酒、葡萄酒和其他酒精饮料,乳制品工业使用乳酸菌发酵乳制品;在制药领域中,许多药物如抗生素、激素和酶制剂,都是通过微生物的发酵过程生产的。
[0004]发酵企业在日常生产中会累积大量的过程数据。这些数据包含了丰富的过程状态信息,深入挖掘这些信息可以有效提高发酵工厂的经济效益。微生物发酵生产的过程控制往往采用DCS系统(Distributed Control System,分布式控制系统)。过程的重要在线变量,如温度、pH值、液位、通气量等都可以通过通信网络实时获取。而需要离线采样的变量,如发酵产物和发酵底物的浓度、发酵液是否染菌等,则需要人工实验室化 ...
【技术保护点】
【技术特征摘要】
1.本发明提供了将发酵批次的过程数据进行文本标签化的方法,其特征是,包括:对不同发酵批次按照制定好的规范设置文本标签。标签化的规范如下:发酵批次数据的文本标签应由三部分构成,即属性标签、过程标签、和预测标签。其中,属性标签用来描述发酵批次的基本属性,如人员信息、工艺信息、经济核算信息中的确定性特征。属性标签应当是精准的,如人员信息中的负责该批次生产的人员姓名、工号、交接岗时间等,工艺信息中的发酵工艺名词或者编号、初始底物投入等,经济核算信息中的该批次持续的时长、最终产物的市场价格和生产收益等,均属于属性标签的范畴。过程标签用来描述该发酵批次在生产过程中体现出的特质,或者说是可以进一步用于数据挖掘的潜在属性。例如对于补料分批发酵工艺的批次数据来说,在发酵生产的初期和中期,工作人员会通过对发酵液的采样化验,对有杂菌污染了发酵罐中的发酵液的批次标注“染菌批次”的标签,而没有杂菌污染的批次标注“正常批次”。再如,工作人员通过采样化验发酵液中的底物和产物浓度,根据该批次的底物消耗和产物形成情况分别打对应的文本标签。预测标签是指在当前发酵批次进行补料决策之前,能够从已经采集到的发酵数据中预判发酵结束时经济效益的文本标签。比如在行补料决策之前,通过将该批次的发酵数据与历史数据比较,根据人工智能算法进行当前发酵批次在发酵结束时经济效益的预测结果,确定当前批次的预测标签是“优势批次”、“中等批次”还是“劣势批次”。综上所述,本发明提供的将发酵批次过程数据进行文本标签化的方法,即由发酵企业的工作人员按照属性标签、过程标签、预测标签的顺序,依次为每个发酵批次标注对应的文本化描述,从而形成完整的数据文本化标签。此外,为了规范业务流程工作人员在进行批次数据文本标签化的时候的文本用语,还应预先准备一套数据文本标签化的常用词库,并随着发酵工艺的持续改进定期更新。2.对发酵批次文本标签进行空间向量化预处理的方法,其特征是,包括:对大量发酵批次所形成的文本标签库,本发明采用中文分词、词性标注、停用词处理等方法对文本进行预处理,并采用向量空间法,对获得到的文本进行向量化处理。在中文分词这一步骤,本发明使用NLPIR分词系统对发酵批次文本标签化之后形成的文本标签段落进行中文分词。在词性标注这一步骤过中科院研制的NLPIR分词系统的词性标注功能完成。在停用词处理这一步骤,首先根据词性标注的结果,只保留名词和动词,剔除其他词性的词。其次,将中文分词过程中得到的独立的单字进行剔除。最后,将本身携带的有用信息不多的、区分度低的常用词汇进行剔除。剔除的标准采用系统管理员负责动态更新的词汇库列表逐个对比,有重复的词即进行剔除。在文本进行向量化处理这一步骤,采用向量空间法建模,建模的步骤为:现有的所有批次文本标签的集合为D,d
i
为集合D中的第i个文本标签,将d
i
通过中文分词、词性标注、停用词去除等步骤后,获得的关键词列表为集合{a1,a2,a3,
……
a
n
},其中a
j
为该集合中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。