中药制药过程数据集成、数据挖掘与可视化技术研究(2)
历史数据回顾:当一个生产车间积累了足够多的数据时,可以对数据进行历史回顾分析,通过数据挖掘的方法发现其中隐含的信息。例如可以通过聚类分析发现生产批次中的异常点,找出导致其异常的原因,从而提高生产工艺的质量。
车间整体优化:通过系统优化的方法,整合分析工艺参数、物料参数、能耗、水耗、排污等数据,发现优化操作点,可视化方法包括相应曲面等统计优化图等。
3 中药生产数据可视化应用实例
3.1 数据收集
本文所用数据由江苏苏中药业集团生脉注射液生产车间收集,数据包括红参醇提、水沉,麦冬水提、醇沉,五味子水提、醇沉等多个工序中收集的200余个批次的生产记录。数据包括工艺参数,如浸泡时间、提取温度等,原料、中间产物、产品的分析记录等。
3.2 数据分析和可视化
基于数据可视化原理,生产线历史数据可以提供丰富的知识,帮助研究者更好地认识生产过程,并在此基础上实现更为精准的控制和优化。笔者将结合生脉注射液生产历史数据在多个层次进行数据可视化分析,从而展示数据可视化技术的强大功能和实际用途。
3.2.1 聚类分析 首先在单因素层次的数据可视化,笔者可对测量的每个工艺参数进行一致性分析,结果可以显示每个工艺参数的波动范围。数据可视化方法包括柱状图、统计分布图、统计过程控制图等。通过这个简单分析,可以初步判定过程控制中的波动源所处位置,还不能判定整个过程是否处于受控状态,对于最终产品的质量是否有影响。
聚类分析[3]作为一种有效的数据挖掘工具可以从大量的历史生产数据记录中发现数据分布的规律。它是一种无教学习方法(unsupervised),不需要事先知道数据的分类信息,方便研究者从原始数据中寻找规律。它首先通过计算任意2个批次记录之间的距离(差异),然后根据距离生成聚类树,聚类树可以清楚地告诉研究者哪些批次明显异于通常所见批次。例如对于生脉注射液历史生产数据进行聚类分析,可以帮助研究者迅速判定异常操作批次。批次19,20,23明显不同于其余批次(图2),对这些批次可进行后续回顾分析发现其异常的原因所在。因此在这个例子里,聚类分析实现了数据挖掘和可视化的功能,帮助研究者找到了生产中的风险因素。
3.2.2 质量影响因素网络分析 在单因素分析的基础上更进一步,研究者可以通过多元统计模型分析和网络分析解析多因素之间的依赖关系,从而总结归纳出某个因素的变动对于其他因素的影响,并且以直观的网络图表现出来。对于红参的醇提、水沉、脱色等工艺参数记录,首先利用贝叶斯网络分析[4]的方法,自动提取出变量依赖关系网络图,然后利用网络可视化工具Cytoscape将网络完整地表现出来。结果表明药材中Rb1含量是一个直接的影响因素(图3)。在这个例子里笔者通过数据挖掘的方法实现了关键质量因素的发现,并通过可视化的方法直观显示出影响生脉注射液药效成分含量的关键生产质量控制点。因此数据收集、数据挖掘与数据可视化的同时使用将大大方便生产管理者建立和运用质量模型,提高生产管理水平和药品质量控制水平。
3.2.3 规则发现 除了网络分析的方法,笔者还可以利用多元统计回归分析的方法,自动提取和总结变量间的复杂关系,有助于直观地认识数据的复杂,隐含的关系。回归树作为决策树[5]的一种可以被用来形象地展示数据中隐藏的规则。“IF-THEN”规则的提取,可以方便地将复杂关系通过简单的规则系统总结和罗列出来。系统收集这样的规则,可以建立生产知识库,进而实现知识的推理与演算。所以,笔者对于同一批数据进行了回归树分析,并对结果进行了可视化,所有计算和图形展示均在Matlab中完成(图4)。在回归树中可以从顶层发现最重要的影响因素为药材Rb1的含量,其是否大于某个临界含量成为影响药品中Rb1含量的分水岭,可以这样循着回归树总结规则。
4 总结
中药制药工业数据的海量收集和分析,将随着其自动化和数字化程度提高而变得越来越接近现实,中药制药工业大数据的可视化分析技术也因此而变得非常重要和急需。数据集成、数据挖掘与数据可视化技术的推广和应用将使得工厂管理者方便快捷地发现数据中隐含的信息和知识,并以直观简便的图形表现出来以利于交流和传播。因此,笔者认为数据集成、数据挖掘与数据可视化技术作为数字制药的一个重要支撑技术手段将在未来的中药制药精密化、数字化、智慧化转变中起到至关重要的作用。
[参考文献]
[1] 程翼宇,瞿海斌,张伯礼.论中药制药工程科技创新方略及其工业转化[J].中国中药杂志,2013,38(1):3.
[2] 张伯礼,范骁辉,刘洋,等. 中成药二次开发战略及其核心技术体系[J]. 中国中药杂志,2013,38(22):3797.
[3] 薛云丽,孙启泉,王君莲,等.过程分析技术在中药企业科技创新中的应用[J].中国现代应用药学,2012,29(12):1078.
[4] Clatworthy J, Buick D, Hankins M, et al. The use and reporting of cluster analysis in health psychology: a review[J]. Brit J Health Psychol, 2005,10: 329.
[5] Friedman N, Linial M, Nachman I,et al. Using bayesian networks to analyze expression data[J]. J Comput Biol,2000,7(3/4): 601.
[6] Rokach Lior, Maimon O.Data mining with decision trees: theory and applications[M]. Singapore: World Scientific Publishing Co., Pte. Ltd., 2008.
Data integration, data mining and visualization analysis of traditional
Chinese medicine manufacturing process
LI Zheng, KANG Li-yuan, FAN Xiao-hui
(1.State Key Laboratory of Modern Chinese Medicine, Tianjin University of Traditional Chinese Medicine, Tianjin 300193, China;
2. Department of TCM Science and Engineering, College of Pharmaceutical Sciences, Zhejiang University, Hangzhou 310058, China)
[Abstract] Huge amount of data becomes available from the pharmaceutical manufacturing process with wide application of industrial automatic control technology in traditional Chinese medicine (TCM) industry. The industrial big data thus provides golden opportunities to better understand the manufacturing process and improve the process performance. Therefore it is important to implement data integration and management systems in TCM plants to easily collect, integrate, store, analyze, communicate and visulize the data with high efficiency. It could break the data island and discover useful information and knowledge to improve the manufacturing process performance. The key supporting technologies for TCM manufacturing and industrial big data management were introduced in this paper, with a specific focus on data mining and visualization technologies. Using historic data collected from a manufacturing plant of Shengmai injection of SZYY group, we illustrated the usefulness and discussed future prospects of data mining and visualization technologies.
[Key words] traditional Chinese medicine manufacturing engineering; process analysis; data visualization; big data science
doi:10.4268/cjcmm20141537