一种基于制造大数据的产品工艺自适应设计方法( 二 )


一种基于制造大数据的产品工艺自适应设计方法文章插图
图 2 产品工艺自适应设计模式的数据挖掘过程
(一)多源异构数据融合
在先进制造系统中 , 随着传感器种类的增多 , 产生的信息量不断增大 , 数据的表现形式也更加复杂 , 如力学传感器与速度传感器工作时产生时序数据、视觉传感器捕捉图像产生图像数据、产品数据管理系统(PDM)运行中产生数据等 。 制造大数据的显著特征是多样性、复杂性和不确定性 , 对制造大数据的统一表达是解决数据融合问题的关键和难点 [19] 。
(1)时序数据的融合 。 制造过程通常需要对机床和工件的状态进行监控 , 采集速度、应力、温度等时序数据 , 而这类数据的采集帧率较高(40~80 fps) 。 为实现时序数据与其他类型数据的匹配和融合 , 需对时序数据进行下采样 , 运用平均值、方差等方法反映某一阶段的加工状态 。
(2)图像数据的融合 。 对于制造系统中的图像数据 , 需要提取图像中的信息以进行结构化表达 。 传统图像信息的提取是由人手动完成的 , 效率较低 。 随着卷积神经网络模型在计算机视觉领域的应用 , 机器的图像感知能力有了跨越式发展 , 可运用机器进行图像数据的信息提取 , 将非结构化的图像数据转换为结构化的数据信息 。
(二)数据清洗与预处理
在数据驱动的产品工艺自适应设计模式中 , 数据的体量和质量都发挥着至关重要的作用 。 数据质量包括数据的准确性、完整性、一致性和有效性 。 其中 , 准确性指数据与物理世界相符合的程度 , 完整性指数据中有效值所占的比例 , 一致性指数据对指定约束的满足程度 , 有效性则表征数据的价值密度 。
数据清洗指将“脏数据”清除以提高数据质量 , 包括数据异常值与缺失值的处理、去噪等 。 对于数据异常值 , 可以采用距离度量或聚类的方法检测数据集中的离群点 , 删除与数据集中心距离过大的数据点 。 对于数据集中的缺失值 , 插值是数据处理的有效手段 , 通过数据填充使数据集趋于完整 。 针对数据中的噪声 , 可以使用平滑滤波等算法进行去噪 。 制造大数据中通常包含大量重复的数据点 , 对于这种数据集要进行数据降重 , 减少数据冗余 。
(三)数据变换与降维
制造大数据是制造系统与制造过程的数字化表达 , 制造系统中收集到的数据越多 , 对制造系统的完整描述就越有帮助 , 而这为数据挖掘工作带来维数灾难问题 。 维数灾难是处理高维数据时遇到的最大问题之一 , 不仅影响数据分析算法的时间和空间复杂度 , 还会导致数据分析算法的不收敛问题 。
制造过程中采集的各种数据通常具有一定的相关性 , 如焊接过程中的电压与电流、机床主轴的转速与切削速度等 。 这种相关性会造成维度的冗余 , 增加不必要的计算 , 因而数据降维就显得尤为重要 。 数据降维指从高维的数据空间中保留合适的特征数据并剔除冗余数据 , 降低数据维度 。 降维后的数据既能保留原有信息量 , 又能避免维数灾难 。
(四)数据挖掘
制造大数据挖掘的主要目的是进行预测与规则提取 。 数据预测是用已知变量预测其他变量的未来值 , 数据规则提取则是找到数据中可被理解并可用于指导产品设计的隐藏规则 。 常用的数据挖掘方法有分类、回归、聚类与关联性分析 [20] 。
(1)分类分析与回归分析方法是进行数据预测的主要方法 , 都是对特征空间进行映射 。 分类分析方法将特征空间映射到离散的变量 , 回归分析方法将特征空间映射到连续的变量 。 分类分析和回归分析方法的预测过程如图 3 所示 。
一种基于制造大数据的产品工艺自适应设计方法文章插图
图 3 分类分析与回归分析方法的预测过程
首先给定一个训练数据集


推荐阅读