首页手记企业如何实现对工业大数据的预处理？

企业如何实现对工业大数据的预处理？

标签：

大数据

数据分析，包括大数据分析，在企业的业务中，特别是在传统的商务行业，已有多年的应用实践，在消费者市场的营销中已成了必不可缺的技术。随着工业互联网和智能制造的兴起和发展，工业大数据技术也越来越受到各方关注。在“中国制造2025”的技术路线图中，工业大数据是作为重要突破点来规划的，而在未来的十年，以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。

对制造企业而言，不论是新实施的系统还是老旧系统，要实施大数据分析平台，就需要先弄明白自己到底需要采集哪些数据。因为考虑到数据的采集难度和成本，大数据分析平台并不是对企业所有的数据都进行采集，而是相关的、有直接或者间接联系的数据，企业要知道哪些数据是对于战略性的决策或者一些细节决策有帮助的，分析出来的数据结果是有价值的。

比如企业只是想了解产线设备的运行状态，这时候就只需要对影响产线设备性能的关键参数进行采集。

再比如，在产品售后服务环节，企业需要了解产品使用状态、购买群体等信息，这些数据对支撑新产品的研发和市场的预测都有着非常重要的价值。

因此，建议企业在进行大数据分析规划的时候针对一个项目的目标进行精确的分析，比较容易满足业务的目标。明确目标以后，就要着手开始搜集数据并进行预处理了。本期格物汇将跟大家介绍，企业如何实现对工业大数据的预处理。

数据采集

首先我们看看数据是如何获取的，在现实生活中，我们所面对的问题，往往都是抽象复杂的。我们来看如下两个例子：

如何提升产品的良率?

可能这是制造业最为普遍的一个问题，如果我们要分析解决这个问题，常常就会问到：什么产品?有多少条产线在生成?经过了哪些机台?影响产品良率的因素有哪些?我们可能会提出很多很多这样的问题，解决这些问题需要对相关业务知识非常了解，尽可能多的找出与问题有关的数据。

如何进行人脸识别?

这问题更加复杂一些，虽然我们每个人的大脑每天都在做人脸识别，但是大脑如何工作的却异常难懂。我们可能需要做很多科研工作，去挖掘到底哪些数据会影响到人脸识别的正确率。如果这些数据本身没有，很可能还需要进行测量采集，比如两眼之间的距离，嘴的宽度和长度等等。当然，我们还会评估采集的成本，并对这些数据有效性进行评估，验证我们的成本是否值得去花费精力测量。

数据预处理简介

数据采集以后，数据往往存放在数据库或文件系统中，我们需要把他们导入到算法模型中进行训练，得到我们想要的模型。但是我们的数据往往杂乱无章，总的来说，数据一般存在如下几类问题：

数据类型多种多样

我们的数据中常常出现字符型，时间型，数字型等多种数据类型。其中：字符型是无法代入模型计算的，所以我们根据需要，可以对字符型数据进行编码转换。常用的编码方法有：

数字编码：对于有大小比较的字符型数据，可以直接转换成数字编码。比如：

Onehot编码：对于没有大小比较的字符型数据，可以使用Onehot独热编码。比如：

时间类型往往是一类特殊的数据，把时间简单看成一个实数的话，往往不符合逻辑。对于带时间的数据，我们通常使用时间序列的分析方法进行分析。有时候我们更加关注的是两列时间的差值，这时我们可以构建时间差值列作为新的变量加入模型之中。

数字型往往是导入模型进行训练的主要部分，数字型又可以细分为离散型和连续型，因为离散与连续的数据分布显著不同，我们可以对其进行分开处理。数字型之间各个列常存在量纲差异，有的数据可能很大，有的数据可能很小，我们需要去除数据量纲，防止模型对数据较大的列进行偏倚(数据值较大时通常方差也较大)。常用的数据去量纲的方法有最大最小值归一化法，均值标准差标准化法等等。

数据格式不对

我们期望数据格式是表结构，矩阵格式，或者是张量格式。然而我们拿到的数据往往不是格式化的数据，比如机台的日志数据，图像数据，音频视频数据。我们需要对上述数据转换，把数据格式转换成我们想要的格式。

数据中存在异常

数据中还会出现缺失值，异常值等异常，这些情况也会强烈影响到模型的训练，我们需要对空值进行补值。如何补值需要我们对数据非常了解，才能推断出该用什么值来补值，才不会改变原有的数据分布。一般的补值方法有：0值补值，均值补值，中位数补值，按上一个数补值，移动平均补值，线性插值，相关列补值法等等，对于缺失值比例较大的列，可以采取直接删除的方法。异常值则需要创建规则，对异常值进行识别，再用正常的值进行替换，故异常值也有类似于缺失值的替换方法。

作者：yoku酱
链接：https://www.jianshu.com/p/889940dfd5dc

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕标5832272

全栈工程师

手记
篇

粉丝

235

获赞与收藏

1012

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32886 371

网络编程入门教程

20个小节 13641 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

企业如何实现对工业大数据的预处理？

阅读免费教程