数据分析基础(一)
数据分析的步骤
数据分析可分为数据采集、数据挖掘、数据可视化三个步骤。
但在完成上面三个步骤之前,还有一个基本的东西需要完成:明确数据分析的目标。
如果数据分析的目标不清晰,数据不能够用来解决问题,那么数据就没有任何价值。所以数据分析的完整步骤应该是:明确数据分析目的——数据采集——数据整理(清洗、变换、分类等)——数据挖掘(建模)——数据可视化——数据更迭。
数据分析常用算法
国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。
算法 | 常用方法 |
---|---|
分类算法 | C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART |
聚类算法 | K-Means,EM |
关联分析 | Apriori |
连接分析 | PageRank |
用户画像建模
获客、粘客、留客
数据变换的常用方法
为什么要进行数据变换?把数据变换成统一的标准,方便后续围绕数据进行计算。
常用的数据变换方法有:
- 数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑;
- 数据聚集:对数据进行汇总,在 SQL 中有一些聚集函数可以供我们操作,比如 Max() 反馈某个字段的数值最大值,Sum() 返回某个字段的数值总和;
- 数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念;
- 数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小—最大规范化、Z—score 规范化、按小数定标规范化等,我会在后面给你讲到这些方法的使用;
- 属性构造:构造出新的属性并添加到属性集中。这里会用到特征工程的知识,因为通过属性与属性的连接构造新的属性,其实就是特征工程。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和”这个属性,来作为新属性。这样“总和”这个属性就可以用到后续的数据挖掘计算中。
常用的规范方法:
- min-max:将数据归一化到[0,1]区间。新数值 =(原数值 - 极小值)/(极大值 - 极小值)
- z-score:将数据规范到0均值,1方差的标准正态分布上,减少老师说的百分制80和500分制80的数据值差异问题。新数值 =(原数值 - 均值)/ 标准差
- 小数定标规范化:将数据转化为[-1,1]区间中。
python做数据分析常见扩展库
Numpy:详见一文学懂NumPy基础知识1
Scipy:
Matplotlib:
Pandas:详见Pandas基础快速入门
StatsModels:
Scikit-Learn:
Keras:
Gensim:
数据分析案例
航空公司客户价值分析
家用电器用户行为与事件识别
电子商务网站用户行为分析与服务推荐
电商产品评论数据情感分析
财政收入影响因素及预测模型
参考资料
数据分析实战45讲|极课时间
《python数据分析与挖掘实战》张良均等著
Chage Log
20201109 增加python做数据分析常见扩展库
20201108 创建初版