0%

数据分析基础(一)

数据分析的步骤

数据分析可分为数据采集、数据挖掘、数据可视化三个步骤。

但在完成上面三个步骤之前,还有一个基本的东西需要完成:明确数据分析的目标。

如果数据分析的目标不清晰,数据不能够用来解决问题,那么数据就没有任何价值。所以数据分析的完整步骤应该是:明确数据分析目的——数据采集——数据整理(清洗、变换、分类等)——数据挖掘(建模)——数据可视化——数据更迭。

image-20201108093634021

数据分析常用算法

国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。

算法 常用方法
分类算法 C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
聚类算法 K-Means,EM
关联分析 Apriori
连接分析 PageRank

用户画像建模

获客、粘客、留客

数据变换的常用方法

为什么要进行数据变换?把数据变换成统一的标准,方便后续围绕数据进行计算。

常用的数据变换方法有:

  • 数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑;
  • 数据聚集:对数据进行汇总,在 SQL 中有一些聚集函数可以供我们操作,比如 Max() 反馈某个字段的数值最大值,Sum() 返回某个字段的数值总和;
  • 数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念;
  • 数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小—最大规范化、Z—score 规范化、按小数定标规范化等,我会在后面给你讲到这些方法的使用;
  • 属性构造:构造出新的属性并添加到属性集中。这里会用到特征工程的知识,因为通过属性与属性的连接构造新的属性,其实就是特征工程。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和”这个属性,来作为新属性。这样“总和”这个属性就可以用到后续的数据挖掘计算中。

常用的规范方法:

  • min-max:将数据归一化到[0,1]区间。新数值 =(原数值 - 极小值)/(极大值 - 极小值)
  • z-score:将数据规范到0均值,1方差的标准正态分布上,减少老师说的百分制80和500分制80的数据值差异问题。新数值 =(原数值 - 均值)/ 标准差
  • 小数定标规范化:将数据转化为[-1,1]区间中。

python做数据分析常见扩展库

Numpy:详见一文学懂NumPy基础知识1

Scipy:

Matplotlib:

Pandas:详见Pandas基础快速入门

StatsModels:

Scikit-Learn:

Keras:

Gensim:

image-20201109193405641

数据分析案例

航空公司客户价值分析

家用电器用户行为与事件识别

电子商务网站用户行为分析与服务推荐

电商产品评论数据情感分析

财政收入影响因素及预测模型

参考资料

数据分析实战45讲|极课时间

《python数据分析与挖掘实战》张良均等著

Chage Log

20201109 增加python做数据分析常见扩展库

20201108 创建初版