诊断分析和预测分析
诊断分析和预测分析的作用决定了为什么会发生这种情况以及将会发生什么。如何分析这个问题:
1. 搜寻相关功能
在诊断分析中,你首先需要知道结果和可能的相关因素(在商业数据分析,这些因素被称为功能)的过程一方面取决于我们对业务的理解程度,商人和头脑风暴,只要是可能相关,考虑在内,也可以基于现有功能的新结构,可以验证是否相关的分析。
例如与汽车油耗相关的特征可能包括:车辆重量、排水量、轴距、传动方式(手动、自动)、驱动方式(二、四驱动)等。
(b)的相关性分析
在列出可能与结果相关的特性之后,下一步是验证它们是否与结果相关。具体的方法包括:
2.1定性分析
2.1.1二维散点图
如果只有一个特性之间的相关性分析结果,可以通过一个二维散点图分析,并初步直观地判断之间存在什么样的关联两个通过图形描述:正相关、负相关、不相关;如果是,它是线性的还是非线性的(抛物线,指数,等等)。下图为不同性别的年龄与身高关系的散点图。可以看出,两者在青春期之间存在着正线性相关关系。
2.1.2矩阵散点图
在现实中,只有一个与结果相关的特性是很少见的。大多数情况下,有多个特性与结果相关。此时需要矩阵散点图进行分析。矩阵散点图的模式如下:
其实质是对每个特征和结果做二维散点图,分析其相关性。当然,在矩阵也可以散点图分析是否有相关性特性和特点,专业要求多重共线性,特征数据的多元线性回归模型要求不存在多重共线性,否则将贴现模型的可信度,需要排除一些特性可以消除共线性建模。
2.2定量分析
上述散点图分析只能通过图看到特征与结果之间的近似关系,即定性分析;但是,它们之间的关系无法准确地描述,即定量分析;定量分析可分为以下两个步骤:
2.2.1特征选择
当我们列表可能与多个特性的结果,并通过收购大约散点图直观的认知,还需要更准确判断哪些特性和结果的相关性较高,为了降低计算的复杂性,我们应该只把最相关的或最重要的一个特性模型中,主要有两种方法:
常用的方法有单变量特征选择方法:计算皮尔逊系数(即。,相关系数)和互信息系数、相关系数只能测量线性相关系数和互信息可以测量各种各样的相关性,但相对复杂的计算,但是很多工具箱包含工具(比如sklearn mime),内部相关性排序选项后特征;
基于模型的特征选择方法:一些模型会对训练过程中的特征进行排序,如logistic回归、决策权、随机森林等。
特征选择不仅有助于简化计算,而且有助于我们更好地理解特征与结果之间的关系。