前段时间很多朋友留言学习一些数据分析的基础知识,一定要安排给我们热爱学习的同学。所以从这周开始,我们会时不时的给大家一些数据分析的入门知识,希望大家能理解和热爱数据分析。
今天我们主要和大家分享的是数据统计分析策略的相关知识,大家喜欢的朋友可以收集学习一下~
一般来说,数据统计分析策略主要分为三类,包括描述性统计分析、探索性统计分析和推理性统计分析。这三种策略都是由浅入深,让我们一步步掌握统计分析策略。
01
描述性统计分析
1)释义
根据百度的解释,描述性统计是指借助均值、百分比等各种数据表达的统计,进行单因素分析。它侧重于对数据的描述,比如描述你看到的一张图片。同平均水平的内容、可行范围、数据波动等。数据分析师可以更好地理解数据,掌握数据的全貌。
描述性统计分析是数据分析过程中的基本环节,但也非常重要。因为操作简单,是下一步数据分析的前提。
2)案例1
给你举个生活中的例子。开始
解释下这个分析方法。
老板日常跟员工对话的场景。
老板:小丽,帮我查一下今年9月份网站的流量数据。
小丽:……(可能会想:老板你究竟想看什么数据?页面访问量(PV)还是用户访问量(UV)?你都没说明白,我怎么操作?)
但问题是,小丽不可能不给老板数据,所以,最好的办法就是两个数据都给,这样,小丽就能减少被老板批评的概率了。
那么,接下来小丽需要做的,就是通过描述性统计分析,将网站的PV和UV展现在表格中,像下图一样,并为这组数据附上简单的情况分析:
上图就是我们常用的基本统计指标,包括每天的PV和UV。接下,我们就要写上一些关键性的解读指标了。拿PV举例,我们就应该补充:比如,
日均PV为:41072.87次;
月内最多的一次访问量为:49,847次
月内最少的一次访问量为:30,471次;
月内有1/4天数的PV:在36791.5次以下;
标准差为:5,685.52;
……
需要注意的是,表格中的下四分位数,即统计学意义的25%分位点,上四分位则为统计学意义的75%分位点。最终,我们要提给老板数据表,应该还包括:
综上述,该案例就是一个典型的描述性统计分析。我们要做的,就是针对数据的统计结果做简单的描述,表达出数据的统计特征。
3)案例2
此外,如果我们想更加直观的呈现数据效果,还可以通过图形的方式,来描述数据的内部规律。
举个电商公司的例子:我们需要统计某电商平台,近一个月在各支付渠道的付款比例;或者我们需要分析用户年交易额的分布特征。那么我们应该怎么做呢?
我们先来说说支付渠道比例。通过数据统计并整合渠道,并计算各渠道占总付款渠道的比例,就可以形成如下图形:
接下来我们说说全年的用户交易额的分布特征。假设用户的总交易金额存在严重的不平衡,交易额在2000元以内的用户最多,且占到绝对优势;几乎所有用户的交易额都在10000元以内,超过10000元的用户极少,那么,我们就可以根据相应的数据比例,绘制出如下的曲线:
通过两条曲线的对比,我们可以发现它们的吻合度并不是很高,故可以进一步断定,该数据的分布并非正态分布。
由此可以得出结论:在日常的学习或工作中,数据分析人员需要掌握描述性统计分析的内容,包括:数据的频数分析、集中趋势分析(如:均值、中位数、众数等)、离散程度分析(如:标准差、极差、变异系数等)、分布特征(如:偏度值,峰度值等)以及一些基本的统计图形(如饼图、直方图、箱线图等)。
通过这些基本的统计描述方法,我们可以进一步的了解企业的业务,并了解企业地发展状况等。并且,掌握描述性统计分析方法,还能为企业决策提供有力的支持方案。
02
探索性统计分析
1)释义
通过百度词条,我们了解到:
探索性统计分析主要是通过探索,来发现数据背后隐藏的内在规律和联系。通常情况下,我们还可以利用探索性统计分析,去挖掘数据中出现异常的原因。
比如,当我们需要研究某些变量之间,是否存在一定的相关性;研究两组样本之间是否存在显著的差异性;探索企业内某指标是否达标的原因(如:曝光量、广告点击率、支付成功率、某支付渠道占比等);探索企业内某指标未来的变化趋势等。
2)案例分析
对于从业者来说,探索性统计分析策略在工作中的应用是非常频繁的。因为我们可以通过该策略,帮助企业了解数据中不易发现的内在价值和联系,并通过借助数据可视化的技术,将问题的答案图形化,便于管理层直观地发现数据中有意思的信息。
为使读者更好地理解探索性统计分析的应用,这里举三个通俗易懂的小例子:
(1)探索汽车的速度与刹车距离之间的关系;
(2)探索《泰坦尼克号》里,男女乘客在一等舱内的票价,是否存在差异;
(3)探索某电商的交易量在PC端和移动端之间的比例变化。
下面,我们逐一的来分析这几个案例中,变量之间的关系。
案例1:
我们都知道,散点图可以直观地展现两者之间的某种内在关系(如线性关系、非线性关系或无相关关系)。所以,在探索汽车的速度与刹车距离之间的关系时,我们可以先画出散点图来。如下:
从图中我们可知,随着行驶速度的增加,刹车距离也在增加。它们之间属于正相关的线性关系。
(思考:这种正相关的线性关系,可否通过某个具体的函数来表达呢?大家可以思考一下,我们也会在后面介绍推断性统计分析时,为大家解惑。)
案例2:
我们都知道,箱型图最大的作用是:既可以直观地展现数据的对比,又可以识别出数据中的异常样本点。所以,在探索《泰坦尼克号》男女乘客在一等舱内的票价是否存在差异时,我们可以选择箱线图来进行描述。
如图,纵轴表示男女性别,横轴表示乘客的票价,在两个箱线图的中间箱体部位,都有一个明显的分界线,那就是中位数。
由上图可知,两个箱线图的中位数并没有近似垂直对齐,两者存在显著差异,说明男女乘客的票价存在显著差异。
由于篇幅限制,我们会在下一篇中,给大家分享剩下的篇幅。喜欢这些内容的话,请继续关注我们哦~