当前位置: > 投稿>正文

数据统计分析的几个重要方法,统计学7种数据分析方法

04-19 互联网 未知 投稿

关于【数据统计分析的几个重要方法】,今天乾乾小编给您分享一下,如果对您有所帮助别忘了关注本站哦。

1、数据统计分析的几个重要方法:干货!统计学7种数据分析方法,超级实用

Hi~盆友们!

今天的内容非常干货,大家一定要看呀~~

做数据分析,就一定会涉及到统计学的知识。我之前还推了一些统计学相关的基础知识。今天,我会分享7个我们很可能会用到的统计学中的数据分析方法

一、描述统计

描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。

描述统计分为集中趋势分析、离中趋势分析、相关分析三大部分。

集中趋势分析

集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。

离中趋势分析

离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。

相关分析

相关分析探讨数据之间是否具有统计学上的关联性。

二、假设检验

假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

假设检验可分为正态分布检验、正态总体均值分布检验、非参数检验三类。

正态分布检验

正态分布检验包括三类:JB检验、KS检验、Lilliefors检验,用于检验样本是否来自于一个正态分布总体。

正态总体均值分布检验

正态总体均值分布检验考察系统误差对测试结果的影响,从统计意义上来说,各样本均值之差应在随机误差允许的范围之内。反之,如果不同样本的均值之差超过了允许的范围,这就说明除了随机误差之外,各均值之间还存在系统误差,使得各均值之间出现了显著性差异。

分为两种情况:

T检验:主要用于样本含量较小,总体标准差未知的正态分布资料。它用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。

U检验:一般用于大样本的平均值差异性检验,基于样本来自正态总体的假设。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。国外英文统计学大多采用Z检验。

非参数检验

非参数检验不考虑总体分布是否已知,仅应用样本观察值中一些非常直观的信息。适用情况包括:待分析数据不满足参数检验所要求的假定,因而无法应用参数检验;仅由一些等级构成的数据;所提的问题中并不包含参数;需要迅速得出结果时。它的主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验、符号检验等。

三、相关分析

相关分析是研究现象之间相互关系的主要方式之一,它可以将现象之间的关系大小与方向测定出来。相关关系的类型按照不同维度可分为:

按相关程度划分:完全相关、不相关、不完全相关。

按依存关系的表现形式划分:线性相关、非线性相关。

按相关方向划分:正相关、负相关。

按研究量划分:单相关、复相关。

相关关系的测定方法包括:散点图、相关系数等。

四、回归分析

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。它按照变量的多少和变量之间的关系类型,可分为多种回归:

一元线性回归分析

分析一个因变量与一个自变量之间的线性关系,常用统计指标包括: 平均数、增减量、平均增减量。

多元线性回归分析

分析多个自变量与一个因变量之间的线性关系,在实际统计分析中,一般利用软件对多元回归模型进行估计。

非线性回归分析

自变量与因变量之间因果关系的函数表达式是非线性的,非线性回归模型有很多包括对数曲线方程、反函数曲线方程、二次曲线方程、三次曲线方程、复合曲线方程、幂函数曲线方程 、S形曲线方程等均为非线性回归方程。

其它回归分析模型还有很多,之前有写过一篇回归分析的内容,想了解的小伙伴可以去看,这里就不赘述啦!

常见的10个回归分析模型算法,果断收藏

五、方差分析

方差分析又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。使用条件包括:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

根据所分析的试验因素个数多少,可分为:

单因素方差分析

用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素。

双因素方差分析

用来分析两个因素的不同水平对结果是否有显著影响,以及两因素之间是否存在交互效应。

六、聚类分析

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,将数据分类到不同的类或者簇。同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

聚类分析的计算方法主要有:

分裂法

首先创建k个划分,k为要创建的划分个数。然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-means、k-medoids、CLARA、CLARANS、FCM等。

层次法

创建一个层次以分解给定的数据集,可以分为自上而下(分解)和自下而上(合并)两种操作方式。方法包括:BIRCH、CURE、ROCK、CHEMALOEN等。

基于密度的方法

根据密度完成对象的聚类。方法包括:DBSCAN、OPTICS等。

基于网格的方法

先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。方法包括:STING、CLIQUE等。

基于模型的方法

假设每个聚类的模型并发现适合相应模型的数据。方法包括:COBWEB、CLASSIT等。

七、时间序列分析

时间序列是同一现象在不同时间上的观察数据按时间先后顺序排列起来所得到的数列,也称为动态数列。时间序列的两个基本要素:现象所属的时间和反映现象在不同时间上的指标数值。

时间序列按排列指标的表现形式不同,可分为:

绝对数时间序列

指一系列同类的总量指标数据按时间先后顺序排列而形成的序列,反映现象在各个时期上达到的绝对水平。又分为:时点序列和时期序列。

相对数时间序列

指相对指标数值按时间先后顺序排列而形成的时间序列,主要反映的是客观现象数量对比关系的发展过程。

平均数时间序列

指一系列同类的平均指标数值依时间顺序排列形成的数列,主要反映的是客观现象一般水平的发展变化过程。又可分为:静态平均数时间序列和动态平均数时间序列。

时间序列的分析模型,按影响因素可划分为:

长期趋势的测定和分析方法:时距扩大法、移动平均法、最小二乘法。

季节变动的测定和分析方法:同期平均法、移动平均趋势剔除法。

循环变动的测定和分析方法:直接法和剩余法。

当然了,统计学远远不止这7种数据分析方法,还有很多其他方法值得我们深挖学习,如通径分析、因子分析、主成分分析等。如果以后要做数据分析,一定要学习更多统计学的基础知识。

2、数据统计分析的几个重要方法,数据分析必掌握的统计学知识

此文是《10周入门数据分析》系列的第7篇

想了解学习路线,可以先阅读 学习计划 | 10周入门数据分析


统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。

大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:

基本的统计量:均值、中位数、众数、方差、标准差、百分位数等

概率分布:几何分布、二项分布、泊松分布、正态分布等

总体和样本:了解基本概念,抽样的概念

置信区间与假设检验:如何进行验证分析

相关性与回归分析:一般数据分析的基本模型

通过基本的统计量,你可以进行更多元化的可视化,以实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算,或者python、R里面一些对应的可视化方法。

有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析。

你也可以应用假设检验的方法,对一些感性的假设做出更加精确地检验。

利用回归分析的方法,你可以对未来的一些数据、缺失的数据做基本的预测。

了解统计学的原理之后,你不一定能够通过工具实现,那么你需要去对应的找网上找相关的实现方法,也可以看书。先推荐一本非常简单的:吴喜之-《统计学·从数据到结论》。也可以看《商务与经济统计》,结合业务能更容易理解。

另外,如何精力允许,请掌握一些主流算法的原理,比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林。再深入一点,还可以掌握文本分析、深度学习、图像识别等相关的算法。关于这些算法,不仅需要了解其原理,你最好可以流畅地阐述出来,还需要你知晓其在各行业的一些应用场景。如果现阶段不是工作刚需,可不作为重点。

本文算是一个知识点汇总,不做细致展开,让大家了解统计学有哪几大块,每一类分别用于什么样的分析场景。后面几篇会以实际案例的方式,细致讲讲描述性统计、概率分布等。

知识点汇总:

1.集中趋势

2.变异性

3.归一化

4.正态分布

5.抽样分布

6.估计

7.假设检验

8.T检验

一、集中趋势

1.众数

出现频率最高的数;

2.中位数

把样本值排序,分布在最中间的值;

样本总数为奇数时,中位数为第(n 1)/2个值;

样本总数为偶数时,中位数是第n/2个,第(n/2) 1个值的平均数;

3.平均数

所有数的总和除以样本数量;

现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值的出现收到很大影响。举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;

二、变异性

1.四分位数

上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3

2.四分位距 IQR=Q3-Q1

数据统计分析的几个重要方法,统计学7种数据分析方法

3.异常值

小于Q1-1.5(IQR)或者大于Q3 1.5(IQR);

对于异常值,我们在数据处理的环节就要剔除;

4.方差

数据统计分析的几个重要方法,统计学7种数据分析方法

5.平方偏差

方差的算术平方根

6.贝塞尔矫正:修正样本方差

实际在计算方差时,分母要用n-1,而不是样本数量n。原因在于,比如在高斯分布中,我们抽取一部分的样本,用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在x=u中心值附近,那么样本如果用如下公式算方差,那么预测方差一定小于大数据集的方差(因为高斯分布的边沿抽取的数据也很少)。为了能弥补这方面的缺陷,那么我们把公式的n改为n-1,以此来提高方差的数值,这种方法叫贝塞尔矫正系数。

三、归一化

1.标准分数

一个给定分数 距离 平均数 多少个标准差?

标准分数是一种可以看出某分数在分布中相对位置的方法。

标准分数能够真实的反映一个分数距离平均数的相对标准距离。

数据统计分析的几个重要方法,统计学7种数据分析方法

四、正态分布

1.定义:随机变量X服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)

随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;

有95.4%的概率位于距离均值μ有2个标准差σ内;

有99.7%的概率位于距离均值μ有3个标准差σ内;

数据统计分析的几个重要方法,统计学7种数据分析方法

五、抽样分布

1.中心极限定理

设从均值为μ,方差为σ⊃2;的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布

2.抽样分布

设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n。

举个例子:

48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。

数据统计分析的几个重要方法,统计学7种数据分析方法

六、估计

1. 误差界限

数据统计分析的几个重要方法,统计学7种数据分析方法

2. 置信度

We are some % sure the true population parameter falls within a specific range

我们有百分之多少确信总体中的值落在一个特定范围内;

一般情况下,取95%的置信度就可以;

3. 置信区间

数据统计分析的几个重要方法,统计学7种数据分析方法

七、假设检验

数据统计分析的几个重要方法,统计学7种数据分析方法

1.问题:什么是显著性水平?

显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

数据统计分析的几个重要方法,统计学7种数据分析方法

数据统计分析的几个重要方法,统计学7种数据分析方法

2. 如何选择备选检验和零假设?

一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;

同时将研究者想收集证据证明其不正确的假设作为原假设H0

八、T检验

1. 主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。

流程如下:

数据统计分析的几个重要方法,统计学7种数据分析方法

是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;

一般检验水准α取0.05即可;

计算检验统计量的方法根据样本形式不同;

2. 独立样本T检验:

现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。

数据统计分析的几个重要方法,统计学7种数据分析方法

问题:为什么T检验查表时候要n-1?

样本均值替代总体均值损失了一个自由度

3. 配对样本t检验

分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对

数据统计分析的几个重要方法,统计学7种数据分析方法

样本误差(Standard Error)

数据统计分析的几个重要方法,统计学7种数据分析方法

数据统计分析的几个重要方法,统计学7种数据分析方法

4. Pooled variance 合并方差

当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差

不要被公式吓到,他的本质是两个样本方差加权平均

数据统计分析的几个重要方法,统计学7种数据分析方法

数据统计分析的几个重要方法,统计学7种数据分析方法

5. Cohen’s d

效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。

数据统计分析的几个重要方法,统计学7种数据分析方法

数据统计分析的几个重要方法,统计学7种数据分析方法


此文是《10周入门数据分析》系列的第7篇。

想了解学习路线,可以先行阅读“ 学习计划 | 10周入门数据分析

本文关键词:数据统计分析方法有哪几种,数据统计分析的方法有哪些,数据分析常用的统计方法,数据统计分析法基本方法,数据统计分析的基本方法。这就是关于《数据统计分析的几个重要方法,统计学7种数据分析方法》的所有内容,希望对您能有所帮助!更多的知识请继续关注《犇涌向乾》百科知识网站:http://www.029ztxx.com!

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。

猜你喜欢