正态分布的概率,机器学习与概率分布(正态分布一核心的概率分布)
关于【正态分布的概率】,机器学习与概率分布,今天犇犇小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
1、正态分布的概率:116思维模型:正态分布一核心的概率分布
互联网时代每天产生的数据正在以指数级增长,如何看透数据背后隐藏的秘密和规律,统计学概率论应运而生,很快成为科学的基础工具,渗透到了整个自然科学和社会科学领域。
概率论是研究随机现象数量规律的数学分支,它可以帮助我们应对不确定性、预测未来、并做出科学决策。面对随机而又复杂的世界,数学家用分布来刻画变量的变差(在某个类型内部的差异)和多样性(不同类型之间的差异),将变量表示为在数值上或类别上定义的概率分布。分布为事件或价值分配概率。
每日降雨量、考试分数或身高的分布为每一个可能的结果值分配一个概率。各种统计量将分布中包含的信息压缩为单个数值,例如均值是分布的平均值。
社会科学家经常通过均值来比较各个国家的经济发展水平。例如:2020年,美国的人均国内生产总值为63051美元,日本为39048美元,中国是10582美元。 常见的概率分布有泊松分布,二项分布,伯努利分布,正态分布,均匀分布。其中正态分布是最为核心的概率分布。
一、认识正态分布
正态分布,也称“常态分布”,又名高斯分布,正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布函数公式如下:
其中μ为均数,σ为标准差。μ决定了正态分布的位置,与μ越近,被取到的概率就越大,反之越小。σ描述的是正态分布的离散程度。σ越大,数据分布越分散曲线越扁平;σ越小,数据分布越集中曲线越陡峭。在一个标准正态分布中,约有 68.2% 的点落在 ±1 个标准差的范围内。约有 95.5% 的点落在 ±2 个标准差的范围内。约有 99.7% 的点落在 ±3 个标准差的范围内。
正态分布概念是由法国数学家棣莫弗于1733年首次提出的,后由德国数学家高斯率先将其应用于天文学研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,所以有了“高斯分布”的美称。
在我们的自然界,大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件.
例如:我们从来没有遇到过1米长的蚂蚁,也没有看到过1千克重的大象。世界似乎被代表正态分布的“钟形”包围着,很多事物都是服从正态分布的:人的高度、胖瘦、寿命、雪花的尺寸、测量误差、灯泡的寿命、IQ分数、面包的分量、学生的考试分数,员工上班所需时间等等。
正态分布有以下几个特征:
集中性:曲线的最高峰位于正中央,且位置为均数所在的位置。
对称性:正态分布曲线以均数所在的位置为中心左右对称且曲线两端无线趋近于横轴。
均匀变动性:正态分布曲线以均数所在的位置为中心均匀向左右两侧下降。
面积恒等:曲线与横轴间的面积总等于1。
正态分布有两个非常重要的参数,它们分别是:样本的均值和标准差。均值是样本中所有点的平均值。均值定义了正态分布的峰值位置,大多数值都集中在均值周围。标准差是表示数据集与样本均值的偏离程度。标准差定义了正态分布的宽度,决定了观察值与均值的偏离程度。标准差越小,正态分布曲线越窄。标准差越大,正态分布曲线越宽。当分布较窄时,值落在均值附近的概率会更高。
正态分布的解释力非常强,因为分布的均值、众数和中位数是相等的;我们只要用平均值和标准差就可以解释整个分布。
就数学理论而言,正态分布有其优越性:
①两个正态分布的乘积仍然是正态分布;
②两个正态分布的和是正态分布;
③正态分布的傅里叶变换仍然是正态分布。
二、正态分布产生的原因
钟形分布曲线无处不在,这是为什么呢?其奥秘来自于中心极限定理。
中心极限定理:只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N≥20个随机变量的和就近似一个正态分布。
中心极限定理告诉我们:
任何一个样本的平均值将会约等于其所在总体的平均值。
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
案例1:在一个500人的小城镇中,人们的购买行为数据显示,每个人平均每个星期花费100美元。在这些人中,可能有些人这个星期只花50美元、下个星期则花150美元,另一部分人可能每3个星期花费300美元。而其他人则可能每个星期的花费在20至180美元之间。只要每个人的支出都只有有限的变差并且没有任何一小部分人贡献了大部分变差,那么分布的总和必定是一个正态分布,其均值为50000美元。每个星期的总支出也将是对称的:可能高于55000美元,也可能低于45000美元。
案例2:中心极限定理来解释人类身高的正态分布。一个人的身高取决于基因、环境以及两者之间的相互作用。基因的贡献率可能高达80%,因此不妨假设身高只取决于基因。研究表明,至少180个基因有助于人体长高。
例如,一个基因可能有助于长出较长的颈部或头部,另一个基因可能有助于长出更长的胫骨。虽然基因之间存在相互作用,但我们可以假设在“长高”这件事情上,每个基因都是相互独立的。如果身高等于180个基因贡献的总和,那么身高将呈现正态分布。
高尔顿钉板试验更加形象地证明了正态分布。弗朗西斯•高尔顿是英国著名的统计学家、心理学家和遗传学家。他设计了一个钉板实验,希望从统计的观点来解释遗传现象。
如下图所示,木板上钉了数排(n排)等距排列的钉子,下一排的每个钉子恰好在上一排两个相邻钉子之间;从入口处放入若干直径略小于钉子间距的小球,小球在下落的过程中碰到任何钉子后,都将以1/2的概率滚向左边,以1/2的概率滚向右边,碰到下一排钉子时又是这样。如此继续下去,直到滚到地板的格子里为止。试验表明,只要小球足够多,它们在底板堆成的形状将近似于正态分布。因此,高尔顿钉板实验直观地验证了中心极限定理。
中心定理并不是万能的,他拥有三个很重要的前提:随机、独立和相加。
首先,第一个前提就是取样需要随机。如果我们抽取人的时候,只抽取长的高的或者只抽取长得矮的人,那么结果自然不符合正态分布。
第二,影响结果的因素是相互独立或者是相互影响比较小的。以身高为例,影响一个人长高的因素有很多,例如:父母长得高还是矮、营养是否跟得上、是否热爱运动......等等。父母长得高还是矮,对营养的补充没有很大的关系,跟是否热爱运动也没有关系,所以可以看成是相互独立的因素,所以身高的人群分布曲线自然就符合正态分布。
第三是相加,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。如果各种因素对结果的影响不是相加,而是相乘,那么最终结果就变成了对数正态分布。
在一定条件下,各种随意形状概率分布生成的随机变量,它们加在一起的总效应,是符合正态分布的。中心极限定理告诉我们:无论引起过程的各种效应的基本分布是什么样的,当实验次数n充分大时,所有这些随机分量之和近似是一个正态分布的随机变量。
中心极限定理从理论上证明了,在一定的条件下,对于大量独立随机变量来说,只要每个随机变量在总和中所占比重很小,那么不论其中各个随机变量的分布函数是什么形状,也不论它们是已知还是未知,当独立随机变量的个数充分大时,它们的和的分布函数都可以用正态分布来近似。这就是为什么实际中遇到的随机变量,很多都服从正态分布的原因,这使得正态分布既成为统计理论的重要基础,又是实际应用的强大工具。中心极限定理和正态分布在概率论、数理统计、误差分析中占有极其重要的地位。
三、正态分布的应用场景
1、检验显著性
我们可以利用正态分布的规律来检验各种平均值的显著性差异。显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。其原理就是“小概率事件实际不可能性原理”来接受或否定假设。如果经验均值与假设均值之间的偏差了超过两个标准差,那么社会科学家就会拒绝这两种均值相同的假设。
例如:现在提出这样一个假设,即旧金山的通勤时间与洛杉矶的通勤时间相同。假设数据表明,旧金山的通勤时间平均为33分钟,而洛杉矶为34分钟。如果这两个数据集的均值标准差都是1分钟,那么我们就不能拒绝旧金山和洛杉矶两地通勤时间相同的假设。虽然二者的均值不同,但只存在1个标准差。如果洛杉矶的平均通勤时间为37分钟,那么我们就会拒绝这个假设,因为均值之间相差4个标准偏差。
2、六西格玛方法
六西格玛方法是摩托罗拉公司于20世纪80年代中期提出的,目的是减少误差,该方法根据正态分布对产品属性进行建模。试想这个例子:一家企业专业生产制造门把手所用的螺栓。它生产的螺栓必须天衣无缝地与其他制造商生产的旋钮组装在一起。规格要求是螺栓直径为14毫米,但是任何直径介于13毫米与15毫米之间的螺栓也可以接受。如果螺栓的直径呈正态分布,均值为14毫米,标准差为0.5毫米,那么任何超过两个标准差的螺栓都是不合格的。
两个标准差事件发生的概率为5%,这个概率对于一家制造企业来说太高了。六个西格玛要求每一百万个机会中有3.4个出错的机会,即合格率是99.99966%。企业可以根据中心极限定理,从整体中抽样几百个,并根据这样一个样本来估计均值和标准差。然后推断出正态分布。这样一来,这家螺栓制造企业就可以得出一个基准标准差,然后花大力气去降低它。
3、对数正态分布
中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的,那么产生的分布就不一定是正态分布。例如,独立随机变量之间的乘积就不是正态分布,而是对数正态分布。对数正态分布缺乏对称性,因为大于1的数字乘积的增长速度比它们的和的增长速度快,比如,4+4+4+4=16,但4×4×4×4=256;而小于1的数字的乘积则比它们的和小,比如,1/4+1/4+1/4+1/4=1,但1/4*1/4*1/4*1/4=1/256。如果将20个不均匀地分布在0到10之间的随机变量相乘,那么多次相乘后所得到的乘积将会包括一些很接近于零的结果与一些相当大的结果,从而生成如下图所示的对数正态分布。
对数正态分布
一个对数正态分布的尾部长度取决于随机变量相乘的方差。如果它们的方差很小,尾巴就会很短,如果方差很大,尾巴就可能会很长。如前所述,将一组很大的数相乘会产生一个非常大的数字。在各种各样的情况下都会出现对数正态分布,包括新冠肺炎的传染人数、大多数国家的收入分布也近似于对数正态分布。
一个简单的模型可以解释为什么收入分布更接近于对数正态分布而不是正态分布。这个模型将与工资增长有关的政策与这些政策所隐含的分布联系起来。大多数企业和机构都按某种百分比来分配加薪,表现高于平均水平的人能够得到更高百分比的加薪,表现低于平均水平的人则只能得到更低百分比的加薪。与这种加薪方法相反,企业和机构也可以按绝对金额来分配加薪。例如普通员工可以获得1000美元的加薪,表现更好的人可以获得更多,而表现更差的人则只能获得更少。
百分比加薪方法与绝对金额加薪方法两者之间的区别乍一看似乎只是语义上的区别,但其实不然。如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分比加薪,就会产生一个对数正态分布。即使后来的表现相同,未来几年的收入差距也会加剧。
假设一名员工因过去几年表现良好,收入水平达到了80000美元,而另一名员工则只达到了60000美元。在这种情况下,当这两名员工的表现同样出色并都可以获得5%的加薪时,前者能够获得4000美元的加薪,后者却只能得到3000美元的加薪。这就是说,尽管绩效完全相同,不平等也会导致更大的不平等。如果企业按绝对数额分配加薪,那么两名绩效相同的员工将获得相同的加薪,由此产生的收入分布将接近正态分布。
总结
正态分布启示我们,要用整体的观点来看事物。用整体来看事物才能看清楚事物的本来面貌,才能得出事物的根本特性。不能只见树木不见森林,也不能以偏概全。同时正态分布曲线及面积分布图告诉我们一定要抓住重点,因为重点就是事物的主要矛盾,它对事物的发展起主要的、支配性的作用。正态分布是科学的世界观,也是科学的方法论,是我们认识和改造世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。
正态分布如此重要,不仅因为它在自然界普遍存在,还因为它是被证明的、其他复杂概率分布的演化结果,可以说是所有概率分布的最终宿命。根据“熵增”原理,一个孤立系统的熵总是在不断增大。而对一个已知均值和方差的分布,正态分布的熵值最大,即这个孤立系统中的所有结果持续演化,最终一定是呈正态分布的稳定状态。对于宇宙熵增的最终稳定态,是宇宙各部分能量达到平衡,失去活力,陷入热寂。
参考资料:
《模型思维》
作者:斯科特·佩奇
浙江人民出版社
《从掷骰子到阿尔法狗:趣谈概率》
作者:张天蓉
清华大学出版社
2、正态分布的概率,机器学习与概率分布
作者 | Farhad Malik译者 | Monanfei责编 | 夕颜出品 | AI科技大本营(ID: rgznai100)为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。
在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。
我将会从基础概念出发,解释有关正态分布的一切,并揭示它为何如此重要。
文章结构本文的主要内容如下:
简短的背景介绍
- 概率分布是什么
- 正态分布意味着什么
- 正态分布的变量有哪些
- 如何使用 Python 来检验数据的分布
- 如何使用 Python 参数化生产一个正态分布
- 正态分布的问题
- 首先,正态分布又名高斯分布
- 它以数学天才 Carl Friedrich Gauss 命名
正态分布又名高斯分布
- 越简单的模型越是常用,因为它们能够被很好的解释和理解。正态分布非常简单,这就是它是如此的常用的原因。
因此,理解正态分布非常有必要。什么是概率分布?首先介绍一下相关概念。
考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。
- 如果我们想精确预测一个变量的值,那么我们首先要做的就是理解该变量的潜在特性。
- 首先我们要知道该变量的可能取值,还要知道这些值是连续的还是离散的。简单来讲,如果我们要预测一个骰子的取值,那么第一步就是明白它的取值是1 到 6(离散)。
- 第二步就是确定每个可能取值(事件)发生的概率。如果某个取值永远都不会出现,那么该值的概率就是 0 。
事件的概率越大,该事件越容易出现。
- 在实际操作中,我们可以大量重复进行某个实验,并记录该实验对应的输出变量的结果。
- 我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。
- 我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。
- 一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。
- 如果将所有概率值求和,那么求和结果将会是100%
世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。
初遇正态分布我们可以画出正态分布的概率分布曲线,可以看到该曲线是一个钟型的曲线。如果变量的均值,模和中值相等,那么该变量就呈现正态分布。
如下图所示,为正态分布的概率分布曲线:
理解和估计变量的概率分布非常重要。下面列出的变量的分布都比较接近正态分布:
- 人群的身高
- 成年人的血压
- 传播中的粒子的位置
- 测量误差
- 回归中的残差
- 人群的鞋码
- 一天中雇员回家的总耗时
- 教育指标
此外,生活中有大量的变量都是具有 x % 置信度的正态变量,其中,x<100。
什么是正态分布?正态分布只依赖于数据集的两个特征:样本的均值和方差。
均值——样本所有取值的平均
方差——该指标衡量了样本总体偏离均值的程度
正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测。值得注意的是,大自然中发现的变量,大多近似服从正态分布。
正态分布很容易解释,这是因为:
- 正态分布的均值,模和中位数是相等的。
- 我们只需要用均值和标准差就能解释整个分布。
正态分布是我们熟悉的正常行为
为何如此多的变量都大致服从正态分布?这个现象可以由如下定理理解释:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。
由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的。
这就是中心极限定理。
本文的核心:我们从上文的分析得出,正态分布是许多随机分布的总和。 如果我们绘制正态分布密度函数,那么它的曲线将具有以下特征:
如上图所示,该钟形曲线有均值为 100,标准差为1:
- 均值是曲线的中心。 这是曲线的最高点,因为大多数点都是均值。
- 曲线两侧的点数相等。 曲线的中心具有最多的点数。
- 曲线下的总面积是变量所有取值的总概率。
- 因此总曲线面积为 100%
更进一步,如上图所示:
- 约 68.2% 的点在 -1 到 1 个标准偏差范围内。
- 约 95.5% 的点在 -2 到 2 个标准偏差范围内。
- 约 99.7% 的点在 -3 至 3 个标准偏差范围内。
这使我们可以轻松估计变量的变化性,并给出相应置信水平,它的可能取值是多少。例如,在上面的灰色钟形曲线中,变量值在 99-101 之间的可能性为 68.2%。
正态概率分布函数
正态概率分布函数的形式如下:
概率密度函数基本上可以看作是连续随机变量取值的概率。
正态分布是钟形曲线,其中mean = mode = median。
- 如果使用概率密度函数绘制变量的概率分布曲线,则给定范围的曲线下的面积,表示目标变量在该范围内取值的概率。
- 概率分布曲线基于概率分布函数,而概率分布函数本身是根据诸如平均值或标准差等多个参数计算的。
- 我们可以使用概率分布函数来查找随机变量取值范围内的值的相对概率。 例如,我们可以记录股票的每日收益,将它们分组到适当的集合类中,然后计算股票在未来获得20-40%收益的概率。
标准差越大,样品中的变化性越大。
如何使用 Python 探索变量的概率分布最简单的方法是加载 data frame 中的所有特征,然后运行以下脚本(使用pandas 库):
DataFrame.hist(bins=10)#Make a histogram of the DataFrame.
该函数向我们展示了所有变量的概率分布。
变量服从正态分布意味着什么?如果我们将大量具有不同分布的随机变量加起来,所得到的新变量将最终具有正态分布。这就是前文所述的中心极限定理。
服从正态分布的变量总是服从正态分布。 例如,假设 A 和 B 是两个具有正态分布的变量,那么:
• A x B 是正态分布
• A B 是正态分布
因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单。
样本不服从正态分布怎么办?我们可以将变量的分布转换为正态分布。
我们有多种方法将非正态分布转化为正态分布:
1.线性变换
一旦我们收集到变量的样本数据,我们就可以对样本进行线性变化,并计算Z得分:
- 计算平均值
- 计算标准偏差
- 对于每个 x,使用以下方法计算 Z:
2.使用 Boxcox 变换
我们可以使用 SciPy 包将数据转换为正态分布:
scipy.stats.boxcox(x, lmbda=None, alpha=None)3.使用 Yeo-Johnson 变换
另外,我们可以使用 yeo-johnson 变换。 Python 的 sci-kit learn 库提供了相应的功能:
sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True, copy=True)
正态分布的问题
由于正态分布简单且易于理解,因此它也在预测研究中被过度使用。 假设变量服从正态分布会有一些显而易见的缺陷。 例如,我们不能假设股票价格服从正态分布,因为价格不能为负。 因此,我们可以假设股票价格服从对数正态分布,以确保它永远不会低于零。
我们知道股票收益可能是负数,因此收益可以假设服从正态分布。
假设变量服从正态分布而不进行任何分析是愚蠢的。变量可以服从Poisson,Student-t 或 Binomial 分布,盲目地假设变量服从正态分布可能导致不准确的结果。
总结本文阐述了正态分布的概念和性质,以及它如此重要的原因。
希望能帮助到你。
原文链接:http://bit.ly/2NyetFz
本文关键词:正态分布的概率与两个参数有关系吗,正态分布的概率分布函数,正态分布的概率计算,正态分布的概率密度函数,正态分布的概率分布公式。这就是关于《正态分布的概率,机器学习与概率分布(正态分布一核心的概率分布)》的所有内容,希望对您能有所帮助!更多的知识请继续关注《犇涌向乾》百科知识网站:http://www.029ztxx.com!
版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。