如何看箱线图,箱线图怎么读(<4>箱线图和小提琴图)
关于【如何看箱线图?】,箱线图怎么读,今天涌涌小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
1、R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)
本文希望教会大家运用R语言绘制箱线图和小提琴图。小提琴图能同时查看数据的分布和描述性统计,是一种非常实用的可视化图形。
"title":"箱线图/盒须图","content"绘制连续型变量常用的五个描述性统计量,从下到上依次是:最小值,下四分位数(25%分位数),中位数(50%分位数),上四分位数(75%分位数),最大值。
箱线图能够显示出可能的离群点,即上下四分位数以外的点
箱线图由boxplot(formula, data=dataframe)命令得到
formula表示一个公式,y~A,将为类别变量A的每个值并列地生成数值型变量y的箱线图
y~A*B,将为类别变量A和B所有水平的组合生成数值型变量y的箱线图
dataframe代表提供的数据
","content"
利用自带的数据集mtcars,查看数据的头几行
head(mtcars)
数据集mtcars
"title":"简单箱线图","content"对mtcars的每加仑汽油行驶英里数mpg绘制箱线图
boxplot(mtcars$mpg)
简单箱线图
"title":"并列箱线图","content"对发动机的不同缸数cyl绘制并列箱线图
boxplot(mpg~cyl,data=mtcars,main="并列箱线图",xlab="发动机的缸数",ylab="每加仑汽油行驶英里数")
并列箱线图
从图中可以看出,不同组之间的油耗差距是非常大的。6缸车型的每加仑汽油行驶的英里数分布较其他两种车型均匀,与6缸和8缸车型相比,4缸车型的每加仑汽油行驶的英里数分布最分散且呈正偏,在8缸车型的分组还存在一个离群点。
"title":"凹槽箱线图","content"notch=TRUE,得到带有凹槽的箱线图,在中位数处产生凹槽
varwidth=TRUE,使箱线图的宽度与它们对应的样本数量成正比,越宽代表样本数量越多
boxplot(mpg~cyl,data=mtcars,notch=TRUE,varwidth=TRUE,col="red",main="凹槽箱线图",xlab="发动机的缸数",ylab="每加仑汽油行驶英里数")
凹槽箱线图
"title":"交叉因子箱线图","content"创建变速箱am和气缸数量cyl的交叉因子的箱线图
boxplot(mpg~am*cyl,data=mtcars,varwidth=TRUE,col=c("gold","darkgreen"),main="交叉因子箱线图",xlab="汽车类型",ylab="每加仑汽油行驶英里数")
交叉因子箱线图
0.4表示变速箱类型是0,发动机缸数是4时,每加仑汽油行驶英里数的分布
1.4表示变速箱类型是1,发动机缸数是4时,每加仑汽油行驶英里数的分布
其他类似
结果表明,油耗随着缸数的减少而下降,对于4缸和6缸车型,标准变速箱(类型是1)的油耗更低,但是对于8缸车型,两种变速箱的油耗似乎没有太大差别;从箱线图的宽度中也可以看出,样本中变速箱类型是0的8缸发动机汽车数量较多。
"title":"小提琴图","content"小提琴图是箱线图和核密度图的结合,在纵轴展示了数据分布的核密度估计曲线
使用vioplot包中的 vioplot( )函数绘制
vioplot(x1,x2,names=,col= )
其中x1,x2是要绘制的一个或者多个数值向量
names=" " 是标签的名称
col=" "用于指定小提琴图的颜色
library(vioplot)#加载需要的包x1=mtcars$mpg[mtcars$cyl==4]x2=mtcars$mpg[mtcars$cyl==6]x3=mtcars$mpg[mtcars$cyl==8]vioplot(x1,x2,x3,names=c("4缸","6缸","8缸"),col="gold")title("每加仑汽油行驶英里数的小提琴图")
小提琴图
在小提琴图中,白点是中位数,黑色盒子的范围是上下四分位点,细黑线表示的须的范围是最大和最小值
外部形状即为分布的核密度估计
2、如何看箱线图??
箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。
箱盒图共有两个用途,分别如下:直观地识别数据中异常值(离群点);直观地判断数据离散分布情况,了解数据分布状态。
箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。中横线:中位数IQR:75%分位数(Q3)-25%分位数(Q1)最小观察值(下边缘) = Q1 – 1.5 IQR最大观察值 (上边缘)= Q3 + 1.5 IQR箱盒图的使用场景情况如下:查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);非参数检验时查看不同类别X时,Y的数据分布情况;其它涉及查看数据分布或者异常值查看时。SPSSAU操作截图如下:上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。
得到结果比如C1的盒状图如下:上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。
除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。
3、箱线图(Box Plot)理论篇
记得之前应该整理过的,但是找不到了,就再来一次吧 箱形图又称为盒须图、箱线图 箱形图针对的是单一变量,可以用来识别异常值 要理解和使用箱形图,需要搞清楚几个概念: 有两个点注意下: 从小到大排列 分成四等份 对于这三个分割点: Q3与Q1的差距又称为四分位距(InterQuartile Range, IQR) 这个图呢,大概是说,为什么上边界和下边界之外的数据,也就是离群值(异常值)可以忽略掉的原因,貌似就是传说中的3σ原则 我看这里还会标注离群值和极端值,上、下边界外的值 使用Excel、Python或者其他工具画箱线图很容易,但是,通过这个图到底可以得到些什么启示呢? 感觉使用箱线图,是为了看数据的分布情况,看数据集中在哪里,分布有什么特征,数据是集中在较小值一侧还是较大值一侧,有没有异常值 这些资料都没啥特别的,刚才找到篇文章,狗熊会的,不错,对这个箱线图的使用场景算是来个对比,分享下 先附上原文地址: 丑图百讲 | 箱线图应该怎么用 箱线图是针对连续性变量使用的 我们也来看个实际例子,我就使用seaborn中的数据集好了 因为这里,并没有显示具体的各项指标数据,我们可以结合 describe 函数 也就是说,小费的中位数是2.9美元(不知道单位是啥,就当美元吧) Q1是2美元,Q3是3.5625美元,50%的数据都集中在这个区间内 异常值都集中在上限 中位数和平均值比较接近 其实用箱线图来展示这个小费的分布,并不是非常好,如果用直方图的话,更加的直观 看,数据的集中程度,更加的明显一些 不是所有的数据都适合话箱线图,如果你的箱线图画出来就是一条横线,或者很扁,那就赶紧换一种图吧 通常有2个原因导致这种情况: 原作者总结的很好,直接贴过来了,学习下 作者还说了,这里有一种解决办法,就是做 对数变换 但是,我目前还不是很理解,做了对数变换,数据不就变了吗,这个展示出来没有影响嘛?又为什么可以这样做呢? 等我研究明白了再说 箱线图到底怎么用 配合着定性变量画分组箱线图,作比较! 我理解的是,在不同维度下,对数据进行对比,可以使用箱线图 作者整理了几点箱线图的特点,这里分享下: 嗯,学习了,还是得专业的人来分享 这一篇理论篇先到这,我去整理下seaborn中绘制boxplot4、箱线图怎么画
工具/原料:戴尔xps15、Win10、OfficePPT2016方法:1、打开PPT2016办公软件。2、点击菜单栏中的插入。
3、点击图表。
4、点击箱形图,点击箱形图,点击确定。5、插入箱形图图表成功。6、点击加号,添加图标元素。7、点击毛刷,添加样式和颜色。
本文关键词:如何看箱线图,如何看箱线图的分布形状,箱线图可以看出什么,如何看箱线图存在极值,看箱线图怎么写分析。这就是关于《如何看箱线图,箱线图怎么读(<4>箱线图和小提琴图)》的所有内容,希望对您能有所帮助!更多的知识请继续关注《犇涌向乾》百科知识网站:http://www.029ztxx.com!
版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。