搜索
查看: 441|回复: 0

如何用可视化表达分布式数据

[复制链接]

252

主题

2

回帖

2291

积分

金牌会员

积分
2291
发表于 2018-1-9 11:18:53 | 显示全部楼层 |阅读模式
本帖最后由 行云流水2016 于 2018-1-9 11:21 编辑




当你把数据转换成了规范的格式,也已经采用了适当的统计和分析,接下来就是展示结果的时候了,这时候数据可视化排上了用场。也许你自己可能没有察觉,但是当你将可视化分析报告给到客户或者是老板的时候,他们的感受是非常重要的。

在可视化分析中,经常会遇到多个数据分布之间的比较,分布不同,用到的表达方式也不一样。

在对不同的分布数据进行比较时,通常有两种形式,要么突出异常值的差异,要么突出它们各自差异的细微差别。比如,在统计过程中,不同标准的数据集会有怎样的差别,或者,如何通过分析来改善评分功能。

在比较异常值时,我通常倾向于箱形图,如图1。箱形图显示了数据的总体分布,同时绘制了异常值的数据点。这个物理点让它们的特定值在样本之间容易被识别和比较。

图1​

让我们忽略数据的实际意义,因为这不重要。你可以看到分布的扩散差不多是相等的,并且可以很容易地比较异常值。我们可以看到,红色的分布具有最极端的离群值,其次是绿色分布着红色的点。对于这个分析,红色分布是以前计算出来的,我能够通过观察极端异常值来重现他们的数据。红点却是一个新奇的发现。

箱形图百科
"盒式图" 或叫 "盒须图""箱线图",,其绘制须使用常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。


如上图所示,标示了图中每条线表示的含义,其中应用到了分位值(数)的概念。

主要包含五个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数,中位数,下四分位数,下边缘。

如果你是一个关注情节轴并理解一些统计数据的人,那么你可能已经意识到我对我的数据集应用了一个统计变换,以便放大分布的异常值的差异,如图2。我将我的数字分布转换为z分数。 z分数通过测量离开样本平均值的标准偏差数来转换数据点。

通常用的最多的表达分布的可视化图形是图2的直方图。但是,这种图形无法准确的传达数据信息。不同群体之间样本量的差异使得这种方法无法比拟。就是如此的极端,图中看不到蓝色的分布。这种可视化也无法比较,也看不到异常值。我从这个视觉中唯一可以得出的结论是,红色和绿色的分布大致相同。

图2​

虽然我认为在这种情况下箱形图是最好的选择,但它们看起来非常正式,人们往往不知道如何恰当地解释它们(四分位间距,分布,什么意思?)。此外,箱形图不能洞察用于创建它们的样本大小。条形图可以更直观,因为他们可以看到所有的数据点,如图3。

图3​

让我们看看第二个案例,比较分布的点差。如果被比较的分布具有相同的样本大小,并且最多进行3次比较,那么直方图是一个很好的选择。否则,最终会出现一个非常密集的图形,很难看到数据,如图4。

图4​

对于这些情况,我倾向于没有填充的核密度估计图。它不是很漂亮,但你可以进行分布之间的比较。为了在最近的一个项目中克服这个问题,我决定在直方图上实现一个自旋,并使用一个名为步阶图的变体。如果你的地块变得笨拙,我建议你改变数据的表达方式,如图5。

图5​

但如果你想要一切呢?!在这种情况下, 我喜欢用琴形图。而且这些情节越来越受欢迎, 有很多变化, 使他们更强大。它们本质上是箱形图, 在它们周围有一个旋转的核密度估计图。我绘制了旋转核密度估计图中的箱形图。


琴形图百科
琴形图结合了箱线图与核密度估计图的特点,它表现了在一个或多个分类变量情况下,连续变量数据的分布并进行了比较,它是一种观察多个数据分布的有效方法。

​

欢迎关注“壹看板”,浏览更多行业资讯!


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-5-17 11:01 , Processed in 0.060692 second(s), 26 queries .

快速回复 返回顶部 返回列表