刘庆斌 發表於 2025-7-16 06:58:00

读用数据说服:如何设计、呈现和捍卫你的数据03选择数据图(下)

<p><img alt="读用数据说服:如何设计、呈现和捍卫你的数据03选择数据图(下)" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202507/3076680-20250711152228186-1119992214.png" class="lazyload"></p>
<h1 id="1分布关系">1.&nbsp;分布关系</h1>
<p>1.1.&nbsp;分布是将一个类别按照类别内项目的数值进行分解</p>
<p>1.2.&nbsp;分布关系常常与总分关系混淆</p>
<ul>
<li>
<p>1.2.1.&nbsp;分布是将一个类别细分成若干值域,划分标准是该类别测量的数值</p>
</li>
<li>
<p>1.2.2.&nbsp;总分关系是按照类别来划分数据,而非一个类别内的定量指标</p>
</li>
</ul>
<p>1.3.&nbsp;表示分布关系的词语</p>
<ul>
<li>
<p>1.3.1.&nbsp;频率</p>
</li>
<li>
<p>1.3.2.&nbsp;集中度</p>
</li>
<li>
<p>1.3.3.&nbsp;分布</p>
</li>
<li>
<p>1.3.4.&nbsp;值域</p>
</li>
<li>
<p>1.3.5.&nbsp;正态曲线、正态分布、钟形曲线</p>
</li>
</ul>
<p>1.4.&nbsp;场景示例</p>
<ul>
<li>
<p>1.4.1.&nbsp;订单金额分布</p>
</li>
<li>
<p>1.4.2.&nbsp;响应时间分析</p>
</li>
<li>
<p>1.4.3.&nbsp;耗电量范围</p>
</li>
</ul>
<p>1.5.&nbsp;分布关系的常用数据图</p>
<ul>
<li>
<p>1.5.1.&nbsp;直方图</p>
<ul>
<li>
<p>1.5.1.1.&nbsp;最常见的分布数据图是直方图</p>
</li>
<li>
<p>1.5.1.2.&nbsp;直方图将数据分成多个不同的值域,称为“区间”(bin)</p>
</li>
<li>
<p>1.5.1.3.&nbsp;按照惯例,直方图的柱子之间是没有间隔的</p>
</li>
<li>
<p>1.5.1.4.&nbsp;除非受众用过统计分析软件,否则未必能通过这个惯例认出直方图</p>
</li>
<li>
<p>1.5.1.5.&nbsp;要认真做好标签,准备好向受众解释这种数据图</p>
</li>
<li>
<p>1.5.1.6.&nbsp;直方图的适用场景</p>
<blockquote>
<p>1.5.1.6.1.&nbsp;表示单个变量的分布</p>
</blockquote>
<blockquote>
<p>1.5.1.6.2.&nbsp;受众熟悉直方图</p>
</blockquote>
</li>
</ul>
</li>
<li>
<p>1.5.2.&nbsp;频率多边形</p>
<ul>
<li>
<p>1.5.2.1.&nbsp;它不表示数值随时间的变化,而是表示分布情况</p>
</li>
<li>
<p>1.5.2.2.&nbsp;与所有折线图一样,如果类别数目过多,或者频繁交叉的话,频率多边形就不容易看清了—所以要限制类别的数目</p>
</li>
<li>
<p>1.5.2.3.&nbsp;频率多边形的适用场景</p>
<blockquote>
<p>1.5.2.3.1.&nbsp;比较多个变量的分布</p>
</blockquote>
<blockquote>
<p>1.5.2.3.2.&nbsp;变量的量纲具有可比性,或者可以转化为百分比</p>
</blockquote>
<blockquote>
<p>1.5.2.3.3.&nbsp;标签和语境因素能降低频率多边形被误认为时间序列的可能性</p>
</blockquote>
</li>
</ul>
</li>
<li>
<p>1.5.3.&nbsp;箱形图</p>
<ul>
<li>
<p>1.5.3.1.&nbsp;箱形图发明于20世纪60年代末,是一种比较新的数据可视化工具</p>
</li>
<li>
<p>1.5.3.2.&nbsp;商业领域的受众往往需要沟通者做大量讲解,因为箱形图种类很多,而且需要受众对抽象统计概念有直观认识</p>
</li>
<li>
<p>1.5.3.3.&nbsp;箱形图可以对有学术研究背景的受众使用—箱形图在学术界常用得多</p>
</li>
<li>
<p>1.5.3.4.&nbsp;箱形图最适合需要比较多个分布的场合</p>
<blockquote>
<p>1.5.3.4.1.&nbsp;在这种情况下,频率多边形会把人看糊涂,而平均数等概括统计量又不足以描述数据</p>
</blockquote>
</li>
<li>
<p>1.5.3.5.&nbsp;使用箱形图应该注意的一点是,底层数据必须具有统计学上的单峰性</p>
<blockquote>
<p>1.5.3.5.1.&nbsp;单峰分布体现在直方图上,就是只有一个最高点</p>
</blockquote>
<blockquote>
<p>1.5.3.5.2.&nbsp;有一个值或值域明显占据制高点</p>
</blockquote>
<blockquote>
<p>1.5.3.5.3.&nbsp;箱形图不适合表现双峰分布,因为箱子不能体现出两个高点</p>
</blockquote>
</li>
<li>
<p>1.5.3.6.&nbsp;箱形图的适用场景</p>
<blockquote>
<p>1.5.3.6.1.&nbsp;比较多个类别的分布</p>
</blockquote>
<blockquote>
<p>1.5.3.6.2.&nbsp;&nbsp;数据满足单峰性</p>
</blockquote>
<blockquote>
<p>1.5.3.6.3.&nbsp;每个分布只需要少数区间即可描述</p>
</blockquote>
<blockquote>
<p>1.5.3.6.4.&nbsp;类别的相对大小不是统计图要表达的重点</p>
</blockquote>
<blockquote>
<p>1.5.3.6.5.&nbsp;时间充裕,可以向不熟悉箱形图的受众进行讲解</p>
</blockquote>
<blockquote>
<p>1.5.3.6.6.&nbsp;受众熟悉四分位等抽象统计概念</p>
</blockquote>
</li>
</ul>
</li>
</ul>
<p>1.6.&nbsp;呈现分布关系的最佳实践</p>
<ul>
<li>
<p>1.6.1.&nbsp;用心选择区间</p>
<ul>
<li>1.6.1.1.&nbsp;在直方图中,等距区间对受众来说是最直观的</li>
</ul>
</li>
</ul>
<h1 id="2相关关系">2.&nbsp;相关关系</h1>
<p>2.1.&nbsp;相关关系指的是两个定量变量之间的关系,最常用散点图表示</p>
<p>2.2.&nbsp;表示相关关系的词语</p>
<ul>
<li>
<p>2.2.1.&nbsp;随着……增加</p>
</li>
<li>
<p>2.2.2.&nbsp;随着……减少</p>
</li>
<li>
<p>2.2.3.&nbsp;随着……变化</p>
</li>
<li>
<p>2.2.4.&nbsp;随着……变动</p>
</li>
<li>
<p>2.2.5.&nbsp;与……相关</p>
</li>
<li>
<p>2.2.6.&nbsp;……跟随……</p>
</li>
</ul>
<p>2.3.&nbsp;场景示例</p>
<ul>
<li>
<p>2.3.1.&nbsp;订单均价对下单频率的影响</p>
</li>
<li>
<p>2.3.2.&nbsp;不同地区的盈利能力与增长率</p>
</li>
<li>
<p>2.3.3.&nbsp;销售人员供职时长与销量</p>
</li>
<li>
<p>2.3.4.&nbsp;通话时长与服务质量评分</p>
</li>
<li>
<p>2.3.5.&nbsp;由降雪预测带动的铁锹销量</p>
</li>
</ul>
<p>2.4.&nbsp;表示因果关系的词语要慎用</p>
<ul>
<li>
<p>2.4.1.&nbsp;商业分析的一个常见目标,就是进一步理解因果关系,希望借此做出能达到预期效果的选择</p>
</li>
<li>
<p>2.4.2.&nbsp;相关关系是理解因果关系的一个关键工具,因为它反映了一个指标的变化与另一个指标的关联</p>
</li>
<li>
<p>2.4.3.&nbsp;相关性不等于因果性,而因果性才是大多数管理者追求的东西</p>
</li>
<li>
<p>2.4.4.&nbsp;要留意以下表述</p>
<ul>
<li>
<p>2.4.4.1.&nbsp;由……导致</p>
</li>
<li>
<p>2.4.4.2.&nbsp;由……造成</p>
</li>
<li>
<p>2.4.4.3.&nbsp;在……的驱动下</p>
</li>
<li>
<p>2.4.4.4.&nbsp;对……的影响</p>
</li>
</ul>
</li>
</ul>
<p>2.5.&nbsp;相关关系的常用数据图</p>
<ul>
<li>
<p>2.5.1.&nbsp;散点图</p>
<ul>
<li>
<p>2.5.1.1.&nbsp;散点图是最常用来表示相关关系的数据图,体现了两个定量变量之间的关系</p>
</li>
<li>
<p>2.5.1.2.&nbsp;好处是,受众可以看到各个数据点,而不是平均数等概括统计量</p>
</li>
<li>
<p>2.5.1.3.&nbsp;在标签注释得当的情况下,散点图会成为一种解释数据的强大工具</p>
</li>
<li>
<p>2.5.1.4.&nbsp;散点图的适用场景</p>
<blockquote>
<p>2.5.1.4.1.&nbsp;呈现每一个数据点是有价值的</p>
</blockquote>
<blockquote>
<p>2.5.1.4.2.&nbsp;平均值等概括统计量可能会模糊关键信息</p>
</blockquote>
<blockquote>
<p>2.5.1.4.3.&nbsp;两个变量之间存在有意义的关系</p>
</blockquote>
<blockquote>
<p>2.5.1.4.4.&nbsp;离群值要么是有意义的,要么数量很少</p>
</blockquote>
<blockquote>
<p>2.5.1.4.5.&nbsp;你有时间进行规范标注和注释</p>
</blockquote>
</li>
</ul>
</li>
<li>
<p>2.5.2.&nbsp;气泡图</p>
<ul>
<li>
<p>2.5.2.1.&nbsp;散点图体现两个定量变量之间的关联,气泡图则可以通过数据点的大小来编码第三个定量变量</p>
</li>
<li>
<p>2.5.2.2.&nbsp;气泡图能体现的点比散点图少得多,但适用于重点强调点的聚集关系,而非变量相关关系的情况</p>
</li>
<li>
<p>2.5.2.3.&nbsp;除非气泡面积编码的信息对数据图支持的决策至关重要,否则就要选择散点图</p>
</li>
<li>
<p>2.5.2.4.&nbsp;气泡图的适用场景</p>
<blockquote>
<p>2.5.2.4.1.&nbsp;数据点的数量有限</p>
</blockquote>
<blockquote>
<p>2.5.2.4.2.&nbsp;气泡大小有显著差别,且易于区分</p>
</blockquote>
<blockquote>
<p>2.5.2.4.3.&nbsp;气泡大小所编码的信息对数据图支持的决策至关重要</p>
</blockquote>
<blockquote>
<p>2.5.2.4.4.&nbsp;时间充裕,足够添加适当的标签和注释</p>
</blockquote>
<blockquote>
<p>2.5.2.4.5.&nbsp;受众熟悉气泡图,或者你有时间进行讲解</p>
</blockquote>
</li>
</ul>
</li>
<li>
<p>2.5.3.&nbsp;矩阵图不强调市场份额与市场增长的关系,而是为了帮助受众建立各分部的心理分类模型,以便更好地分配资源</p>
</li>
<li>
<p>2.5.4.&nbsp;表格透镜</p>
<ul>
<li>
<p>2.5.4.1.&nbsp;散点图的一个替代品是表格透镜(table lens)</p>
</li>
<li>
<p>2.5.4.2.&nbsp;表格透镜通过配对的柱形图来表现相关关系</p>
</li>
<li>
<p>2.5.4.3.&nbsp;用两幅柱形图来呈现相关关系—所有受众大概都熟悉柱形图</p>
</li>
<li>
<p>2.5.4.4.&nbsp;表格透镜也适用于散点图识读困难的环境</p>
</li>
<li>
<p>2.5.4.5.&nbsp;表格透镜的主要缺点是,它只能表达非常粗略的相关关系</p>
<blockquote>
<p>2.5.4.5.1.&nbsp;点与点之间的关系丢失了</p>
</blockquote>
</li>
<li>
<p>2.5.4.6.&nbsp;表格透镜不能有效体现点的聚集,而且能够支持的数据点远远少于散点图,稍微多一点儿就难以识读了</p>
</li>
<li>
<p>2.5.4.7.&nbsp;表格透镜的适用场景</p>
<blockquote>
<p>2.5.4.7.1.&nbsp;数据点数量有限</p>
</blockquote>
<blockquote>
<p>2.5.4.7.2.&nbsp;平均值等概括统计量可能会模糊关键信息</p>
</blockquote>
<blockquote>
<p>2.5.4.7.3.&nbsp;受众不熟悉散点图</p>
</blockquote>
<blockquote>
<p>2.5.4.7.4.&nbsp;变量间有清晰的相关关系</p>
</blockquote>
</li>
</ul>
</li>
</ul>
<p>2.6.&nbsp;呈现相关关系的最佳实践</p>
<ul>
<li>
<p>2.6.1.&nbsp;加入拟合线并说明离群值,以便受众聚焦</p>
<ul>
<li>
<p>2.6.1.1.&nbsp;散点图的一个长处,就是能承载的数据密度大</p>
</li>
<li>
<p>2.6.1.2.&nbsp;散点图将大量信息塞进了一个小空间内</p>
</li>
<li>
<p>2.6.1.3.&nbsp;如果观看者不确定往哪里看,认知负荷就会很大</p>
<blockquote>
<p>2.6.1.3.1.&nbsp;应该加入拟合线,将受众的注意力聚焦到核心关系上</p>
</blockquote>
</li>
<li>
<p>2.6.1.4.&nbsp;拟合线是一种非常有力的工具,使用的前提条件是,你有可靠证据表明x轴变量的变化会造成y轴变量的变化</p>
</li>
<li>
<p>2.6.1.5.&nbsp;人类既容易发现模式,也能迅速注意到离群值</p>
</li>
</ul>
</li>
<li>
<p>2.6.2.&nbsp;强调相关性,淡化不相关</p>
<ul>
<li>
<p>2.6.2.1.&nbsp;解释性报告要聚焦于哪些变量是相关的,而非哪些变量互不相关</p>
</li>
<li>
<p>2.6.2.2.&nbsp;人类有寻找模式的倾向,因此,哪怕两个变量没有统计意义上的相关性,受众也可能会从中看出相关性</p>
</li>
<li>
<p>2.6.2.3.&nbsp;一般来说,除非不相关是沟通的要点,否则不要呈现出来</p>
</li>
<li>
<p>2.6.2.4.&nbsp;如果变量之间不相关,那就不要展示拟合线或其他表示相关性的符号</p>
</li>
</ul>
</li>
</ul>
<h1 id="3运用分类体系扩展数据图类型库">3.&nbsp;运用分类体系扩展数据图类型库</h1>
<p>3.1.&nbsp;要尽量使用常见的数据图类型,以便减轻受众的认知负荷</p>
<p>3.2.&nbsp;要让受众聚焦于数据,而非数据图本身</p><br><br>
来源:https://www.cnblogs.com/lying7/p/18978860
頁: [1]
查看完整版本: 读用数据说服:如何设计、呈现和捍卫你的数据03选择数据图(下)