8.商品属性分布的可视化探索

基于淘宝搜索结果研究商品属性与价格销量分布的关系

💻交互式文档 💬向助教提问 🧺采集数据 1、基于淘宝搜索结果研究商品属性与价格销量分布的关系 在充满竞争的电商世界里,了解市场趋势、消费者需求和商品特性是商家制胜的关键。淘宝作为全球领先的电商平台之一,其复杂的商品属性、价格波动和销量数据为我们提供了丰富的分析素材。通过数据可视化,我们可以深入挖掘这些数据,发现其中潜藏的商业机会和市场趋势。本文将深入探讨如何通过散点图分析淘宝...…
8.商品属性分布的可视化探索
分享此内容

💻交互式文档 💬向助教提问 🧺采集数据

1、基于淘宝搜索结果研究商品属性与价格销量分布的关系

在充满竞争的电商世界里,了解市场趋势、消费者需求和商品特性是商家制胜的关键。淘宝作为全球领先的电商平台之一,其复杂的商品属性、价格波动和销量数据为我们提供了丰富的分析素材。通过数据可视化,我们可以深入挖掘这些数据,发现其中潜藏的商业机会和市场趋势。本文将深入探讨如何通过散点图分析淘宝搜索结果中的价格、月销量和商品属性,尤其是如何展示商品的各种属性分布情况。

本文提供了一个配套的交互式文档,供读者基于自己的数据(用电商记插件的新版淘宝搜索流程)进行学习研究,其中包含五个代码单元格,用户在运行交互式文档时,可在单元格内按下键盘Ctrl+Enter快速执行以下步骤:

1、上传淘宝搜索结果Excel数据;

2、数据清洗与预处理;

3、选择商品属性和代表色;

4、分配各项属性颜色;

5、绘制属性分布散点图

在第2章的“牛仔裤”案例研究中,我们调用AI助手自动挑选了10个商品属性,并为综合排序和销量排序分别绘制属性分布散点图,共20幅图片,本文从中挑选“裤脚口款式”撰写了市场研究报告。

1.1 淘宝数据的力量与挑战

淘宝每天处理着成千上万的商品信息,给消费者提供了一个丰富的选择池。对于商业分析师而言,能够提取有价值的信息,洞察消费者的购买习惯以及商品表现,是一项至关重要的能力。在这片数据的海洋中,如何从中找出关键信息、捕捉隐藏的规律,往往决定了一个商家的成功与否。

淘宝商品的特点之一是其多样的属性。例如,牛仔裤这一类商品就包含了丰富的属性,如裤脚口款式、面料、颜色、尺码等。不同的属性在不同的价格区间和销量区间可能展现出截然不同的表现。如何系统地分析这些属性对销量的影响,正是我们需要解决的核心问题。

然而,要想获得全面的数据洞察并非易事。电商数据的挑战不仅仅是量大,更在于其复杂性。我们面对的不仅是价格、销量等明显的数字,还有无数细节,如消费者对不同裤脚款式的偏好,或者某一价格区间内销量的波动。传统的数据分析方法可能无法充分展示这些复杂的关系,因此,数据可视化成为了不可或缺的工具。

Untitled-2025-02-21-1

1.2 散点图:揭示数据背后的模式

散点图是一种简单但功能强大的数据可视化工具,能够直观地展示两个变量之间的关系。在本研究中,我们将使用散点图的形式来展示淘宝牛仔裤搜索结果中,价格(x轴)和月销量(y轴)之间的关系。同时,商品的属性(如裤脚口款式)将通过散点的颜色来表达,使得不同属性之间的差异得以一目了然。

价格与销量:解读消费趋势

在淘宝牛仔裤的市场中,价格与销量通常呈现出一定的关联性。高价商品往往销量较低,而价格适中的商品则可能会受到更广泛消费者群体的青睐。通过散点图,我们可以清楚地看到这一点,尤其是在月销量较低时,价格的变动对销量的影响尤为明显。

然而,仅仅依靠价格和销量这两个因素,我们可能无法获取完整的市场图景。很多时候,商品的属性也会对销量产生重要影响。因此,结合商品属性来分析价格和销量之间的关系,是我们进一步深入研究的关键。

plot%20%2822%29

商品属性:颜色与款式的差异化影响

牛仔裤的款式和设计是其重要的销售驱动力。裤脚口款式(如直筒、直脚、小直脚、喇叭、束脚、铅笔裤、小脚等)在不同消费者群体中有着不同的偏好。在我们的散点图中,采用颜色来代表不同的裤脚款式,能够帮助我们清晰地看到哪种款式的牛仔裤在不同价格区间中更为畅销。

在这一过程中,我们特别注意到,直筒款式往往是最常见的,它在市场中的占比最大。因此,我们将选择珊瑚红作为代表色,以突出这一款式在整体市场中的主导地位。其它款式则会均匀分配色调,从而确保每种属性都能在图中清晰区分开来。

随机偏移:避免数据重叠

在电商平台中,月销量往往是整数值(如100、200、300等)。由于价格和销量之间可能存在重复或密集的数据点,若直接绘制散点图可能导致数据点重叠,难以准确展示每个点的细节。为了解决这一问题,我们引入了一个小小的巧妙调整——对y轴坐标进行50范围内的随机偏移。这一偏移不仅能够有效分开重叠的散点,还能够更加清晰地展示每个数据点的独特性。

月销量筛选范围

为了避免数据过于分散,影响图表的可读性,我们限定月销量的筛选范围为5000以内。这一选择不仅能确保图表的简洁性,还能集中分析销量较为集中的商品,从而更加精准地揭示市场的趋势。

1.3 数据分析与商业决策的结合

通过上述的散点图分析,我们不仅能够直观地看到价格、月销量与商品属性之间的关系,还能从中提取出宝贵的商业洞察。例如,若某一裤脚款式的商品在特定价格区间内销量突出,这可能意味着该款式在该价格段有着强大的市场需求。商家可以据此调整定价策略,或者进一步开发相关产品,以抓住市场机遇。

此外,消费者偏好和市场趋势是动态变化的。定期进行此类数据可视化分析,能够帮助商家实时了解市场变动,并及时调整战略,确保在竞争激烈的电商环境中立于不败之地。

1.4 结语:从数据到决策的桥梁

随着电商平台不断发展,数据的复杂性与丰富性也在不断增加。对于商家和分析师来说,如何从这些数据中提取出有价值的信息,并通过有效的可视化手段将其呈现,已经成为一项必备技能。本章通过对淘宝牛仔裤搜索结果的散点图分析,展示了如何利用价格、月销量和商品属性的关系,为商业决策提供支持。希望读者能够通过这一分析方法,获得更深刻的市场洞察,并在未来的电商之旅中不断优化自身的战略布局。

2、牛仔裤的裤脚口款式分布研究

根据我们在交互式文档中生成的两张淘宝牛仔裤的“裤脚口款式”散点图(“综合排序”和“销量排序”),我们可以从中提取出关于价格、月销量以及裤脚口款式之间的关系。以下是详细的分析报告:

2.1 数据概述

  • x轴(价格):反映每条牛仔裤的价格。
  • y轴(月销量):反映每条牛仔裤每月的销售量。
  • 散点颜色(裤脚口款式):代表不同的裤脚口款式,包括“直筒”、“直脚”、“小直脚”、“喇叭”、“束脚”、“铅笔裤”和“小脚”。

2.2 综合排序分析

综合排序图表展示的是基于淘宝搜索的综合排名数据。综合排序可能会考虑到产品的多维度评价,比如销量、评价、点击率、价格等多项因素。

plot%20%2820%29

价格与月销量的关系

从综合排序图表中可以看出,价格较高的牛仔裤(月销量较低)往往集中在图表的上方区域,即价格高而销量较低的产品比较明显。这表明高价格的牛仔裤可能是定位高端市场,虽然销量不如低价产品,但由于它们的价格高,可能仍然能够保持较为稳定的市场份额。

相对而言,价格较低的产品(位于图表左下角,月销量较高)则集中在价格较低的区域,并且这些产品的月销量也相对较高。这意味着价格低廉的牛仔裤可能在淘宝市场中更具吸引力,能吸引更多的消费者购买,尤其是在目标群体为价格敏感的消费者时。

裤脚口款式的分布

  • 直筒裤(红色)直脚裤(黄色)小直脚裤(绿色) 在价格和销量上的分布相对均匀,覆盖了大部分区域。
  • 喇叭裤(蓝色)铅笔裤(紫色) 的月销量相对较低,且主要集中在价格较高的区间。这表明,虽然这些款式在淘宝市场中有一定的需求,但它们的受众群体可能较为有限,导致销量相对较低。
  • 束脚裤(青绿色)小脚裤(深蓝色) 的月销量集中在价格较低的区域,且这些款式的分布较为广泛,说明它们在淘宝市场中的流行度较高。

总结

在综合排序下,价格较低的牛仔裤通常拥有较高的销量,且束脚裤和小脚裤等款式在销量上的表现较为突出。这可能反映了当前消费者对这些款式的青睐,尤其是在经济实惠的价格范围内。

2.3 销量排序分析

销量排序图表展示的是基于月销量的排序数据。与综合排序相比,这个排序更直接地反映了消费者的购买偏好。

plot%20%2821%29

价格与月销量的关系

在销量排序图中,价格较低的牛仔裤同样出现在图表的左下角,且月销量非常高。这进一步验证了低价牛仔裤更具市场竞争力,能够快速吸引大量消费者进行购买。而在价格较高的区域,销量相对较低的牛仔裤集中在右上方。

这一趋势表明,淘宝上的消费者对于价格敏感,尤其是对于牛仔裤这种日常消费品,消费者更倾向于选择价格适中的产品。

裤脚口款式的分布

  • 直筒裤(红色) 在销量较高的区间出现得比较频繁,说明这一款式的牛仔裤在淘宝上具有较高的市场需求。
  • 小直脚裤(绿色) 在销量较高区域的分布也很广泛,反映出这类裤型在当前市场中的流行趋势。
  • 束脚裤(青绿色)小脚裤(深蓝色) 也有较高的销量,且多集中在价格较低的区域,这表明消费者偏好选择这种款式,尤其是在价格适中的范围内。
  • 喇叭裤(蓝色)铅笔裤(紫色) 虽然在市场上有一定需求,但其销量相对较低,且主要集中在价格较高的区间,说明这些款式的消费者群体较为小众。

总结

销量排序显示,低价产品在淘宝平台上的销量更高,尤其是束脚裤、小脚裤等款式。直筒裤和小直脚裤也表现较好,说明这些款式在市场中更受欢迎。而高价的喇叭裤和铅笔裤虽然有一定的消费者需求,但由于其价格较高,销量并不突出。

综合分析与建议

从两张散点图的对比可以得出以下结论:

  • 低价牛仔裤占据主流市场,尤其是在销量上,价格低的牛仔裤能够快速吸引大量消费者,表现出较高的销量。
  • 款式的受欢迎程度:束脚裤、小脚裤等款式的月销量较高,这些款式应是当前市场中的主流。
  • 对于高端市场的产品,高价牛仔裤的销量较低,但它们可能有一定的固定客户群体,这类产品可以通过提升品牌价值和增加产品差异化来吸引消费者。

优化建议

  • 低价市场的机会:如果目标是提升销量,可以考虑增加低价区间的牛仔裤产品,尤其是束脚裤和小脚裤这类受欢迎款式。
  • 高端市场的策略:对于高价牛仔裤,品牌的差异化和高品质的材料可以成为吸引消费者的重要卖点。可以通过营销活动提升高价产品的知名度,增加其市场渗透率。

总之,淘宝牛仔裤市场中低价且流行的款式具有较大的市场潜力,而高价产品则需要通过差异化和品牌建设来吸引更多消费者。

3、商品属性的可视化方法

3.1 前注意特征

有效的数据可视化能够让用户轻松、清晰地进行解读。精心设计的数据可视化可以减少认知负担,即准确有效地处理数据可视化所传达信息所需的努力。认知负担减少的数据可视化更容易被观众理解。

前注意特征(Preattentive Attributes)是可以在数据可视化中使用的特征,用于减少用户解读可视化时所需的认知负担。前注意特征包括颜色、大小、形状、长度等特征。我们可以通过一个简单的例子来说明前注意特征在数据可视化中的强大作用。

根据给定的商品属性,我们挑选出一些最合适的属性作为 前注意特征的应用,这些属性能够有效地通过颜色、大小和长度来帮助用户快速区分和识别商品。以“牛仔裤”商品为例,我们可以基于频次最高的属性设置散点图的颜色,参见交互式文档的第三单元格。

selected_attributes = {
    "适用对象": "青年:Hermosa Pink",
    "基础风格": "青春流行:Corinthian Pink",
    "裤长": "长裤:Cameo Pink",
    "厚薄": "加绒加厚:Fawn",
    "腰型": "中腰:Light Brown Drab",
    "适用季节": "四季通用:Coral Red",
    "裤脚口款式": "直筒:Fresh Color",
    "颜色": "深色:Grenadine Pink",
    "面料功能": "抗皱:Eosine Pink",
    "版型": "宽松型:Spinel Red"
}

用户可以在交互式文档中调用AI助手自动从数据统计结果中挑选具有代表性的属性并自动生成代码,也可以手工修改相应的代码。

Untitled-2025-02-21-1

3.2 适用对象:不同性别和年龄段

  • 预注意属性:颜色
  • 应用说明:适用对象的属性包括如“青年”、“老年”、“男”、“女”等,这些属性能够通过颜色直观区分。例如:
    • 青年:红色
    • 男性:蓝色
    • 女性:粉色
    • 老年:灰色
    • 青少年:绿色
  • 效果:不同的颜色可以帮助用户一眼区分针对特定群体的牛仔裤产品,减少选择时的认知负担。

3.3 裤长:不同长度的裤子

  • 预注意属性:线段长度
  • 应用说明:裤长包含短裤、长裤、九分裤等,这些不同的裤子长度可以通过线段的长短来表示。例如:
    • 短裤:短线段
    • 长裤:长线段
    • 九分裤:中等长度的线段
  • 效果:使用线段长度来直观展示裤长属性,让消费者在浏览时可以快速识别裤子的长度类型,提升购物效率。

3.4 腰型:高腰与中腰的差异

  • 预注意属性:圆点大小
  • 应用说明:腰型属性(如高腰、中腰、低腰)可以通过圆点的大小来表示。例如:
    • 高腰:大圆点
    • 中腰:中圆点
    • 低腰:小圆点
  • 效果:通过圆点大小的差异,消费者可以直观地识别出裤子的腰型,帮助他们快速筛选符合个人需求的产品。

3.5 面料:不同面料类型

  • 预注意属性:颜色
  • 应用说明:面料类型(如牛仔布、斜纹布、莱赛尔纤维等)可以通过颜色的区分来表达。例如:
    • 牛仔布:蓝色
    • 斜纹布:绿色
    • 莱赛尔纤维:灰色
  • 效果:颜色的不同可以帮助用户一眼辨认出不同的面料类型,特别是在面料是选择标准之一时,用户可以迅速根据颜色区分。

3.6 款式:不同的裤型

  • 预注意属性:形状(圆点、线条、矩形等)
  • 应用说明:款式属性如“工装裤”、“铅笔裤”、“阔腿裤”等,可以通过不同的形状来表示。例如:
    • 工装裤:矩形或方形
    • 铅笔裤:细长圆形
    • 阔腿裤:宽大的矩形
  • 效果:通过形状的不同,用户能够快速识别裤型,帮助他们根据个人喜好筛选出特定款式的牛仔裤。

3.7 散点纹理

有些商品属性还可以用散点的纹理图案进行可视化表达,例如下面的表格展示了每种面料及其对应的质感或纹理。

面料 质感/纹理
50%棉+50%莫代尔 布料纹理
棉混纺布 布料纹理
75%棉+20%聚酯纤维+5%氨纶 布料纹理
斜纹布 布料纹理
羊羔绒 毛绒质感
莱赛尔纤维 平滑质感
灯芯绒 绒面质感
牛仔布 布料纹理
混纺 布料纹理
格仔牛仔布 格子图案
化纤混纺 平滑质感
天丝棉 丝滑感
聚酯复合弹性纤维 弹性面料
抓绒布 毛绒质感
冰氧吧 凉感面料
涂层牛仔布 涂层质感
梭织布 布料纹理
莱卡棉 柔软质感
环保有机棉 天然感
全棉 纯棉质感
薄牛仔布 布料纹理
常规牛仔布 布料纹理
棉弹牛仔布 弹性面料
人造革 合成革质感
莱赛尔 丝滑感
加厚牛仔布 加厚质感
加绒牛仔布 毛绒质感

总结

通过应用颜色、大小、长度和形状等前注意特征,我们能够有效地帮助消费者在电商平台上进行商品筛选和快速决策。这些属性不仅能减少认知负担,还能够提升用户体验,增强购物效率。例如,通过颜色区分性别或面料类型,使用线段长度来区分裤长,使用圆点大小来区分腰型等方式,都能让消费者在浏览时快速获取关键信息,做出更加智能的购买选择。

散点图指南

散点图的历史

这一切始于17世纪,当时勒内·笛卡尔创建了笛卡尔坐标系——一个带有X轴和Y轴的二维平面。似乎这就是绘制标准散点图所需的一切,但在当时它仅用于数学研究。直到19世纪初,威廉·普莱费尔开始使用条形图、折线图和饼图来可视化现实世界的数据。看起来从折线图到散点图只需迈出一小步。但普莱费尔对探索时间序列更感兴趣,而不是变量之间的关系,因此他改变所用图表的动力不大。

那么第一个散点图实际上是什么时候创建的呢?关于这一点没有共识。显然,我们今天所知道的散点图是经过多年逐渐发展而来的。因此,几乎不可能将全部功劳归于一个人。但事实上,在这方面有一些正在进行的讨论。Michael Friendly 和 Daniel Denis 建议 第一个散点图是由 John F. W. Herschel 在1833年创建的。他在一篇科学文章中使用了一个散点图来显示双星的位置角与测量年份之间的关系。

散点图的起飞发生在1870年,Francis Galton(相关概念的创造者)开始在他的遗传学研究中使用散点图。从那时起,散点图开始出现,并且现在被认为是科学论文中最常用的图表类型。但是你可能会想,散点图是如何工作的?

散点图是如何工作的?

散点图是一组点在坐标平面上绘制,表示两个数值变量:自变量和因变量。对于数据集的初步探索,散点图通常是首选,因为它可以更容易地找到变量之间的相关性并识别数据中的模式。当其中一个点不符合数据的整体模式时,它被称为离群值。

基本散点图示例 - 什么是散点图

基本散点图示例

为了从散点图中得出结论,首先你需要知道如何解释它们。

第一件事是观察相关性的形式:它是线性的、指数的还是(倒置的)U形的?线性相关意味着变化率是恒定的,即x轴上的值变化方式与y轴上的值相同。指数相关意味着y轴上的值相对于x轴上的值变化得更快。最后,(倒置的)U形相关意味着最低(最高)点在中间,而在x轴上的最低和最高值处达到峰值(最小值)。

不同类型的散点图形式

散点图的形式

接下来,你可以观察相关性是负向、正向还是没有方向。负向相关意味着一个变量的较高值与另一个变量的较低值相关。对于正向相关,情况正好相反。如果没有观察到方向,则一个变量的值保持相对不变,而另一个变量在变化。

散点图的方向

散点图的方向

最后,你可以看到相关性是强、中等还是弱。相关系数为0表示没有相关性,相关系数在0到0.3之间表示相关性较弱,在0.3到0.7之间表示相关性中等,在0.7到1之间表示相关性强。你可以在散点图中通过点遵循或偏离模式的方式来观察这一点。

散点图的强度

散点图的强度

除了发现数据中的整体模式外,散点图在检测数据中的聚类也非常有用。聚类是跟随特定模式的数据组,一个散点图中可能有多个聚类。

散点图中的聚类

散点图中的聚类

散点图的类型

我们在上一段已经展示了最基础形式的散点图。基本散点图使用两个数值变量在y轴和x轴上绘制。

下面的视觉图(右侧)展示了一个基本散点图的例子。在这个数据可视化中,散点图显示了2019年一些Runkeeper结果的距离和速度之间的相关性。作为练习,你可以观察相关性并思考你刚刚学到的内容;形式、方向和相关性的强度。你能在这个图中找到异常值吗?

该图表的设计者通过在四个点上添加轮廓描边来突出这些点。这为数据提供了上下文,使观众可以快速从中得出结论。

有时第三个变量会发挥作用以回答研究问题。也可以在散点图中添加第三个变量,它可以灵活绑定。将第三个变量绑定到点的大小的散点图类型称为气泡图

一个著名的气泡图例子来自Hans Rosling。他在一次TED演讲中展示了气泡图动画,现在这种可视化广为人知为Hans Rosling或Gapminder图表。

由Hans Rosling制作的Gapminder散点图_

著名Gapminder图表Hans Rosling制作_

在这个散点图中,收入和健康状况分别绘制在坐标轴上,国家的人口用点的大小表示。此外,颜色被绑定到点的颜色上;世界的区域。

这个Gapminder图表清楚地表明,散点图在变量绑定方面具有很大的灵活性;通过一些扩展,它可以同时表示多达七个变量。你可以使用X轴和Y轴、大小、颜色、描边颜色、图标和标签来表示变量。但要小心。过多绑定的变量很容易混淆读者。因此,最好将绑定的变量限制在最多四个,就像Gapminder图表一样。

大多数情况下,散点图是用两个数值变量创建的。然而,散点图也可以用一个或两个分类变量。这种类型的散点图称为分类散点图

在上面的视觉图中,x轴上绘制的是年份(分类变量),y轴上绘制的是支出金额(数值变量)。点代表21世纪的电影。

如你在上面的数据可视化中所见,同一年内的点在水平方向上分布。这本身没有意义,而是为了防止点重叠,使其更易见。这种方式分布点称为抖动,因此该图不仅是一个分类散点图,也是一个抖动图

还有另一种方法是在散点图中使用类别。可以在散点图中将其划分为四个相等的部分,或象限;因此得名象限图。象限图在需要对某些特定类型的分析进行分组时非常有用。

你可能偶尔会看到的一个象限图的例子是政治光谱,其中政治党派被定位在象限中。下图显示了荷兰的政治党派作为象限中的点。左下象限代表保守左翼,左上象限代表进步左翼,右下象限代表保守右翼,右上象限代表进步右翼。

象限图中的荷兰政治光谱

在象限图中的荷兰政治光谱

除了使用象限图进行分类数据,如政治光谱,它们也可以用于数值数据。这样,原点位于可视化图形的中间,代表零。y轴的值向上增加,向下减少,x轴的值向右增加,向左减少。原点或零通常位于可视化图形的中间。

汉娜·菲尔德的连接散点图示例。_

汉娜·菲尔德的连接散点图_

上面美丽的可视化图是由《纽约时报》的汉娜·菲尔德创建的。这张图展示了驾驶习惯与汽油价格之间的关系。每年人均驾驶里程数显示在x轴上,汽油价格显示在y轴上,点代表年份。

使这种类型的散点图如此引人入胜的原因是点通过一条线连接以显示数据的顺序。这使得可以显示一些特殊的时间点,例如能源危机时汽油价格大幅下降。为了使图表更容易解读,菲尔德还可以使用高亮显示哪些注释属于哪个点或时期。通过使用不同的颜色或描边来突出显示关注的点,可以让观众立即注意到图表中最重要的部分,而不必自己找出哪些注释属于哪些点或时期。这是菲尔德做得非常好的一点。她指出了所有数据不遵循标准模式的显著时刻,并使用注释为数据提供上下文,这是我们非常推崇的做法。

在散点图中使用颜色

说到使用颜色;在散点图中有许多使用颜色的方法。首先,分类颜色可用于数据中的组或聚类。在Gapminder图表中,地区绑定到点的颜色;所有不同的地区都用不同的颜色表示,这使得区分它们非常容易。同样,颜色也可以用于不同的聚类。在前面我展示的例子中,聚类通过围绕点的线条强调。不过,这些聚类也可以通过使用不同颜色的点来显示。除了分类颜色,还可以在散点图中使用数值颜色。我们并不特别建议这样做,但如果你不介意挑战读者的图表阅读技能,你可以试试!

此外,颜色可以用来突出重要信息,如2019年的Runkeeper结果图表所示。通过颜色填充或描边突出显示点。这些颜色高亮可以与其他类型的高亮结合使用,如大小、图标或标签。在2019年Runkeeper结果的数据可视化中,三种类型的高亮被使用:大小、描边和四个点的标签。这立即使注意力集中在这些点上,使快速得出结论变得容易。

正如上面关于21世纪票房最高的电影(上方)的图表所示,颜色也可以用来显示范围。在这张图表中,每个$500M的点用不同的颜色表示,使得可以快速看到哪些电影属于哪个价格范围。对于这张图表,范围用于y轴的值,但范围也可以用于显示x轴值的不同类别,甚至可以组合使用这两个。

在下面Mark Edwards关于大满贯网球冠军的可视化图表中,颜色被非常创造性地用于显示x轴和y轴组合的范围。x轴显示年份,y轴显示获胜年龄,颜色范围代表冠军出生的年份。

Edwards巧妙地展示了如何独特地使用颜色,并将大小绑定到额外的变量上,在本例中是该年龄赢得的头衔数量。如您在该图表中所见,重叠的点是散点图的特征之一。有时,一个散点图会有相当多这样的重叠点。有几种方法可以使每个点清晰可见。Edwards 在点周围使用描边来清楚显示重叠值,这在此案例中效果很好。不过,有时使用描边会使图表显得杂乱。另一种选择是应用透明度,0.5到0.8之间效果最佳。

下一代男子大满贯网球冠军在哪里?——一个使用颜色表示范围的散点图示例。

一个使用颜色表示范围的散点图。可视化图表由Mark Edwards制作。

散点图作为美丽可视化图表的基础

散点图可以很好地作为美丽数据可视化的基础。一位著名的数据可视化设计师Federica Fragapane有时会在她的独特数据可视化中使用散点图作为基础。她从数据开始,将其可视化为散点图,然后在此基础上创建美丽的元素。

以下是一个创意且吸引人的图表示例,展示了2017年世界上最暴力的城市。你能在其中认出散点图吗?Fragapane在y轴上绘制人口数(百万),并将城市按凶杀率排序作为x轴上的类别。她真正掌握了散点图并决定将其提升到一个新的水平。

Federica Fragapane的设计。

这个图表中真正引人注目的是图标的使用。散点图中的数据按国家细分,这些国家用几种不同的符号表示。此外,在这个图表中,颜色不是像大多数散点图那样代表类别,而是表示与2016年相比凶杀案数量的增减;非常有趣。

该数据可视化首先通过绘制散点图创建,y轴表示信件数量,x轴表示年份作为类别。之后添加了花瓣以显示他们讨论的主题以及这些主题在每年的分布。为了给数据提供上下文,添加了一些注释。

结论

总之,散点图以其简单而强大的设计已成为探索和理解数据关系不可或缺的图表。从17世纪的萌芽到现代在各个领域的广泛应用,散点图已证明其揭示隐藏模式、发现相关性并激发创新可视化的强大能力。

通过掌握创建和解释散点图的艺术,你可以发现有价值的见解,并有效地向各种背景的受众传达你的发现。因此,无论你是科学家、商业分析师,还是只是对数据好奇的人,都可以将散点图视为数据可视化工具包中多功能且必不可少的工具。

散点图简单明了的数据结构和设计使其成为自动化的理想候选。通过电商记交互式文档,你可以轻松用AI生成代码,处理数据,提供散点图模板,并自动生成包含更新数据的新图表。虽然为每个点添加数据标签在自动化散点图时有时可能具有挑战性,但可以通过省略标签或条件格式化来缓解这一问题。通过条件格式化,可以根据特定值为散点图中的特定数据点添加数据标签。

💻交互式文档 💬向助教提问 🧺采集数据

附件Excel文件

📁附件Excel文件包含“牛仔裤”关键词的综合、销量两表共9600条记录,可用作研究学习。