3.初步描述性统计

基于价格与销量初步分析淘宝牛仔裤市场,掌握直方图、KDE线、Q-Q图、皮尔森系数、贡献度

研究背景与目标 本报告通过对淘宝平台上“牛仔裤”类商品的价格和销量数据进行深入分析,采用了直方图、Q-Q图、皮尔森相关系数等数据分析技术,旨在帮助电商从业者和创业者更好地理解市场动态,并优化产品定价、销售策略和市场推广策略。我们通过电商记插件采集了4800条商品数据,涵盖了商品的价格、月销量等多个重要字段。本报告将详细介绍数据的清洗、处理及分析过程,并通过统计分析方法揭示市场趋势。 💻交互式文档 💬向助教提问 这个交互式文档中包含四个步骤,...…
3.初步描述性统计
分享此内容

研究背景与目标

本报告通过对淘宝平台上“牛仔裤”类商品的价格和销量数据进行深入分析,采用了直方图、Q-Q图、皮尔森相关系数等数据分析技术,旨在帮助电商从业者和创业者更好地理解市场动态,并优化产品定价、销售策略和市场推广策略。我们通过电商记插件采集了4800条商品数据,涵盖了商品的价格、月销量等多个重要字段。本报告将详细介绍数据的清洗、处理及分析过程,并通过统计分析方法揭示市场趋势。

💻交互式文档 💬向助教提问

这个交互式文档中包含四个步骤,用户可依次点击四个单元格左侧的“运行”按钮,获得分析结果(在单元格之后)和相应的图表(在整个文档末尾)。

Untitled-2025-02-13-01

Screenshot%20from%202025-02-13%2010-12-11

Screenshot%20from%202025-02-13%2010-12-24

Screenshot%20from%202025-02-13%2010-12-48

Screenshot%20from%202025-02-13%2010-12-57

为了使数据分析更加便捷,本文还介绍了如何借助交互式文档和AI助手进行分析,即使用户不熟悉编程技术,也可以在单元格中生成代码。用户只需要将自己的数据分析需求输入到AI助手中,AI助手即可生成直方图、Q-Q图、皮尔森相关系数等分析所需的代码,并帮助用户完成可视化和分析过程。

Screenshot%20from%202025-02-13%2009-59-56

1. 数据采集

数据通过电商记插件从淘宝平台采集,搜索关键词为“牛仔裤”,包括两种排序方式:

  • 综合排序:考虑商品的销量、评价、价格等因素。
  • 销量排序:按商品的月销量进行排序。

每条数据包括商品ID、标题、价格、月销量等多个字段。

2. 数据清洗与预处理

在分析之前,数据清洗是确保数据质量和准确性的关键步骤。我们进行了以下简化的处理:

  • 去除重复项:确保每个商品ID在数据中唯一,删除重复记录。
  • 处理缺失值:对于价格和销量字段的缺失值,使用均值填补。
  • 标准化字段格式:将“月销量”中的非数值字符(如“万+”)转换为实际的销量数字。

3. 数据分析与可视化

3.1 价格分布:直方图

为了了解牛仔裤的市场定位,我们绘制了价格的直方图。直方图是一种用于展示数据分布的图形,能够帮助我们识别数据的集中趋势和分布形态。

概念解析:

  • 直方图:通过将数据分成多个区间(箱子)来显示数据的分布情况。每个箱子的高度表示该区间内数据的频次。通过观察直方图,我们可以了解数据的整体分布情况,如是否偏向某个区间。
  • 核密度估计(KDE):是直方图的平滑曲线,帮助我们更直观地看出数据的分布趋势。

代码与分析:

在交互式文档中,用户只需输入需求,例如:“我想分析价格的分布情况并生成直方图”,AI助手会自动为用户生成代码,如下所示:

# 绘制价格分布图
plt.figure(figsize=(10, 6))
sns.histplot(df['价格'], kde=True, bins=30, color='blue')
plt.title('商品价格分布图')
plt.xlabel('价格')
plt.ylabel('频次')
plt.show()

通过直方图,我们发现大部分牛仔裤的价格集中在100元到300元之间,符合大多数消费者的购买能力。价格分布呈正态分布,少数高价商品的数量相对较少。

plot%20%281%29

AI助手

在交互式文档中,AI助手可以帮助非技术用户轻松进行数据分析。用户只需输入自己的分析需求,点击“生成”按钮,AI助手会自动生成相应的代码,提供直方图、Q-Q图、皮尔森相关系数等可视化和统计分析的实现。

用户点击“更新”按钮,将生成的代码更新到文档的单元格中。

Screenshot%20from%202025-02-13%2010-37-46

只要运行这个单元格,无需编程经验,用户即可获得深入的市场洞察和数据支持,帮助优化决策。

Untitled-2025-02-13-01

3.2 月销量分布:Q-Q图

为了分析月销量数据的分布,我们使用了Q-Q图(Quantile-Quantile Plot)。Q-Q图可以帮助我们检查一个数据集是否符合某种理论分布(如正态分布)。

概念解析:

  • Q-Q图:通过将数据的分位数与标准分布的分位数进行比较,如果数据的分布与正态分布相符,Q-Q图上的点将沿对角线排列。
  • 正态分布:是一种对称的钟形分布,许多自然现象和社会现象呈现这种分布。

代码与分析:

在交互式文档中,用户可以输入:“我希望分析销量的分布并生成Q-Q图”,AI助手会生成如下代码:

import scipy.stats as stats

# 绘制Q-Q图
plt.figure(figsize=(8, 8))
stats.probplot(df['月销量'], dist="norm", plot=plt)
plt.title('牛仔裤月销量的Q-Q图')
plt.show()

plot%20%283%29

根据上面绘制的Q-Q图,我们可以进行如下解读:

Q-Q图解读:

  1. X轴(Theoretical Quantiles):理论分位数,这是标准正态分布的分位数(即正态分布的预期分位点)。Q-Q图的X轴表示从标准正态分布中提取的理论数据点。

  2. Y轴(Ordered Values):实际数据的分位数,表示你提供的牛仔裤销量数据的实际分位点。这些点是从实际的销量数据中排序后得到的。

  3. 图形特征

    • 左下方的密集点:这些点沿着对角线(理论分位数)分布,说明销量数据的低值区域与标准正态分布的低端比较接近。
    • 右上方的离群点:有大量的销量数据点远离对角线,尤其是在图形的右上方。很多点明显偏离了对角线,形成了一个曲线的趋势。这个趋势表明,牛仔裤的销量数据可能并不符合正态分布,尤其是在高销量(右侧)部分。
  4. 结论

    • 从图中可以看出,销量数据并不完全符合正态分布,特别是数据的尾部(销量较高的部分)。数据在低销量部分可能与正态分布较为接近,但随着销量的增加,数据出现了较大的偏差。
    • 在实际数据中,通常这种现象表明“少数高销量的产品”对整体销量的贡献巨大,类似长尾分布。大多数牛仔裤的销量较低,但少数产品的销量非常高,这种“少数占大多数”的分布特征显然是显著的。

Q-Q图的意义:

  • Q-Q图本质上是通过将数据的分位数与标准正态分布的分位数进行比较,来检查数据是否符合特定的分布。
  • 如果点大致沿对角线分布,说明数据可能符合该分布(如正态分布)。
  • 如果点偏离对角线,说明数据与该分布的偏差较大。在你的图中,偏离对角线的情况较明显,特别是在右侧高销量的部分。

结论:

  • 牛仔裤销量的数据呈现出重尾长尾分布的趋势(少数高销量产品贡献了大部分销量)。这表明产品的销量分布并不均匀,大多数产品的销量相对较低,少数热门产品的销量非常高。

相对应的销量分布直方图如下所示。

plot%20%282%29

3.3 价格与销量的关系:皮尔森相关系数

为了探究价格与销量之间的关系,我们计算了皮尔森相关系数,这是一种衡量两个变量之间线性相关程度的统计量。

概念解析:

  • 皮尔森相关系数:其值范围在-1到1之间,表示两个变量之间的线性相关性:
    • 1 表示完全正相关:一个变量增加时,另一个变量也按比例增加。
    • -1 表示完全负相关:一个变量增加时,另一个变量按比例减少。
    • 0 表示没有线性关系:两个变量之间没有可预测的关系。

代码与分析:

在交互式文档中,用户可以输入:“我想了解价格与销量之间的关系”,AI助手会自动生成代码来计算皮尔森相关系数:

# 计算皮尔森相关系数
correlation = np.corrcoef(df['价格'], df['月销量'])[0, 1]
print(f"价格与月销量的皮尔森相关系数: {correlation:.2f}")

计算结果显示,价格与销量的皮尔森相关系数为-0.05,说明两者之间不存在一定的正相关关系。这意味着牛仔裤的价格对销量没有大的影响。

Screenshot%20from%202025-02-13%2011-41-32

3.4 高销量产品的贡献

最后,我们分析了销量前10%的高销量产品,并计算它们对总销量的贡献度。结果表明,高销量产品贡献了约50%的总销量,这表明少数畅销商品对整个市场的销售影响巨大。

代码与分析:

用户只需要输入需求:“我希望了解高销量产品的贡献”,AI助手会生成以下代码:

# 找到销量前10%的产品并计算其贡献
high_sales_threshold = df['月销量'].quantile(0.9)
high_sales = df['月销量'][df['月销量'] >= high_sales_threshold]
high_sales_contribution = high_sales.sum() / df['月销量'].sum()
print(f"销量前10%的产品贡献了 {high_sales_contribution * 100:.2f}% 的总销量")

Screenshot%20from%202025-02-13%2011-41-32

4. 结果与策略建议

4.1 市场概况

  • 价格分布:大部分牛仔裤的价格集中在100元到300元之间,属于中低价位商品。
  • 销量分布:销量呈正态分布,少数高销量商品占据大部分市场份额。
  • 价格与销量的关系:价格与销量之间不存在一定的正相关关系,不是决定性因素。

4.2 策略建议

  • 优化高销量商品的曝光:鉴于少数高销量商品贡献了大部分销售,电商应集中资源提升这些产品的曝光度。
  • 中低价策略:大多数消费者倾向于购买100元到300元价格区间的牛仔裤,因此,电商可以重点推广这一价位段的商品。
  • 价格优化:虽然价格与销量没有一定的正相关关系,但应谨慎调整价格,避免影响销量。

5. 总结

本报告通过对淘宝牛仔裤市场数据的分析,揭示了该市场的主要特点,尤其是在价格、销量分布和价格与销量之间的关系方面。通过使用直方图、Q-Q图和皮尔森相关系数等统计分析方法,我们获得了对市场的深刻洞察,为电商从业者提供了优化市场策略的建议。

值得注意的是,本文介绍的交互式文档与AI助手功能使得即使是没有编程经验的用户,也能轻松完成数据分析任务。用户只需输入分析需求,AI助手便可自动生成所需的代码,帮助用户完成数据清洗、可视化及统计分析。

💻交互式文档 💬向助教提问

附件Excel文件

📁附件Excel文件包含“牛仔裤”关键词的综合、销量两表共9600条记录,可用作研究学习。