6.多平台搜索数据清洗和处理

多平台研究价格销量分布

在当今竞争激烈的电商市场中，跨平台的数据分析变得愈加重要。淘宝、拼多多和京东是中国电商行业的三大巨头，每个平台都有其独特的用户群体和价格策略。如果你能全面掌握这三个平台的价格分布和销量趋势，你将能够精准地洞察市场需求，制定更加高效的定价和营销策略。可惜，人工收集这些数据既费时又繁琐。而现在，借助电商记插件，你可以轻松解决这一难题。

电商记插件为用户提供了强大的数据采集功能，支持跨平台的数据抓取，尤其适用于淘宝、拼多多和京东这三大电商平台。通过电商记插件的三大流程，用户可以自动化地从每个平台采集商品的价格、销量等关键数据，快速建立起全面的电商市场分析模型。

以“牛仔裤”为例，通过电商记插件，你可以在几个简单的步骤内，获取这三个平台同类商品的价格和销量分布数据。无论是淘宝的性价比高、拼多多的超值优惠，还是京东的高端品牌定位，电商记插件能够帮助你一网打尽，全面了解不同平台上的价格区间和市场趋势。

而最令人兴奋的是，电商记插件不仅提供了数据采集功能，还能生成清晰的Excel文件，帮助用户快速导入和整理数据。你只需要上传这些由插件自动生成的文件，就可以立刻开始在电商记交互式文档中进行数据分析工作。无论你是进行价格对比，还是进行销量分析，电商记插件都将成为你研究电商市场的得力助手。

在接下来的研究报告中，我们将以“牛仔裤”为例，展示如何利用电商记插件采集三个平台的数据，并分析这些数据所揭示的电商市场价格分布和销量趋势。通过这个实际操作的示范，你将能够快速掌握如何利用电商记插件进行跨平台数据采集和市场分析，进一步提升你的电商决策能力。

运行采集流程

为了研究淘宝、拼多多、京东三个平台同一类商品的价格和销量分布，我们需要用电商记插件的三个流程进行采集。

你也可以动手下载示例数据，跟随我们的研究报告，一步步探索电商记如何帮助你从海量的数据中挖掘出有价值的商业洞察！

下面的研究报告将使用“牛仔裤”综合排序搜索结果的三个Excel文件，你点击下载后作为示例数据进行学习。

改进交互式文档

在如今的数据分析与应用开发中，交互式文档的出现为开发者和研究人员提供了前所未有的便利。尤其是在处理数据分析和可视化任务时，这种文档让编写和实验代码变得轻松而高效。以Pyodide为核心的交互式环境，可以在浏览器内直接运行Python，简化了许多开发流程。而在电商记交互式文档中，我们不仅可以在文档中嵌入HTML、JavaScript代码、Python代码，还能够实时运行和调试，省去了繁琐的环境配置和上传步骤。

传统的数据分析任务通常要求我们上传单个文件进行处理，之前的交互式文档《直方图_KDE线》）只能用于上传一个文件。

然而，随着分析需求的日益复杂，我们希望能够同时对多个平台（如淘宝、拼多多、京东等）进行数据对比研究，这时候，我们不仅需要上传多个文件，还需要在代码中灵活地处理这些文件数据。这种需求的解决便依赖于交互式文档的强大功能。

改进HTML代码

想象一下，你正在构建一个数据分析工具，目标是从不同电商平台获取的Excel文件中提取并对比搜索结果。借助交互式文档，你可以轻松修改HTML和JavaScript代码，只需简洁地增加一个输入文件的按钮，便可同时上传多个文件。例如，以下代码片段通过修改HTML和JavaScript，实现了支持同时上传许多个Excel文件的功能：

<input class="btn btn-primary" type="file" id="fileInput" multiple />

在这段代码中，我们为文件输入框添加了multiple属性，这样就能支持一次选择多个文件。

AI生成代码

当用户选择文件后，JavaScript会自动读取文件内容，并将其传递给Pyodide环境：

const fileInput = document.getElementById('fileInput');
const files = fileInput.files;
// 处理每个文件
Array.from(files).forEach(async (file, index) => {
    const arrayBuffer = await file.arrayBuffer();
    const uint8Array = new Uint8Array(arrayBuffer);
    pyodide.FS.writeFile(`/file${index + 1}.xlsx`, uint8Array);
});

这个改动不仅实现了对多个文件的处理，还利用Pyodide提供的文件系统接口，直接将文件加载到虚拟文件系统中，让Python代码能够方便地进行数据分析。通过这种方式，交互式文档为复杂的数据操作提供了一个简洁高效的解决方案，让你能够在浏览器内无缝执行、测试和迭代代码。

AI助手自动生成

无论是数据可视化、机器学习模型的训练，还是简单的分析任务，AI助手的灵活性和实时性，都让开发者和分析人员能够更专注于任务本身，而不是被繁琐的文件管理和代码调试所困扰。

在电商记的交互式文档中，用户可以通过与AI助手的交互，实现自动生成HTML、JavaScript、Python代码。这一功能的独特之处在于，用户无需深入了解底层代码，只需提供三段简单的提示词，AI助手便能为每个单元格的内容自动生成相应的代码。无论是想展示一张图表、分析数据，还是处理复杂的电商平台数据，AI助手都能轻松应对。

针对前面所讨论的HTML代码和JavaScript代码，以下是给出的合适提示词：

HTML提示：
“创建一个支持上传文件的按钮，并允许用户选择多个文件。”

这个提示词指引AI助手生成一个文件上传按钮，并通过multiple属性支持多文件选择，确保用户能够一次性选择多个文件进行上传。
JavaScript提示：
“编写代码来处理上传的文件，检查文件是否已选择，并将其转换为适合存储的格式。”

这个提示词帮助AI助手理解需要执行的步骤：检查文件是否被成功选择，然后将选中的文件读取为ArrayBuffer，最后转换为Uint8Array格式，以便后续处理。

“将上传的文件数据写入Pyodide虚拟文件系统，并确保每个文件保存为独立的Excel文件。”

这个提示词指导AI助手生成第二部分的JavaScript代码，利用Pyodide提供的文件系统接口（pyodide.FS.writeFile），将上传的文件数据存储到虚拟文件系统中，并为每个文件分配独立的名称（如/file1.xlsx）。

这些提示词帮助AI助手理解用户的需求，自动生成所需的HTML、JavaScript和Python代码，从而大大简化了开发过程，提升了交互式文档的灵活性和易用性。用户无需担心代码细节，AI助手会在后台完成所有复杂的操作，并将结果呈现在交互式文档中。

这种强大的自动化功能不仅极大地降低了技术门槛，还让数据分析、可视化变得前所未有的高效。无论你是电商运营人员，还是数据分析师，电商记的交互式文档都能够帮助你快速实现从数据到决策的转化。最重要的是，整个过程没有繁琐的代码编写，你只需给出简单的指令，AI助手便能为你完成其余工作。

通过电商记，开发和数据分析不再是技术专家的专利，任何人都能轻松上手，直接用AI助手将数据转化为有价值的商业洞察。

上传步骤

更新交互式文档中的单元格内容，点击“运行”按钮。

Untitled-2025-02-17-1

可以看到网页输入框有了变化：Choose Files

Screenshot%20from%202025-02-17%2009-37-17

再次生成JavaScript代码

进一步的，我们要需要AI助手改进javascript代码，用户会同时上传三个文件，文件名分别包含“淘宝”、“拼多多”、“京东”，保存到pyodide中相应的文件：taobao.xlsx、pdd.xlsx、jd.xlsx 在提示词中，我们要指明以下几点要求：

文件数量检查： 确保用户上传了三个文件，如果文件数量不对，弹出提示。
文件名映射： 根据文件名包含的关键字（淘宝、拼多多、京东）来选择相应的保存路径（taobao.xlsx、pdd.xlsx、jd.xlsx）。
遍历上传文件： 如果符合条件，读取每个文件的内容并写入到 Pyodide 的文件系统中。

关键点

用户上传三个文件时，每个文件必须包含对应的关键词（如“淘宝”、“拼多多”、“京东”）。
如果有任何文件名不符合要求，代码会中断并提示用户。

运行步骤

当用户上传三个Excel文件后，点击这个JavaScript单元格的“运行按钮”，可得到如下结果。

Untitled-2025-02-17-2

数据清洗和处理

在进行跨平台对比研究时，淘宝、拼多多、和京东的“销量”数据具有不同的含义，因此需要做一些数据转换以确保能够进行有效对比。京东没有明确的“销量”数据，只有“评价”数据，因此我们需要根据“评价”数据来估算销量。

1. 淘宝和拼多多的销量数据

淘宝和拼多多的“销量”数据通常是直接可用的，可以作为产品的实际销量。

2. 京东的销量估算

由于京东的搜索结果中提供的是“评价”数量，而没有明确的销量数据，我们可以假设“评价数”与销量之间存在一定的比例关系。可以通过以下方法估算销量：

方法一：假设一个常规的销量与评价比例

假设在京东上，每10000条累积评价对应大约1000件月销量（这是一个假设比例，具体比例可以根据平台的历史数据进一步调整）。基于这个比例，可以通过如下公式估算销量：

\[ \text{销量} = \text{评价数} \times \text{评价/销量比率}\]

销量比率取0.1。这个比例是估算的，可以根据平台的实际情况进行调整。如果你有平台间的真实对比数据，可以进一步优化这个比例。

方法二：使用销量和评价的关系进行回归分析

如果能够获得大量的产品数据，包括销量和评价数，可以使用回归分析来得出更加精确的关系模型。例如，使用线性回归模型来根据评价数预测销量。

\[ \text{销量} = a \times \text{评价数} + b\]

这里，a 和 b 是回归模型中的系数，需要通过历史数据训练得到。

3. 数据标准化

为了能够公平对比不同平台的“销量”数据，可能需要对淘宝、拼多多和京东的数据进行标准化处理。一个常见的做法是将销量数据按某一基准值进行缩放，或者将其转换为相对值，比如“每千人销量”或“每万用户销量”，以消除平台间用户基数差异对数据的影响。

4. 直方图和KDE线的绘制

无论是销量数据还是估算的销量数据，都可以用于绘制直方图和KDE（核密度估计）线图。这些图表能够帮助分析价格和销量的分布情况。下面是可能的步骤：

直方图（Histogram）： 用于展示价格区间内产品的销量分布。可以将数据分为多个价格区间，并统计每个区间内的销量。
KDE（核密度估计）线图： 用于平滑直方图，帮助识别价格与销量之间的潜在关系。

在Python中，可以使用matplotlib和seaborn库来绘制这些图表。

改进评价估算

京东搜索结果中的“评价”字段可能是“100+”，“96”，“5万+”这三种形式，按合理比例缩放数值。为了适应京东的“评价”字段可能是以下三种形式：

"100+"（例如 100+ 表示100条评价，可能更多）
"96"（具体的评价数，如 96）
"5万+"（表示 5万条评价，可能更多）

我们需要对 estimate_jd_sales 函数进行修改，以处理这三种不同的情况。

处理方案：

对于 "100+" 和 "5万+" 形式：
- 使用正则表达式提取数字，并根据情况估算销量。
- 对于 "100+"，假设最小值是100，若存在 "+"，则我们可以设定一个估算规则，例如：如果显示 "100+"，则认为实际销量在100到200之间（可以根据实际情况调整），例如取150这个数值。
- 对于 "5万+"，假设每万条评价对应大约 1000 件销量。
对于具体数字的情况（如 "96"）：
- 可以直接转换为整数，乘以一个估算系数（例如1.0）来推算销量。

AI生成`estimate_jd_sales` 函数：

# 估算京东销量的函数
def estimate_jd_sales(reviews):
    if pd.isna(reviews):
        return None

    reviews = str(reviews).strip()

    # 处理 "100+" 形式
    if "万+" in reviews:
        # 提取“万+”格式的数字（如“5万+”）
        match = re.search(r'(\d+)', reviews)
        if match:
            return int(match.group(1)) * 1000  # 假设每万条累积评价对应1000月销量

    elif "+" in reviews:
        # 提取“+”形式的数字（如“100+”）
        match = re.search(r'(\d+)', reviews)
        if match:
            # 如果是 "100+"，假设销量为100到200之间
            return int(match.group(1)) * 2  # 假设是100+表示的实际销量在100到200之间（系数2）

    else:
        # 处理没有"+"的数字（如"96"）
        try:
            return int(reviews) * 1  # 假设每个评价对应1件销量
        except ValueError:
            return None

    return None

代码解释：

处理 "5万+" 形式：
- 使用正则表达式 r'(\d+)' 来提取 "5万+" 中的数字部分（5），然后将其乘以1000，表示5万条评价估算得到的月销量。
处理 "100+" 形式：
- 对于 "100+"，我们假设实际销量为100到200之间，因此将其估算为 100 * 1.5 = 150。这个系数 1.5 可以根据实际情况调整。
处理纯数字情况：
- 对于没有 "+" 的情况（例如 "96"），我们将其转化为整数并假设每条评价对应1件销量。
测试数据：
- 对不同形式的“评价”数据进行了测试，输出了相应的估算销量。

结果示例：

"100+" -> 估算销量 150（假设100+的实际销量在100到200之间）
"96" -> 估算销量 96（假设每条评价对应1件销量）
"5万+" -> 估算销量 5000（假设每万条评价对应10000件销量）

调整系数：

对于 "100+" 的估算系数（目前为 1.5）和 "5万+" 的处理方式（每万累积评价对应1千月销量）可以根据实际的数据进行微调，以更精确地反映京东平台的评价与销量之间的关系。

使用：

确保你有 taobao.xlsx、pdd.xlsx 和 jd.xlsx 文件，并且它们的字段名称和代码中的一致。
根据需要调整京东“评价”到“月销量”的估算比例。
总结：
1. 淘宝和拼多多的销量数据可以直接使用。
2. 京东的销量数据需要通过“评价数”进行估算，假设一个合理的“评价数/销量”比例（例如1倍）进行转换。
3. 为确保对比的公平性，可以对所有平台的数据进行标准化处理。
4. 使用直方图和KDE线进行价格与销量的分布对比，帮助深入分析三个平台的销售趋势。

处理拼多多数据

作为一个商业分析师，制定一个合理的数据处理策略至关重要，尤其是当你需要对比不同平台的销量数据时。在这种情况下，拼多多的销量数据通常较大，并且100000这个上限显然不适用于所有情况，因此需要一个更加科学的策略来估算并使其与淘宝的月销量数据可比。

数据处理策略

理解拼多多的销量数据：
- 拼多多的销量数据通常较大，这可能是由于拼多多的产品普遍拥有较高的销售量。拼多多平台的产品可能处于不同的销量区间，且部分产品因优惠、促销等因素在短时间内销量非常高。
- 需要根据拼多多的具体情况来调整销量估算，避免直接对比时不合理的数值差异。
估算拼多多销量与淘宝销量的比例：
- 为了使拼多多的销量数据与淘宝的月销量数据可比，我们可以基于历史数据来估算拼多多的销量和淘宝销量之间的比例关系。
- 假设你通过分析淘宝和拼多多的历史数据，发现拼多多的销量普遍高于淘宝，可以尝试使用一个固定比例来估算拼多多的销量。例如，假设拼多多的销量大约是淘宝销量的1.5倍或2倍。
数据清理和标准化：
- 拼多多的销量标准化： 假设拼多多的销量数据通常偏大，但我们可以通过对拼多多销量进行一定的缩放来进行标准化。例如，可以将拼多多的销量除以一个常数（如10）来将其缩放到一个合理的范围。
- 对比其他平台（淘宝）的销量： 淘宝的销量数据可能更加稳定，因此我们可以基于淘宝的数据范围来调整拼多多的销量数据，使得两个平台的数据可比。
使用对比分析法：
- 归一化方法： 通过对拼多多和淘宝的销量数据进行归一化，使用类似于“每千人销量”或“每万销量”这样的标准，使得两个平台的销量可以在相同的基准下进行比较。
- 调整销量数据： 如果拼多多的销量数据明显大于淘宝的销量，可以先根据淘宝的销量数据对拼多多的销量进行缩放（例如：拼多多销量 = 淘宝销量 * 调整因子）。

数据处理的实现步骤

对拼多多销量数据进行估算和标准化：
- 可以根据具体情况对拼多多的销量进行缩放。例如，假设拼多多的销量普遍是淘宝销量的1.5倍，我们可以通过调整比例来统一数据范围。
确定合适的缩放因子：
- 基于实际数据分析，确定拼多多销量的缩放因子（如 0.1）来调整拼多多的销量数据，以便与淘宝数据进行合理对比。
归一化处理：
- 计算每个平台的平均销量并进行归一化，使得所有平台的销量数据处于相同的尺度范围。
最终数据清理：
- 对拼多多和淘宝的数据进行去重、筛选和清洗，确保数据的准确性和一致性。

总结：

我们通过估算比例来调整拼多多的销量，使其与淘宝的销量数据更加可比。
拼多多的销量经过缩放因子调整后，再与淘宝和京东的销量进行对比分析。
你可以根据实际数据调整拼多多的缩放因子，以达到最准确的对比效果。

通过这些方法，我们可以比较这三个平台的销量和价格分布，进行更有效的市场分析。

Untitled-2025-02-17-3

数据解读

接下来，用户可以方便的运行两个单元格：

🕒价格区间直方图

🕓销量分布直方图

我们先解读牛仔裤在三个平台上价格分布的情况。

京东价格分布

从图表可以看出，京东搜索“牛仔裤”的综合排序结果的价格分布呈现出明显的右偏态分布（长尾分布）。以下是对该直方图和KDE（核密度估计）曲线的详细解读：

价格区间集中：直方图的柱状分布大部分集中在价格较低的范围，尤其是在1到200元之间，频次较高。这说明大部分牛仔裤的价格相对较低，占据了市场的大部分份额。
价格分布不均：从KDE曲线的走势可以看到，价格分布在200元左右逐渐下降，并在接近1000元时趋于平缓，显示出大部分价格集中在中低价区间，较少出现高价牛仔裤。
长尾现象：在高价区间（例如500元以上）出现了较少的产品，但这些产品的价格相对较高，符合市场上典型的“长尾”现象。尽管这些高价产品在数量上占比不大，但它们的存在表明京东平台上也存在一些高端牛仔裤品牌。
整体趋势：KDE曲线整体呈现出右偏分布，即低价段的产品占据了市场主流，随着价格的提升，商品数量逐渐减少。这种价格分布模式通常表明，消费者的购买偏好趋向于价格较为亲民的商品。

结论：

该图表展示了京东平台上“牛仔裤”类商品的价格分布情况，可以推测，大部分消费者偏好购买中低价的牛仔裤，且低价商品的数量较多。如果你在做价格定位或市场策略时，可以考虑这一趋势，尤其是在产品定价或促销活动中，关注低价到中价区间的产品，可能会吸引更多消费者。

plot%20%2816%29

拼多多价格

从图表可以看出，拼多多搜索“牛仔裤”的综合排序结果的价格分布呈现出右偏态分布（长尾分布）。以下是对该直方图和KDE（核密度估计）曲线的解读：

价格集中区间：直方图的柱状分布大部分集中在价格较低的区间，尤其是在20到80元之间，频次较高。这意味着拼多多平台上的牛仔裤产品大多集中在这一价格区间。
价格分布趋势：从KDE曲线可以看到，价格分布的密度在50元左右达到峰值，说明大多数牛仔裤的价格集中在这个价位区间。随着价格增加，商品的数量逐渐减少，表现出典型的右偏现象。
中低价商品占主流：大多数的牛仔裤价格都集中在50元以下，符合拼多多作为以性价比为特点的电商平台的定位，消费者更多地偏向低价商品。
长尾效应：在高价区间（例如100元以上），虽然出现的频率较低，但这些商品的价格较高，属于拼多多平台的高端牛仔裤。这表明即便是在以低价为主的市场上，仍然存在一定比例的高价产品。

结论：

该图表显示了拼多多平台上“牛仔裤”类商品的价格分布，可以推测，拼多多的消费者更倾向于购买价格较低的牛仔裤，特别是50元以内的产品。在制定销售策略时，重点关注价格区间在50元以下的牛仔裤可能会更符合大多数消费者的购买需求。对于高端牛仔裤的销售，可以考虑采取不同的营销策略，如定位为品牌牛仔裤或独特设计的高性价比产品。

plot%20%2815%29

淘宝价格

从图表可以看出，淘宝搜索“牛仔裤”的综合排序结果的价格分布呈现出右偏态分布（长尾分布）。以下是对该直方图和KDE（核密度估计）曲线的详细解读：

价格集中区间：直方图的柱状分布大部分集中在价格较低的区间，尤其是100到200元之间，频次较高。这表明淘宝平台上的牛仔裤主要集中在这一价格区间。
峰值位置：KDE曲线的峰值位于150元左右，表明淘宝平台上牛仔裤的中位数价格大约在这个范围。这也暗示了消费者在淘宝平台上的购买偏好，更倾向于购买中低价位的产品。
右偏分布：随着价格逐步提高，商品的数量迅速减少，直方图的右侧呈现出明显的下降趋势，显示出价格较高的牛仔裤（超过300元）相对较少。这种价格分布符合典型的右偏态分布。
长尾现象：尽管高价牛仔裤的数量较少，但仍然有一部分产品的价格较高（例如500元以上），这表明淘宝平台上也存在一些高端牛仔裤，虽然数量有限，但依然占据一定市场份额。

结论：

从图表可以得出，淘宝平台上的“牛仔裤”产品价格大多数集中在100元到200元之间，符合淘宝平台的用户偏好。在进行定价策略时，可以重点关注这一价格区间。与此同时，虽然高价产品的市场份额较小，但仍然存在一部分消费者愿意为高端产品支付较高价格，商家可以根据市场需求进行差异化定价。

plot%20%2814%29

销量分布图

以下分别是京东、拼多多、淘宝三个平台上牛仔裤商品的销量分布图，供读者参考。

京东

plot%20%2819%29

拼多多

plot%20%2818%29

淘宝

plot%20%2817%29

京东数据采集流程

在数据分析的世界里，数据采集是每个项目的基础，而如何高效、灵活地定制数据采集流程，往往决定了最终结果的质量和精度。为了简化这一过程，越来越多的工具开始采用图形化编程方式，赋予用户更多的自主性。特别是采用图形化编程方式，用户不仅能够轻松定制和修改数据采集流程，还能在没有编程经验的情况下，轻松完成复杂的数据抓取任务。

在本文的研究报告中，我们使用了三个主要的电商平台数据采集流程：淘宝、拼多多和京东。其中，淘宝和拼多多的数据采集流程已经在前文中详细讲解过，此次，我们重点展示了京东搜索结果数据采集流程的最新实现，使用了电商记插件图形化编程工具。

传统的编程方式要求开发者通过编写代码来设定每一个采集步骤，逻辑复杂且易出错。而电商记插件的图形化编程方式通过简单的拖拽操作，将复杂的代码逻辑转化为可视化的流程图。用户只需要通过直观的图形块来搭建采集流程，系统会自动生成相应的代码。这不仅极大地降低了开发门槛，还让流程的定制和修改变得更加高效和灵活。

例如，京东搜索结果的采集流程图展示了如何通过电商记插件轻松构建一套自动化的数据抓取机制。在流程图中，每个采集步骤都由图形化的块表示，用户只需拖拽不同的块，设定数据采集的条件和规则，系统便会自动生成相应的执行代码。这种方式不仅让开发过程更加简洁直观，也让非技术人员能够快速上手并自主开发数据采集流程。

通过这种方式，用户可以灵活定制每一个采集步骤，无论是设定搜索关键词、选择页面元素，还是设置数据存储格式，所有的操作都可以通过拖拽和设置参数来完成。而且，电商记插件还允许用户随时调整流程，增加或修改任何步骤，确保数据采集流程能够根据实际需求进行灵活的调整。

最终，这种基于图形化编程的方式，使得数据采集不仅变得更加透明和易于管理，也提升了整个项目的开发效率。无论是数据分析师、研究人员，还是电商从业者，都能通过电商记插件为自己的业务需求定制数据采集流程，快速实现自动化抓取，并为后续的数据分析提供强大的支持。

jdsearch2025

💻交互式文档 💬向助教提问 🧺采集数据