2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
第 4 部分,共 5 部分 — 中级 → 高级
这是探索性数据分析中最令人兴奋的部分。我们在第 3 部分中单独学习了每个特征。现在我们提出真正的问题:谁幸存了下来,为什么?
类比 — 侦探揭示嫌疑人 🔍
夏洛克已经单独检查了每条线索。现在他开始将它们联系起来。
鞋子上的泥来自东花园,只有园丁在上午 9 点到 11 点之间使用过那里,而受害者最后一次被看到是在 10:30...
每一块碎片都相互关联。这就是双变量分析的作用。将特征彼此连接,并与结果连接。我们不再孤立地查看列,而是开始问:两列数据一起告诉我们什么?
真实的泰坦尼克号数据说明了什么?
让我们直接看看数据集中的实际数字:
| 群体 | 生存率 |
|---|---|
| 女性乘客 | 74% |
| 男性乘客 | 19% |
| 头等舱乘客 | 63% |
| 二等舱乘客 | 47% |
| 三等舱乘客 | 24% |
不需要复杂的模型。只需使用 Pandas 库和几行代码,清晰的模式就会显现出来。
步骤 1:谁幸存了下来?特征与目标变量
import seaborn as sns
import matplotlib.pyplot as plt
fig, axes = plt.subplots(1, 3, figsize=(15, 5))
# 性别 vs 生存情况
survival_by_sex = df.groupby('Sex')['Survived'].mean()
bars = axes[0].bar(survival_by_sex.index, survival_by_sex.values,
color=['#1D9E75', '#E24B4A'])
axes[0].set_title('按性别划分的生存率免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。