(探索性数据分析 第四部分)双变量分析——究竟哪些因素预测了泰坦尼克号上的幸存者?

发布日期:2026-04-21 09:20:02   浏览量 :0
发布日期:2026-04-21 09:20:02  
0

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

第 4 部分,共 5 部分 — 中级 → 高级

这是探索性数据分析中最令人兴奋的部分。我们在第 3 部分中单独学习了每个特征。现在我们提出真正的问题:谁幸存了下来,为什么?

类比 — 侦探揭示嫌疑人 🔍

夏洛克已经单独检查了每条线索。现在他开始将它们联系起来。

鞋子上的泥来自东花园,只有园丁在上午 9 点到 11 点之间使用过那里,而受害者最后一次被看到是在 10:30...

每一块碎片都相互关联。这就是双变量分析的作用。将特征彼此连接,并与结果连接。我们不再孤立地查看列,而是开始问:两列数据一起告诉我们什么?

真实的泰坦尼克号数据说明了什么?

让我们直接看看数据集中的实际数字:

群体 生存率
女性乘客 74%
男性乘客 19%
头等舱乘客 63%
二等舱乘客 47%
三等舱乘客 24%

不需要复杂的模型。只需使用 Pandas 库和几行代码,清晰的模式就会显现出来。

步骤 1:谁幸存了下来?特征与目标变量

import seaborn as sns
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# 性别 vs 生存情况
survival_by_sex = df.groupby('Sex')['Survived'].mean()
bars = axes[0].bar(survival_by_sex.index, survival_by_sex.values,
                   color=['#1D9E75', '#E24B4A'])
axes[0].set_title('按性别划分的生存率

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部