|
24 | 24 | "在这个项目中,你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型,并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测---尤其是对房屋的价值。对于房地产经纪等人的日常工作来说,这样的预测模型被证明非常有价值。\n",
|
25 | 25 | "\n",
|
26 | 26 | "此项目的数据集来自[UCI机器学习知识库](https://archive.ics.uci.edu/ml/datasets/Housing)。波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理:\n",
|
27 |
| - "- 有16个`'MDEV'` 值为50.0的数据点被移除。 这很可能是由于这些数据点包含**遗失**或**看不到的值**。\n", |
| 27 | + "- 有16个`'MEDV'` 值为50.0的数据点被移除。 这很可能是由于这些数据点包含**遗失**或**看不到的值**。\n", |
28 | 28 | "- 有1个数据点的 `'RM'` 值为8.78. 这是一个异常值,已经被移除。\n",
|
29 |
| - "- 对于本项目,房屋的`'RM'`, `'LSTAT'`,`'PTRATIO'`以及`'MDEV'`特征是必要的,其余不相关特征已经被移除。\n", |
30 |
| - "- `'MDEV'`特征的值已经过必要的数学转换,可以反映35年来市场的通货膨胀效应。\n", |
| 29 | + "- 对于本项目,房屋的`'RM'`, `'LSTAT'`,`'PTRATIO'`以及`'MEDV'`特征是必要的,其余不相关特征已经被移除。\n", |
| 30 | + "- `'MEDV'`特征的值已经过必要的数学转换,可以反映35年来市场的通货膨胀效应。\n", |
31 | 31 | "\n",
|
32 | 32 | "运行下面区域的代码以载入波士顿房屋数据集,以及一些此项目所需的Python库。如果成功返回数据集的大小,表示数据集已载入成功。"
|
33 | 33 | ]
|
|
54 | 54 | "# Load the Boston housing dataset\n",
|
55 | 55 | "# 载入波士顿房屋的数据集\n",
|
56 | 56 | "data = pd.read_csv('housing.csv')\n",
|
57 |
| - "prices = data['MDEV']\n", |
58 |
| - "features = data.drop('MDEV', axis = 1)\n", |
| 57 | + "prices = data['MEDV']\n", |
| 58 | + "features = data.drop('MEDV', axis = 1)\n", |
59 | 59 | " \n",
|
60 | 60 | "# Success\n",
|
61 | 61 | "# 完成\n",
|
|
69 | 69 | "## 分析数据\n",
|
70 | 70 | "在项目的第一个部分,你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。\n",
|
71 | 71 | "\n",
|
72 |
| - "由于这个项目的最终目标是建立一个预测房屋价值的模型,我们需要将数据集分为**特征(features)**和**目标变量(target variable)**。**特征** `'RM'`, `'LSTAT'`,和 `'PTRATIO'`,给我们提供了每个数据点的数量相关的信息。**目标变量**:` 'MDEV'`,是我们希望预测的变量。他们分别被存在`features`和`prices`两个变量名中。" |
| 72 | + "由于这个项目的最终目标是建立一个预测房屋价值的模型,我们需要将数据集分为**特征(features)**和**目标变量(target variable)**。**特征** `'RM'`, `'LSTAT'`,和 `'PTRATIO'`,给我们提供了每个数据点的数量相关的信息。**目标变量**:` 'MEDV'`,是我们希望预测的变量。他们分别被存在`features`和`prices`两个变量名中。" |
73 | 73 | ]
|
74 | 74 | },
|
75 | 75 | {
|
|
79 | 79 | "## 练习:基础统计运算\n",
|
80 | 80 | "你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了` numpy `,你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。\n",
|
81 | 81 | "在下面的代码中,你要做的是:\n",
|
82 |
| - "- 计算`prices`中的`'MDEV'`的最小值、最大值、均值、中值和标准差;\n", |
| 82 | + "- 计算`prices`中的`'MEDV'`的最小值、最大值、均值、中值和标准差;\n", |
83 | 83 | "- 将运算结果储存在相应的变量中。"
|
84 | 84 | ]
|
85 | 85 | },
|
|
129 | 129 | "\n",
|
130 | 130 | "如前文所述,本项目中我们关注的是其中三个值:`'RM'`、`'LSTAT'` 和`'PTRATIO'`,对每一个数据点:\n",
|
131 | 131 | "- `'RM'` 是该地区中每个房屋的平均房间数量;\n",
|
132 |
| - "- `'LSTAT'` 是对该地区房屋所有者财富水平的衡量,该值越小说明该地区的房主越富裕;\n", |
| 132 | + "- `'LSTAT'` 是指该地区有多少百分比的房东属于是低收入阶层(有工作但收入微薄);\n", |
133 | 133 | "- `'PTRATIO'` 是该地区的中学和小学里,学生和老师的数目比(`学生/老师`)。\n",
|
134 | 134 | "\n",
|
135 |
| - "_凭直觉,上述三个特征中对每一个来说,你认为增大该特征的数值,`'MDEV'`的值会是**增大**还是**减小**呢?每一个答案都需要你给出理由。_\n", |
| 135 | + "_凭直觉,上述三个特征中对每一个来说,你认为增大该特征的数值,`'MEDV'`的值会是**增大**还是**减小**呢?每一个答案都需要你给出理由。_\n", |
136 | 136 | "\n",
|
137 | 137 | "**提示:**你预期一个`'RM'` 值是6的房屋跟`'RM'` 值是7的房屋相比,价值更高还是更低呢?"
|
138 | 138 | ]
|
|
526 | 526 | "| 特征 | 客戶 1 | 客戶 2 | 客戶 3 |\n",
|
527 | 527 | "| :---: | :---: | :---: | :---: |\n",
|
528 | 528 | "| 房屋内房间总数 | 5 间房间 | 4 间房间 | 8 间房间 |\n",
|
529 |
| - "| 家户净值(收入) | 前百分之 34 | 后百分之 45 | 前百分之 7 |\n", |
| 529 | + "| 社区贫困指数(%被认为是贫困阶层) | 17% | 32% | 3% |\n", |
530 | 530 | "| 邻近学校的学生-老师比例 | 15:1 | 22:1 | 12:1 |\n",
|
531 | 531 | "\n",
|
532 | 532 | "*你会建议每位客户的房屋销售的价格为多少?从房屋特征的数值判断,这样的价格合理吗?* \n",
|
|
545 | 545 | "outputs": [],
|
546 | 546 | "source": [
|
547 | 547 | "# Produce a matrix for client data\n",
|
548 |
| - "client_data = [[5, 34, 15], # Client 1\n", |
549 |
| - " [4, 55, 22], # Client 2\n", |
550 |
| - " [8, 7, 12]] # Client 3\n", |
| 548 | + "client_data = [[5, 17, 15], # Client 1\n", |
| 549 | + " [4, 32, 22], # Client 2\n", |
| 550 | + " [8, 3, 12]] # Client 3\n", |
551 | 551 | "\n",
|
552 | 552 | "# Show predictions\n",
|
553 | 553 | "for i, price in enumerate(reg.predict(client_data)):\n",
|
|
0 commit comments