kaggle机器学习入门(五)随机森林
介绍 决策树让你面临一个难以决定的问题。一个带有很多叶子的深树会过度拟合,因为每个预测只来自于其叶子上的几栋房屋的历史数据。但是,叶子较少的浅树性能表现不佳,因为它无法捕捉原始数据中的许多差异。 即使是今天最先进的建模技术也面临着欠拟合和过拟合之间的紧张关系。但是,许多模型都有巧妙的想法,可以带来更好的性能。我们将以随机森林为例。 随机森林使用多棵树,并通过平均每个组件树的预测来进行预测。它通常比单个决策树具有更好的预测准确性,并且在默认参数下工作得很好。如果你继续建模,你可以学习更多性能更好的模型,但其中许多模型对于获得正确的参数非常敏感。 例子 你已经多次看到了加载数据的代码。在数据加载结束时,我们有以下变量: train_X val_X train_y val_y import pandas as pd # Load data melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' melbourne_data = pd.read_csv(melbourne_file_path) #....