注意:此页面搜索的是所有试题
国家开放大学大数据预处理复习题
通过画箱线图对数据data识别异常值:
data.plot. ()

对数据data计算平均值,结果保存在result中:
result=data. ()

对data数据采用等频分箱,分组数为5组,结果保存在result中:
result=pd. (data,bins=5)

将data离散化为0-1型变量,结果保存在result中:
result=data. eq(0).

car_data数据集中的make变量每一个类别的频数存储在make_count中,现在将car_data数据集中的make变量频数低于100的类别合并为一类:
car_data["make1"] = car_data["make"].map(
lambda x:"category_under100"
if else , na_action="ignore")

将data_1数据集age变量中的-1和999替换为缺失值:
data_1["age"]. ([-1, 999], np.nan, inplace=True)

对数据集data中的所有变量进行Max-ABS缩放,结果保存在data_scale中:
ma_scaler = ()
data_scale = ma_scaler. (data)

计算变量y与x的Pearson相关系数:
Pearson_xy = (y, x)

使用客观法离散化data,设定了参数为bins = [0, 10000, 100000, 200000, np.inf],标签为["new", "used", "old", "worn"],结果保存在result中:
result=pd.cut(data,bins=[0,10000,100000,200000,np.inf], ,include_lowest=True)

对数据data计算标准分数,data_mean是data的平均值,data_std是data的标准差,结果保存在result中:
result=(data- )/

对3倍标准差异常值分类计数,结果保存在result中:
result= data. ()

查看数据集car_data中所有变量缺失值情况,将结果保存在对象missing_car中:
missing_car = car_data. .sum()

使用boston数据实现线性回归模型填补。首先初始化一个线性回归模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型:
train = boston.dropna(subset=["LSTAT"])
reg = LinearRegression()
reg.fit(X=train. ("LSTAT", ), y=train["LSTAT"])

将数据集data中的所有变量缩放到区间[0,5],结果保存在data_scale中:
new_scaler = ( =(0,5))
data_scaler = new_scaler.fit_transform(data)

使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值:
auc = (y_true=test_y,
y_score=model_new. (test_x[var_new])[:,1])