注意:此页面搜索的是所有试题
国家开放大学大数据预处理复习题
对data数据采用等宽分箱,分组数为5组,结果保存在result中:
result=pd. (data,bins=5)

对数据data计算标准差,结果保存在result中:
result=data. ()

使用截断方法,将大于data_mean+5*data_std赋值为data_mean+5*data_std :
data[data. (data_mean+5*data_std)] = data_mean+5*data_std

将数据集data中的变量v1的缺失值使用其均值进行填补,将填补完的变量保存在v1_fill中:
v1_fill = data["v1"]. (data["v1"]. )

截取addr的前三个字,并查看唯一值:
addr. (0, 3).unique()

对数据集data中的所有变量进行Robust缩放,结果保存在data_scale中:
rob_scaler = ()
data_scale = rob_scaler. (data)

计算变量y与x的Spearman相关系数:
Spearman_xy = (y, x)

找出data中3000到10000的值,结果保存在result中:
result=data. &data.

计算离散化变量的各类频数,结果保存在result中:
data.

对group_a组和group_b组样本进行方差分析的F检验:
anova = (group_a, group_b)

请写出下方代码的功能
scaler = StandardScaler()
new_data = scaler.fit_transform(mydata)
print(pd.DataFrame({"Scale":scaler.scale_,"Mean":scaler.mean_}, index= mydata.columns))

请写出下方代码的功能
train, test = train_test_split(data, test_size=0.3)

请写出下方代码的功能
car_data = pd.read_csv(r"d:cardata.csv",header=0)
v1_fill = car_data["v1"].fillna(car_data["v1"].median())

请写出下方代码的功能
data_1 = copy.deepcopy(data)

请写出下方代码的功能
dt_example = pd.Series("")
dt_example[0] = "2020/01/20"
dt_example[1] = "2020/02/20"
dt_example = pd.to_datetime(dt_example, format = "%Y/%m/%d")