开发者问题收集

根据空值的百分比删除熊猫数据框中的列

2017-10-25
15476

我有一个大约有 60 列和 200 万行的数据框。有些列大部分是空的。 我使用此函数计算了每列中空值的百分比。

def missing_values_table(df): 
    mis_val = df.isnull().sum()
    mis_val_percent = 100 * df.isnull().sum()/len(df)
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    mis_val_table_ren_columns = mis_val_table.rename(
    columns = {0 : 'Missing Values', 1 : '% of Total Values'})
    return mis_val_table_ren_columns

现在我想删除缺失值超过 80%(例如)的列。我尝试了以下代码,但似乎不起作用。

df = df.drop(df.columns[df.apply(lambda col: col.isnull().sum()/len(df) > 0.80)], axis=1)

提前谢谢您。希望我没有遗漏一些非常基本的东西

我收到了这个错误

TypeError: ("'generator' object is not callable", u'occurred at index Unique_Key')

2个回答

您可以将 dropna() 与阈值参数一起使用

thresh = len(df) * .2
df.dropna(thresh = thresh, axis = 1, inplace = True)
Vaishali
2017-10-25
def missing_values(df, percentage):

    columns = df.columns
    percent_missing = df.isnull().sum() * 100 / len(df)
    missing_value_df = pd.DataFrame({'column_name': columns,
                                 'percent_missing': percent_missing})

    missing_drop = list(missing_value_df[missing_value_df.percent_missing>percentage].column_name)
    df = df.drop(missing_drop, axis=1)
    return df
Frederico Guerra
2018-11-18