pandas分组后数据筛选失效的原因及解决方法
在使用pandas进行数据分析时,常常需要进行数据筛选和分组聚合操作。然而,有时会遇到一种情况:在groupby操作之前已经对数据进行了筛选,但groupby后的结果却包含了筛选条件之外的数据,这让人困惑不已。本文将针对这个问题,结合具体的代码示例进行分析和解答。
问题描述:
用户在使用pandas进行数据处理时,希望对“点击量”不为0的数据进行筛选,再根据“版本”、“分层”、“资源名称”进行分组求和。然而,即使在groupby之前已经进行了筛选(data_df[“点击量”] != 0),groupby后的结果仍然包含“点击量”为0的数据。重置索引也未能解决问题。
代码片段:
用户提供的代码片段如下:
# 上线天数分层data_hot_cli=data_df[ (data_df["销售盘量"]==0)& (data_df["点击量"]!=0)][["版本","资源名称", "上线天数","点击量","下载量","销售量","真实收入","原始收入"]]data_hot_cli["分层"]=pd.cut(data_hot_cli["上线天数"],bins=[0,15,23,27,45,70])data_hot_cli.reset_index(inplace=true,drop=true)del data_hot_cli['上线天数']data_hot_cli["真实收入"]=data_hot_cli["真实收入"].astype("int")data_hot_cli["原始收入"]=data_hot_cli["原始收入"].astype("int")# data_hot_cli=data_hot_cli.groupby(["版本","分层","资源名称"]).sum()# data_hot_cli=data_hot_cli.loc[data_hot_cli["点击量"]!=0]# data_hot_cli.reset_index(inplace=true)data_hot_cli
登录后复制
本文来自互联网或AI生成,不代表软件指南立场。本站不负任何法律责任。