tag:dataframe

为什么在这种情况下 groupby 函数不起作用

我想对汽车价格进行均值插补，并且均值应基于汽车型号，因此我尝试根据汽车型号列对我的数据创建一个分组函数以进行均值插补，但出现此错误：TypeError：'DataFrameGroupBy'对象不支持项目分配我试过了grouped_df = df1.groupby('modele')def replace_zero_or_1000_with_nan(x):x[x == 0.0] = pd.np.na

2023-03-18

如何仅对带有对象混合的python数据框列中的数字进行舍入

我有一个名为“df”的数据框，如图所示。在这个数据框中，有“null”作为对象（dtype）和数字。我希望只对多列中的数字值进行四舍五入（2）。我已经编写了此代码，但一直收到“TypeError：'int'对象不可迭代”作为 TypeError。*第一行代码是将 na 转换为“null”，因为其他数字需要为数字 dtype。df['skor_change_w_ts']=pd.to_numeric(

python pandas dataframe rounding numeric

2022-11-30

查找最大值的列，但如果所有值都为零，则不返回任何值

问题我想在数据框中逐行查找出现最大值的列名，但如果该行中的所有值都为零，我希望它返回一个空字符串或 NaN。我可以使用 idxmax 获取出现最大值的列，但如果所有值都相同，则使用它会返回第一个列名。我尝试在 df.apply lambda 中使用 idxmax，但无法使其工作。df = pd.DataFrame({'cat1':[1,3,0], 'cat2':[2,0,0], 'cat3':[2

python pandas dataframe

2021-08-12

在 Pandas 中应用方法显示错误的数据类型

在 StackOverflow 数据集上使用 apply() 方法时，我收到错误。我试图在“HOBBYIST”列中找到每个回复的长度。我使用的代码是：result = pd. read_csv ("survey_results_public.csv")result ["HOBBYIST"]. apply (len)我收到的错误是：TypeError：类型为“float”的对象没有 len()尽管“

python python-3.x pandas dataframe

2021-06-02

TypeError：NAType 类型的对象不是 JSON 可序列化的

提前感谢您的帮助。我的python代码读取json输入文件并将数据加载到数据框中，屏蔽或更改配置指定的数据框列，并在最后阶段创建json输出文件。read json into data frame --> mask/change the df column ---> generate json输入json：[{"BinLogFilename": "mysql.log","Type": "UPDAT

python pandas dataframe numpy python-3.8

2020-12-22

替换分组和条件内的列值

我有一个数据框，我想在其中找到一个组内某一列的最小值，然后基于该行更新其他一些列的值。以下代码可实现我想要的功能：import pandas as pddf = pd.DataFrame({'ID': [1,1,1,2,2,2,],'Albedo': [0.2, 0.4, 0.5, 0.3, 0.5, 0.1],'Temp' : [20, 30, 15, 40, 10, 5],'Precip':

python pandas dataframe group-by pandas-groupby

2018-01-08

更改列中的所有第一个值，从其他列分组

我有 2 列 - _a、_b。import numpy as npimport pandas as pddf = pd.DataFrame({'_a':[1,1,1,2,2,3,3],'_b':[3,4,5,3,3,3,9]})df_a _b0 1 31 1 42 1 53 2 34 2 35 3 36 3 9我需要将 _b 列中的第一个值

python pandas dataframe group-by pandas-groupby

2018-05-20

根据 Pandas 中其他列的相应值替换列值

我正在尝试根据列替换列的值。例如col1在前 5 行中有值，而col2中有值，因此根据 col2 更新 col1 值。接下来的五行，col1 中没有值，但 col2 有值，只需跳过这些行，不需要更新 col1，依此类推。df9["col1"].replace(["s1"], "data_value", inplace=True)我使用了用另一个值替换 pandas dataframe 列中的几个值

python-3.x pandas dataframe pandas-groupby

2019-01-04

如何使用groupby.first（）将数据框列的值替换为另一列的值？

我有这样的 df： Value1 Value22008-01-01 -1 42008-01-01 -1 52008-01-03 -1 62008-02-25 0 72008-02-26 -1 82008-02-2

python pandas dataframe replace pandas-groupby

2020-02-19

用第一行值替换每个组中的行。Pandas Groupby

这是一个数据框：df = pd.DataFrame({'A' : ['foo', 'foo', 'bar', 'bar', 'bar'],'B' : ['1', '2','2', '4', '1']})下面是我希望它看起来的样子，这是我尝试过但失败了的方法。groups = df.groupby([A])groups.apply(lambda g: g[g[B] == g[B].first()])

pandas dataframe pandas-groupby

2020-05-13

将多个 CSV 文件导入 pandas 并连接成一个 DataFrame

我想将目录中的几个 CSV 文件读入 pandas 并将它们连接成一个大的 DataFrame。但我还没能搞清楚。这是我目前所得到的：import globimport pandas as pd# Get data file namespath = r'C:\DRO\DCL_rawdata_files'filenames = glob.glob(path + "/*.csv")dfs = []fo

python pandas csv dataframe concatenation

2014-01-03

Pandas - DataFrame 对象不可调用

我有以下代码：df(df.Sex=='male')我收到一条错误，指出 DataFrame 对象不可调用。我该如何解决这个问题？

python pandas dataframe

2017-08-01

NameError：名称“tabula”未在 python 中定义

我尝试使用 tabula 包从 pdf 中提取表格并将输出写入 csv，不幸的是，下面的代码给了我一个错误“NameError：名称‘tabula’未定义”如何解决此问题代码：!pip install tabula-pyfrom tabula import read_pdffrom tabula.io import read_pdffile = r"url"df = read_pdf(file,

python dataframe tabula

2021-03-15

Python 脚本在 jupyter notebook 上运行但在本地不运行

该代码在 replit.com 和 jupyter notebook 中运行良好，但在我的本地环境中却无法运行。我不明白为什么。它要么说：名称“elem”未定义（第 61 行），要么说空 DataFrame 列：[price] 索引：[]。代码：...url = "https://www.bitmex.com/api/v1/trade"filters = {'startTime': td}par

python pandas dataframe

2021-12-27