开发者问题收集
我想对汽车价格进行均值插补,并且均值应基于汽车型号,因此我尝试根据汽车型号列对我的数据创建一个分组函数以进行均值插补,但出现此错误:TypeError:'DataFrameGroupBy'对象不支持项目分配我试过了grouped_df = df1.groupby('modele')def replace_zero_or_1000_with_nan(x):x[x == 0.0] = pd.np.na
我有一个名为“df”的数据框,如图所示。在这个数据框中,有“null”作为对象(dtype)和数字。我希望只对多列中的数字值进行四舍五入(2)。我已经编写了此代码,但一直收到“TypeError:'int'对象不可迭代”作为 TypeError。*第一行代码是将 na 转换为“null”,因为其他数字需要为数字 dtype。df['skor_change_w_ts']=pd.to_numeric(
问题我想在数据框中逐行查找出现最大值的列名,但如果该行中的所有值都为零,我希望它返回一个空字符串或 NaN。我可以使用 idxmax 获取出现最大值的列,但如果所有值都相同,则使用它会返回第一个列名。我尝试在 df.apply lambda 中使用 idxmax,但无法使其工作。df = pd.DataFrame({'cat1':[1,3,0], 'cat2':[2,0,0], 'cat3':[2
在 StackOverflow 数据集上使用 apply() 方法时,我收到错误。我试图在“HOBBYIST”列中找到每个回复的长度。我使用的代码是:result = pd. read_csv ("survey_results_public.csv")result ["HOBBYIST"]. apply (len)我收到的错误是:TypeError:类型为“float”的对象没有 len()尽管“
提前感谢您的帮助。我的python代码读取json输入文件并将数据加载到数据框中,屏蔽或更改配置指定的数据框列,并在最后阶段创建json输出文件。read json into data frame --> mask/change the df column ---> generate json输入json:[{"BinLogFilename": "mysql.log","Type": "UPDAT
我有一个数据框,我想在其中找到一个组内某一列的最小值,然后基于该行更新其他一些列的值。以下代码可实现我想要的功能:import pandas as pddf = pd.DataFrame({'ID': [1,1,1,2,2,2,],'Albedo': [0.2, 0.4, 0.5, 0.3, 0.5, 0.1],'Temp' : [20, 30, 15, 40, 10, 5],'Precip':
我有 2 列 - _a、_b。import numpy as npimport pandas as pddf = pd.DataFrame({'_a':[1,1,1,2,2,3,3],'_b':[3,4,5,3,3,3,9]})df_a _b0 1 31 1 42 1 53 2 34 2 35 3 36 3 9我需要将 _b 列中的第一个值
我正在尝试根据列替换列的值。例如col1在前 5 行中有值,而col2中有值,因此根据 col2 更新 col1 值。接下来的五行,col1 中没有值,但 col2 有值,只需跳过这些行,不需要更新 col1,依此类推。df9["col1"].replace(["s1"], "data_value", inplace=True)我使用了用另一个值替换 pandas dataframe 列中的几个值
我有这样的 df: Value1 Value22008-01-01 -1 42008-01-01 -1 52008-01-03 -1 62008-02-25 0 72008-02-26 -1 82008-02-2
这是一个数据框:df = pd.DataFrame({'A' : ['foo', 'foo', 'bar', 'bar', 'bar'],'B' : ['1', '2','2', '4', '1']})下面是我希望它看起来的样子,这是我尝试过但失败了的方法。groups = df.groupby([A])groups.apply(lambda g: g[g[B] == g[B].first()])
我想将目录中的几个 CSV 文件读入 pandas 并将它们连接成一个大的 DataFrame。但我还没能搞清楚。这是我目前所得到的:import globimport pandas as pd# Get data file namespath = r'C:\DRO\DCL_rawdata_files'filenames = glob.glob(path + "/*.csv")dfs = []fo
我有以下代码:df(df.Sex=='male')我收到一条错误,指出 DataFrame 对象不可调用。我该如何解决这个问题?
我尝试使用 tabula 包从 pdf 中提取表格并将输出写入 csv,不幸的是,下面的代码给了我一个错误“NameError:名称‘tabula’未定义”如何解决此问题代码:!pip install tabula-pyfrom tabula import read_pdffrom tabula.io import read_pdffile = r"url"df = read_pdf(file,
该代码在 replit.com 和 jupyter notebook 中运行良好,但在我的本地环境中却无法运行。我不明白为什么。它要么说:名称“elem”未定义(第 61 行),要么说空 DataFrame 列:[price] 索引:[]。代码:...url = "https://www.bitmex.com/api/v1/trade"filters = {'startTime': td}par