开发者问题收集
我编写了一个 Python 脚本,该脚本使用邮政编码调用美国国家海洋和大气管理局 (NOAA) 端点并获取响应中的气象站列表。然后,该脚本将响应转换为 Pandas 数据框。基于此Replit,我相信它已正常运行。数据框似乎已正确打印到控制台,我可以使用断点检查它。使用此博客教程作为指南,我的真正目标是在 Tableau Prep 流程中利用此 Python 脚本。 Tableau Prep 基本
我陷入困境,因为我无法将数据框列拆分为更多列,条件是另一个列值。我有一个 pandas 数据框,它是直接从包含超过 100K 行的“.csv”文件生成的。摘录 1:我想将列dca用“,”(逗号)拆分为更多列。拆分的数量将受n_mppts中的值限制。2023-04-12 编辑:我可以使用以下代码成功执行从此 .csv 文件生成的数据框中的拆分列操作(感谢@Abdulmajeed 的解决方案):def
我想对汽车价格进行均值插补,并且均值应基于汽车型号,因此我尝试根据汽车型号列对我的数据创建一个分组函数以进行均值插补,但出现此错误:TypeError:'DataFrameGroupBy'对象不支持项目分配我试过了grouped_df = df1.groupby('modele')def replace_zero_or_1000_with_nan(x):x[x == 0.0] = pd.np.na
我有一个名为“df”的数据框,如图所示。在这个数据框中,有“null”作为对象(dtype)和数字。我希望只对多列中的数字值进行四舍五入(2)。我已经编写了此代码,但一直收到“TypeError:'int'对象不可迭代”作为 TypeError。*第一行代码是将 na 转换为“null”,因为其他数字需要为数字 dtype。df['skor_change_w_ts']=pd.to_numeric(
我在将numpy.float64变量作为参数传递给pandas.Series.apply()时遇到了问题。有没有办法强制使用 pandas 版本的.mean()和.std()函数来满足 Pandas 的要求?代码def normalization(val_to_norm, col_mean, col_sd):return (val_to_norm - col_mean) / col_sdvotin
问题我想在数据框中逐行查找出现最大值的列名,但如果该行中的所有值都为零,我希望它返回一个空字符串或 NaN。我可以使用 idxmax 获取出现最大值的列,但如果所有值都相同,则使用它会返回第一个列名。我尝试在 df.apply lambda 中使用 idxmax,但无法使其工作。df = pd.DataFrame({'cat1':[1,3,0], 'cat2':[2,0,0], 'cat3':[2
在 StackOverflow 数据集上使用 apply() 方法时,我收到错误。我试图在“HOBBYIST”列中找到每个回复的长度。我使用的代码是:result = pd. read_csv ("survey_results_public.csv")result ["HOBBYIST"]. apply (len)我收到的错误是:TypeError:类型为“float”的对象没有 len()尽管“
Pyodbc 返回 TypeError:'NoneType' 对象不可迭代。但是,当我将 sql f 字符串复制并粘贴到 sql server 中时,我得到了数百万条记录。cnxn = pyodbc.connect('DRIVER={SQL Server};''SERVER=server;''DATABASE=db;')sql=f"exec dbo.storedproc '{AdmitDate_S
提前感谢您的帮助。我的python代码读取json输入文件并将数据加载到数据框中,屏蔽或更改配置指定的数据框列,并在最后阶段创建json输出文件。read json into data frame --> mask/change the df column ---> generate json输入json:[{"BinLogFilename": "mysql.log","Type": "UPDAT
这是我的数据框: INV_NUM LOCATION CREATED_DATE DATE_OPENED1 North 10/10/2020 10/11/20202 North 10/11/2020 10/11/20203 Sout
我正在使用 Panda read_csv。大多数行的最后一列缺少数据,如下面的示例所示。但在几行上,数据在那里。它似乎没有将其视为空值,而是将其视为 NAN。我试图创建一个 if 语句来仅显示该列中包含数据的行。(从美国运通提取到 CSV 的示例):01/01/2018 Mon,,"GOOGLE *SVCSAPPS_NEALW -[email protected], CA",NealWalter
我正在使用 Pandas 和 python(3) 处理一个数据集,我需要删除其中的空值,因此我尝试对该特定列取平均值来填充空值,但出现以下错误:TypeError: must be str, not int当我在 DataFrame 上调用.info()时,我得到的数据类型对象为:object如果您需要更多信息,这里是数据集的链接:https://www.kaggle.com/orgesleka/
我有一个数据框 (df),其中有一列名为Id,如下所示 Id0 31 672 3563:50 P451 P552 6785354 2该列的类型为:dtype: object我已经计算出最大 Id 值并将其分配给一个名为 maxId 的变量(该变量为 678,并且希望将按顺序增加的 maxId 应用于空元素,因此在此
我有一个大约有 60 列和 200 万行的数据框。有些列大部分是空的。我使用此函数计算了每列中空值的百分比。def missing_values_table(df):mis_val = df.isnull().sum()mis_val_percent = 100 * df.isnull().sum()/len(df)mis_val_table = pd.concat([mis_val, mis_v
我从我们的数据仓库中提取数据,将其存储在 parquet 文件中,然后将所有 parquet 文件加载到 spark 数据框中。到目前为止一切顺利。但是,当我尝试使用 pandas.plot() 函数绘制此图时,它会抛出一个“TypeError:空‘DataFrame’:没有要绘制的数字数据”因此,我开始向后调查我的源代码,我认为从我的初始 sql 语句转换为十进制是问题之一。但我不知道如何解决这