tag:apache-spark

Pyspark 中 RDD 到 DF 的转换不完整

使用 PySpark 1.6.3，我尝试将 RDD 转换为 Dataframe。这是在 Zeppelin 笔记本中运行的测试代码。感兴趣的 RDD 是rdd_ret。>>> from pyspark.sql import Row>>> rdd_ret.count()9301>>> rddofrows = rdd_ret.map(lambda x: Row(**x))>>> things = rdd

python apache-spark pyspark

2018-06-21

pyspark dataframe UDF 异常处理

我使用 Python 编写了一个要在 Spark 中使用的 UDF。此函数接受一个日期（以字符串形式，例如“2017-01-06”）和一个字符串数组（例如：[2017-01-26、2017-02-26、2017-04-17]）并返回自上次最近日期以来的天数。UDF 是def findClosestPreviousDate(currdate, date_list):date_format = "%Y

apache-spark exception pyspark apache-spark-sql user-defined-functions

2018-05-06

计算 PySpark 中列中的非空值

我有一个包含空值的数据框：from pyspark.sql import functions as Fdf = spark.createDataFrame([(125, '2012-10-10', 'tv'),(20, '2012-10-10', 'phone'),(40, '2012-10-10', 'tv'),(None, '2012-10-10', 'tv')],["Sales", "dat

apache-spark pyspark apache-spark-sql count null

2018-02-05

Pyspark 从数据框中的列中删除空值

我的 Dataframe 如下所示ID,FirstName,LastName1,Navee,Srikanth2,,Srikanth3,Naveen,现在我的问题陈述是我必须删除行号 2，因为 First Name 为空。我正在使用下面的 pyspark 脚本join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show()我收到错误 Fil

python hadoop apache-spark mapreduce pyspark

2017-06-23

Pyspark .toPandas() 导致对象列中预期为数字

我从我们的数据仓库中提取数据，将其存储在 parquet 文件中，然后将所有 parquet 文件加载到 spark 数据框中。到目前为止一切顺利。但是，当我尝试使用 pandas.plot() 函数绘制此图时，它会抛出一个“TypeError：空‘DataFrame’：没有要绘制的数字数据”因此，我开始向后调查我的源代码，我认为从我的初始 sql 语句转换为十进制是问题之一。但我不知道如何解决这

python pandas apache-spark parquet

2015-11-02

Minikube Docker 脚本中的权限被拒绝

我是 Minikube 和 Docker 的新手。我有一个 Minikube 设置，其中有三个 apache spark pod。一个 spark master 和两个 spark worker。我的 spark master 的 docker 文件如下，# base imageFROM openjdk:11# define spark and hadoop versionsENV SPARK_V

docker apache-spark kubernetes minikube

2022-10-07

EMR Serverless Spark 执行器超时

我有一个 EMR Serverless 应用程序，由于某种原因，它陷入了执行超时。我已经测试了所有 s3 连接，并且它正在运行。问题发生在执行 spark 表中的查询期间。EMR 版本是：emr-6.7.0同样的作业可以在 k8s 中的 spark 3.1.1 版本上运行，可能与版本有关。我的 spark 会话设置：spark = (SparkSession.builder.config("spa

apache-spark pyspark amazon-emr emr-serverless

2022-09-28

如何在本地模式下运行 Spark SQL Thrift Server 并使用 JDBC 连接到 Delta

我想使用 JDBC 连接到 Delta，并希望在本地模式下运行 Spark Thrift Server (STS) 以进行测试。我使用以下命令启动 STS：$SPARK_HOME/sbin/start-thriftserver.sh \--conf spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension \--conf spark.

apache-spark apache-spark-sql delta-lake spark-thriftserver

2021-11-06