Window Agg : Percent_Rank : Fails with Schema issue for Spark

Description

Pipeline :
BQ → WINDOW → BQ

Window Configs : Attaching screenshot
Percent_Rank: Percent_Rank(age,1,false)

The pipeline was SUCCESS in BQ pushdown while in SPARK mode it failed with :

2023-04-05 11:57:17,958 - ERROR [Executor task launch worker for task 0.0 in stage 2.0 (TID 1):o.a.s.u.Utils@94] - Aborting task
org.apache.avro.file.DataFileWriter$AppendWriteException: org.apache.avro.UnresolvedUnionException: Not in union ["float","null"]: 0.0
	at org.apache.avro.file.DataFileWriter.append(DataFileWriter.java:308)
	at io.cdap.plugin.gcp.bigquery.sink.AvroRecordWriter.write(AvroRecordWriter.java:90)
	at io.cdap.plugin.gcp.bigquery.sink.AvroRecordWriter.write(AvroRecordWriter.java:37)
	at io.cdap.plugin.gcp.bigquery.sink.BigQueryRecordWriter.write(BigQueryRecordWriter.java:58)
	at io.cdap.plugin.gcp.bigquery.sink.BigQueryRecordWriter.write(BigQueryRecordWriter.java:32)
	at io.cdap.cdap.etl.spark.io.TrackingRecordWriter.write(TrackingRecordWriter.java:41)
	at org.apache.spark.internal.io.HadoopMapReduceWriteConfigUtil.write(SparkHadoopWriter.scala:367)
	at org.apache.spark.internal.io.SparkHadoopWriter$.$anonfun$executeTask$1(SparkHadoopWriter.scala:137)
	at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1473)
	at org.apache.spark.internal.io.SparkHadoopWriter$.executeTask(SparkHadoopWriter.scala:134)
	at org.apache.spark.internal.io.SparkHadoopWriter$.$anonfun$write$1(SparkHadoopWriter.scala:88)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
	at org.apache.spark.scheduler.Task.run(Task.scala:131)
	at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:505)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1439)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:508)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:750)
Caused by: org.apache.avro.UnresolvedUnionException: Not in union ["float","null"]: 0.0
	at org.apache.avro.generic.GenericData.resolveUnion(GenericData.java:740)
	at org.apache.avro.generic.GenericDatumWriter.resolveUnion(GenericDatumWriter.java:205)
	at org.apache.avro.generic.GenericDatumWriter.writeWithoutConversion(GenericDatumWriter.java:123)
	at org.apache.avro.generic.GenericDatumWriter.write(GenericDatumWriter.java:75)
	at org.apache.avro.reflect.ReflectDatumWriter.write(ReflectDatumWriter.java:159)
	at org.apache.avro.generic.GenericDatumWriter.writeField(GenericDatumWriter.java:166)
	at org.apache.avro.specific.SpecificDatumWriter.writeField(SpecificDatumWriter.java:90)
	at org.apache.avro.reflect.ReflectDatumWriter.writeField(ReflectDatumWriter.java:191)
	at org.apache.avro.generic.GenericDatumWriter.writeRecord(GenericDatumWriter.java:156)
	at org.apache.avro.generic.GenericDatumWriter.writeWithoutConversion(GenericDatumWriter.java:118)
	at org.apache.avro.generic.GenericDatumWriter.write(GenericDatumWriter.java:75)
	at org.apache.avro.reflect.ReflectDatumWriter.write(ReflectDatumWriter.java:159)
	at org.apache.avro.generic.GenericDatumWriter.write(GenericDatumWriter.java:62)
	at org.apache.avro.file.DataFileWriter.append(DataFileWriter.java:302)
	... 18 common frames omitted
2023-04-05 11:57:18,736 - ERROR [Executor task launch worker for task 0.0 in stage 2.0 (TID 1):o.a.s.i.i.SparkHadoopWriter@73] - Task attempt_202304051157135320855339284043833_0019_r_000000_0 aborted.

Release Notes

None

Activity

Show:

Pinned fields

Click on the next to a field label to start pinning.

Details

Assignee

Unassigned

Reporter

Sanket Sahu

Affects versions

6.9.0

Priority

Major

Created April 5, 2023 at 12:06 PM

Updated April 5, 2023 at 12:06 PM

Configure