Apache Spark计数记录每个组的空值

2019年7月2日 47点热度 0条评论 来源: Andrei Iatsuk

当我尝试计算每个组的记录数时,我发现该组具有空值但没有记录,但这是不正确的。Apache Spark计数记录每个组的空值

输入数据帧:

+--------+ 
| Name| 
+--------+ 
| Andrei| 
| Andrei| 
| null| 
| null| 
|Grigorii| 
+--------+ 

代码:

Dataset<Row> df = inputDf.groupBy("Name") 
      .agg(functions.count("Name").as("Name_count")); 

实际数据框:

+--------+----------+ 
| Name|Name_count| 
+--------+----------+ 
| null|   0| 
| Andrei|   2| 
|Grigorii|   1| 
+--------+----------+ 

预期的数据帧:

+--------+----------+ 
| Name|Name_count| 
+--------+----------+ 
| null|   2| 
| Andrei|   2| 
|Grigorii|   1| 
+--------+----------+ 

===========解决方案如下:

此作品:

Dataset<Row> storageFrame = leftDataset.groupBy("Name") 
      .agg(functions.count("*").as("Name_count")); 
    原文作者:Andrei Iatsuk
    原文地址: https://stackoverflow.com/q/47994280
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系管理员进行删除。