以下是我的示例数据。我需要通过给定的viewid与可用的productid合并。是否有可能使用coalesce?配置单元:通过单列合并 date viewid productid 5/1/17 100e9b59e70deb1493677845193 null 5/1/17 100e9b59e70deb1493677845193 12345 5/1/17 100e9b59e70deb1493677845193 null 结果: date viewid productid 5/1/17 100e9b59e70deb14…

2020年11月27日 0条评论 34点热度 阅读全文

记一次linux上安装配置flume1.8.0过程 1、安装jdk 需要1.6以上版本 参考文章 https://segmentfault.com/a/11... 2、下载flume 从官网下载压缩包:http://flume.apache.org/downl... 选择apache-flume-1.8.0-bin.tar.gz,选择镜像地址开始下载,如:wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bi…

2020年11月26日 0条评论 26点热度 阅读全文

我有以下Java Spark Hive Example,可以在官方apache / spark Github上找到。我花了很多时间来理解如何在Hortonworks Hadoop沙盒中运行示例,但没有成功。 目前,我正在执行以下操作: 在我的Maven项目中导入apache/spark examples,这工作正常,并且我没有遇到任何问题,所以我猜这里没有问题。 下一步是准备要在我的Hadoop沙箱中运行的代码-问题从这里开始,我可能设置了一些错误。这就是我正在做的: 将SparkSession设置为掌握本地,将s…

2020年11月26日 0条评论 46点热度 阅读全文

本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。 一.平台架构 1.Flink 应用时间线 首先是平台的架构,2018 年 3 月之前基本都是基于 Storm 和 Spark Streaming 来做的。目前,基本已经把 Spark Streaming 和 Storm 淘汰了,主要都是 Flink SQL 来做的。起初还比较传统,一般是接需求然后开发类似于 Flink SQL 的任务,基本是手工作坊操作模式。 后来…

2020年11月25日 0条评论 30点热度 阅读全文

我们很高兴地宣布 StreamNative 和 OVHcloud 开源了 “KoP“(Kafka on Pulsar)。KoP 将 Kafka 协议处理插件引入 Pulsar broker。这样一来,Apache Pulsar 就支持原生 Apache Kafka 协议。将 KoP 协议处理插件添加到现有 Pulsar 集群后,用户不用修改代码就可以将现有的 Kafka 应用程序和服务迁移到 Pulsar。这样,Kafka 应用程序就可以使用 Pulsar 的强大功能,例如: 利用企业级多租户特性简化运营。 避免数…

2020年11月25日 0条评论 139点热度 阅读全文

我在NiFi中建立了一个管道,在那里我得到JSON记录,然后用它向API发出请求。我得到的回应将包含数字和文本数据。然后我必须将这些数据写入Hive。我使用InferAvroSchema来推断模式。某些数字值是有符号值,如-2.46,-0.1虽然推断该类型,但处理器将它们视为string而不是double或float或decimal类型。Apache NiFi:InferAvroSchema推断字符串的有符号值 我知道我们可以在处理器中对我们的AVRO架构进行硬编码,但我认为通过使用InferAvroSchema使…

2020年11月25日 0条评论 23点热度 阅读全文

据我所知像一个从多选择蜂巢支持SQL处理,我这样的SQL:蜂巢SQL错误:在编译声明:失败:SemanticException异常而在蜂巢 FROM (SELECT DISTINCT a.td_id,a.brd,a.crt_at, b.imei FROM table_main as a LEFT JOIN (SELECT DISTINCT imei, td_id FROM table_device WHERE crt_at < '2016-12-01')b ON a.td_id=b.td_id)bb SELE…

2020年11月25日 0条评论 26点热度 阅读全文

我正在使用配置单元v.0.13。我真的需要hiveserver2吗? 我很迷惑hiveserver2的功能。如果我的数据是在hdfs中,我试图简单地使用“配置单元”CLI来创建外部表,而不需要启动hiveserver2,因此问题是否正确?还是我错过了什么?如果是,那么什么,如果不是,那么我什么时候需要hiveserver2? ===========解决方案如下: 从Hive 0.13开始,HiveServer2支持通过HTTP传输(HIVE-4752)发送Thrift RPC消息。这对于支持客户端和服务器之间的代理…

2020年11月25日 0条评论 28点热度 阅读全文

我为名为Zodiac的配置单元创建了一个UDF,然后添加了JAR文件并在配置单元中创建为临时函数。 我在Hive数据库中有一个名为Student的表,其中有50行 当我在 hive 命令提示符下给出以下命令时, Select Zodiac(Dateofbirth) from Student; 它返回正确的输出。我的问题是,当我发出上述命令时, 它会同时传递50条记录作为参数,还是会针对表的每一行执行上述SELECT语句。 提前致谢。 解决方案如下: 在您的情况下,Hive会精确地调用Zodiac UDF的evalu…

2020年11月25日 0条评论 20点热度 阅读全文

Apache Flink 概述 Apache Flink(以下简称Flink)是诞生于欧洲的一个大数据研究项目,原名StratoSphere。该项目是柏林工业大学的一个研究性项目,早期专注于批计算。2014年,StratoSphere项目中的核心成员孵化出Flink,并在同年将Flink捐赠Apache,后来Flink顺利成为Apache的顶级大数据项目。同时Flink计算的主流方向被定位为流计算,即用流式计算来做所有大数据的计算工作,这就是Flink技术诞生的背景。 2014年Flink作为主攻流计算的大数据引擎…

2020年11月24日 0条评论 31点热度 阅读全文
1345672000