作者 | 贺飞 公司介绍:有赞是一个商家服务公司,提供全行业全场景的电商解决方案。在有赞,大量的业务场景依赖对实时数据的处理,作为一类基础技术组件,服务着有赞内部几十个业务产品,几百个实时计算任务,其中包括交易数据大屏,商品实时统计分析,日志平台,调用链,风控等多个业务场景,本文将介绍有赞实时计算当前的发展历程和当前的实时计算技术架构。 1.实时计算在有赞发展 从技术栈的角度,我们的选择和大多数互联网公司一致,从早期的 Storm,到 JStorm, Spark Streaming 和最近兴起的 Flink。从发展…

2020年11月28日 0条评论 41点热度 阅读全文

Davinci既可作为公有云/私有云独立使用,也可作为可视化插件集成到三方系统。用户只需在可视化UI上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。 一、环境准备 JDK 1.8(或更高版本) MySql5.5(或更高版本) Mail Server PhantomJs(安装请参考:phantomjs.org) Redis(可选) 二、配置部署 1) 初始化目录,将下载好的 Davinci 包(Release 包,不是 Source 包)解压到某个系统目录,如:~/ap…

2020年11月28日 0条评论 80点热度 阅读全文

我有一个Hive表,其中为用户ID我有一个ts列,这是一个时间序列,存储为数组。我想把时间序列保持为最近的窗口。 (a)如何在由ID连接的另一个表中的每个列的末尾附加一个新的数字? (b)如何删除前导号码?如何追加到Hive数组? ===========解决方案如下: Hive中的数据通常存储在HDFS中。 HDFS具有有限的附加功能。如果数据的不断修改是分析系统的核心,那么您可能应该考虑使用HBase或Cassandra等替代方案。但是,如果数据更新只是您工作流程的一小部分,我会鼓励您继续使用Hive(为了使用S…

2020年11月28日 0条评论 80点热度 阅读全文

我有一个HiveQL查询,看起来像:数据类型转换错误 SELECT ID, CASE WHEN col_a = 0 THEN 0 ELSE (col_b/col_a) END AS math_is_fun FROM (/* derived query*/) AS x ; 当我在蜂巢执行此,我最近开始得到错误FAILED: Error in semantic analysis: Line X:Y ArgumentTypeMismatch 'col_a': The expression after ELSE shoul…

2020年11月28日 0条评论 44点热度 阅读全文

我将一个分区列添加到Spark Dataframe。新列包含年份的月份和日期。我的数据框中有一个时间戳列。 DataFrame dfPartition = df.withColumn("year", df.col("date").substr(0, 4)); dfPartition = dfPartition.withColumn("month", dfPartition.col("date").substr(6, 2)); dfPartition = dfPartition.withColumn("day", d…

2020年11月28日 0条评论 43点热度 阅读全文

为什么需要Luigi? 常见的资料处理流程可租略分成以下几步: 预处理: 整合不同来源的数据, 筛选相关的数据, 清洗数据, 标准化(normalization) 等处理 模型训练: 透过一些机器学习算法来建立模型 呈现或预测: 将训练得到的模型用于分析模式或是预测 刚开始你的资料处理流程可能是像这样依序地执行脚本 $ python get_data.py $ python clean_data.py $ python normalize.py $ python train.py $ python predict.…

2020年11月27日 0条评论 36点热度 阅读全文

很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。 import com.aliyun.odps.OdpsException; import com.aliyun.odps.data.Record; import com.ali…

2020年11月27日 0条评论 38点热度 阅读全文

作者 | 白松 注:本文为原创,引用转载需与数澜联系。 1、org.apache.giraph.bsp.CentralizedService 接口 功能:Basic service interface shared by both CentralizedServiceMaster and CentralizedServiceWorker. 2、org.apache.giraph.bsp.CentralizedServiceMaster接口 功能:At most, there will be one active m…

2020年11月27日 0条评论 22点热度 阅读全文

1. TDengine2.0之前的版本升级到2.0及以上的版本应该注意什么? 2.0版本在之前版本的基础上,进行了完全的重构,配置文件和数据文件是不兼容的。在升级之前务必进行如下操作: 删除配置文件,执行 sudo rm -rf /etc/taos/taos.cfg 删除日志文件,执行 sudo rm -rf /var/log/taos/ 确保数据已经不再需要的前提下,删除数据文件,执行 sudo rm -rf /var/lib/taos/安装最新稳定版本的TDengine 如果数据需要迁移数据或者数据文件损坏,请…

2020年11月27日 0条评论 22点热度 阅读全文

申请机器 联系OP同学申请机器,Linux服务器一台、三台、五台、(2*n+1),Zookeeper集群的工作是超过半数才能对外提供服务,3台中超过两台超过半数,允许1台挂掉 ,是否可用偶数,其实没必要。如果有四台那么挂掉一台还剩下三台服务器,如果在挂掉一个就不行了,这里记住是超过半数。找到如下 3 台机器: 10.159.1.40 10.159.1.41 10.159.1.42 安装基础环境 安装Java环境支持,需要安装sun-java8,不再赘述。 目录规划 首先要注意在生产环境中目录结构要定义好,防止在项目…

2020年11月27日 0条评论 106点热度 阅读全文