Kylin配置Spark并构建Cube

大数据89

HDP版本:2.6.4.0
Kylin版本:2.5.1
机器:三台 CentOS-7,8G 内存
Kylin 的计算引擎除了 MapReduce ,还有速度更快的 Spark ,本文就以 Kylin 自带的示例 kylin_sales_cube 来测试一下 Spark 构建 Cube 的速度。

一、配置Kylin的相关Spark参数

在运行 Spark cubing 前,建议查看一下这些配置并根据集群的情况进行自定义。下面是建议配置,开启了 Spark 动态资源分配:

```properties

Spark conf (default is in spark/conf/spark-defaults.conf)

kylin.engine.spark-conf.spark.master=yarn
kylin.engine.spark-conf.spark.submit.deployMode=cluster
kylin.engine.spark-conf.spark.yarn.queue=default
kylin.engine.spark-conf.spark.driver.memory=2G
kylin.engine.spark-conf.spark.executor.memory=4G
kylin.engine.spark-conf.spark.executor.instances=40
kylin.engine.spark-conf.spark.yarn.executor.memoryOverhead=1024
kylin.engine.spark-conf.spark.shuffle.service.enabled=true
kylin.engine.spark-conf.spark.eventLog.enabled=true

输入验证码查看隐藏内容

扫描二维码关注本站微信公众号 Johngo学长
或者在微信里搜索 Johngo学长
回复 svip 获取验证码
wechat Johngo学长

相关文章
大数据

presto安装部署教程

1.下载安装包 并解压到安装目录 ,进入安装目录,创建配置etc目录 2.配置config.properties 进入安装目录,增加配置文件config.properties vi config.pr...
大数据

Flink cdc+ doris 大宽表实践~

还没整理好,别慌。 一,业务问题: 多个表关联join(涉及时间维度跨度很长),几乎等同于全量关联,这个时候flink sql join没法做,因为state会无线增大,然后OOM。 二,解决方案 :...
大数据

windows搭建kafka

下载文件 1.1 zookeeper安装文件 a) 下载地址 Apache Downloads b) 版本 选择最新的就行 1.2 kafka安装文件(选择二进制的压缩文件) a) 下载地址 Apac...
大数据

ES: WeakSet

[对象、Map、Set、WeakMap、WeakSet 对象、Map、Set、WeakMap、WeakSet本文写于 2020 年 11 月 24 日总的来说,Set 和 Map 主要的应用场景分别在...
大数据

分模块实现SSM框架整合

前言 大型Java项目都需要根据项目功能进行工程的细化; Maven项目多模块是用项目层次的划分,替代简单的包层次的划分,遵循了高内聚,低耦合的设计模式; 工程细化的思想:分Java文件-------...
大数据

alpakka-kafka(9)-kafka在分布式运算中的应用

kafka具备的分布式、高吞吐、高可用特性,以及所提供的各种消息消费模式可以保证在一个多节点集群环境里消息被消费的安全性:即防止每条消息遗漏处理或重复消费。特别是exactly-once消费策略:可以...