Hive

  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

1
推荐
1652
阅读

工作笔记-hive 变量

今天想到了一个方法,可以只用一个shell 和一个sql来做一个“模型”跑多个不同时间范围的数据,并插入到多个表。create table tmp_wlh_cc_***_${day_type}day_0...
1
推荐
2071
阅读

Hive导入10G数据的测试

前言Hadoop和Hive的环境已经搭建起来了,开始导入数据进行测试。我的数据1G大概对应500W行,MySQL的查询500W行大概3.29秒,用hive同样的查询大概30秒。如果我...
0
推荐
1961
阅读

笔记-hive分区、桶、倾斜

--hive分区、桶、倾斜##marjs老师hive课程的听课笔记1、分区,是粗粒度的                partition by (par_col p...
0
推荐
1709
阅读

工作笔记-hive(1)-grouping sets

#工作杂记#维度:行业、仓库、全部行业、全部仓库#为减少tmp表 使用grouping setsinsert overwrite table tpm_p1partition(pt_date='${hivevar:partition_day...
1
推荐
2146
阅读

R利剑NoSQL系列文章 之 Hive

第四篇 R利剑Hive,分为5个章节。Hive介绍Hive安装RHive安装RHive函数库RHive基本使用操作1. Hive介绍Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系...
0
推荐
2722
阅读

轻量级OLAP(二):Hive + Elasticsearch

1. 引言在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类...
0
推荐
2270
阅读

【Kylin实战】Hive复杂数据类型与视图

1. 引言在分析广告日志时,会有这样的多维分析需求:曝光、点击用户分别有多少?标签能覆盖多少广告用户?各个标签(标注)类别能覆盖的曝光、点击在各个DSP...
0
推荐
2285
阅读

分析函数-count() over(partition by)

在hive中验证count(*) over(partition by) 和 count(字段) over(partition by) 在字段存在空的情况下结果是没有区别的,oracle中,结果是不同的drop tab...
0
推荐
1764
阅读

Hive UDF初探

1. 引言在前一篇中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签。所以,...
3
推荐
10870
阅读

kettle+hive使用心得之Hadoop File Output

kettle作为etl工具同步数据到hive,直接使用表输出或者插入更新组件出现速度秒级一条的尴尬,为了解决这种输出端数据同步瓶颈及缓解给领导交代的窘态,在项目...
1
推荐
1767
阅读

Hive学习路线图

前言Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop...
1
推荐
2329
阅读

R语言高效的管道操作magrittr

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语...
2
推荐
2524
阅读

R语言中文分词包jiebaR

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语...
1
推荐
2603
阅读

R语言解读多元线性回归模型

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语...
1
推荐
2410
阅读

当R语言遇上Docker

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语...

相关话题

713 人关注

最佳回复者

改版

反馈