Hive-文章 - 天善智能-商业智能和大数据在线社区，用心创造价值

1

推荐

1901

阅读

工作笔记-hive 变量

今天想到了一个方法，可以只用一个shell 和一个sql来做一个“模型”跑多个不同时间范围的数据，并插入到多个表。create table tmp_wlh_cc_***_${day_type}day_0...

liliwu 发布于奔跑的蜗牛 • 2017-04-28 20:24 评论(0)

1

推荐

2510

阅读

Hive导入10G数据的测试

前言Hadoop和Hive的环境已经搭建起来了，开始导入数据进行测试。我的数据1G大概对应500W行，MySQL的查询500W行大概3.29秒，用hive同样的查询大概30秒。如果我...

张丹发布于张丹的博客专栏 • 2017-04-28 14:22 评论(0)

0

推荐

2132

阅读

笔记-hive分区、桶、倾斜

--hive分区、桶、倾斜##marjs老师hive课程的听课笔记1、分区，是粗粒度的 partition by (par_col p...

liliwu 发布于奔跑的蜗牛 • 2017-04-27 01:08 评论(0)

0

推荐

1878

阅读

工作笔记-hive(1)-grouping sets

#工作杂记#维度：行业、仓库、全部行业、全部仓库#为减少tmp表使用grouping setsinsert overwrite table tpm_p1partition(pt_date='${hivevar:partition_day...

liliwu 发布于奔跑的蜗牛 • 2017-04-26 15:38 评论(0)

1

推荐

2416

阅读

R利剑NoSQL系列文章之 Hive

第四篇 R利剑Hive，分为5个章节。Hive介绍Hive安装RHive安装RHive函数库RHive基本使用操作1. Hive介绍Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系...

张丹发布于张丹的博客专栏 • 2017-04-25 15:42 评论(0)

0

推荐

2993

阅读

轻量级OLAP（二）：Hive + Elasticsearch

1. 引言在做OLAP数据分析时，常常会遇到过滤分析需求，比如：除去只有性别、常驻地标签的用户，计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-04-24 14:42 评论(0)

0

推荐

2589

阅读

【Kylin实战】Hive复杂数据类型与视图

1. 引言在分析广告日志时，会有这样的多维分析需求：曝光、点击用户分别有多少？标签能覆盖多少广告用户？各个标签（标注）类别能覆盖的曝光、点击在各个DSP...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-04-24 14:31 评论(0)

0

推荐

2544

阅读

分析函数-count() over(partition by)

在hive中验证count(*) over(partition by) 和 count(字段) over(partition by) 在字段存在空的情况下结果是没有区别的，oracle中，结果是不同的drop tab...

liliwu 发布于奔跑的蜗牛 • 2017-04-21 19:47 评论(0)

0

推荐

2018

阅读

Hive UDF初探

1. 引言在前一篇中，解决了Hive表中复杂数据结构平铺化以导入Kylin的问题，但是平铺之后计算广告日志的曝光PV是翻倍的，因为一个用户对应于多个标签。所以，...

Treant 发布于 Talk is Cheap的博客专栏 • 2017-04-19 09:33 评论(0)

3

推荐

11459

阅读

kettle+hive使用心得之Hadoop File Output

kettle作为etl工具同步数据到hive，直接使用表输出或者插入更新组件出现速度秒级一条的尴尬，为了解决这种输出端数据同步瓶颈及缓解给领导交代的窘态，在项目...

华青莲发布于日常点滴 • 2017-04-09 11:15 评论(0)

1

推荐

2067

阅读

Hive学习路线图

前言Hive是Hadoop家族中一款数据仓库产品，Hive最大的特点就是提供了类SQL的语法，封装了底层的MapReduce过程，让有SQL基础的业务人员，也可以直接利用Hadoop...

张丹发布于张丹的博客专栏 • 2017-04-05 09:20 评论(0)

1

推荐

2613

阅读

R语言高效的管道操作magrittr

R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语...

张丹发布于张丹的博客专栏 • 2017-03-10 14:33 评论(0)

2

推荐

2793

阅读

R语言中文分词包jiebaR

R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语...

张丹发布于张丹的博客专栏 • 2017-03-10 10:14 评论(0)

1

推荐

2865

阅读

R语言解读多元线性回归模型

R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语...

张丹发布于张丹的博客专栏 • 2017-03-10 09:14 评论(0)

1

推荐

2847

阅读

当R语言遇上Docker

R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语...

张丹发布于张丹的博客专栏 • 2017-03-09 13:19 评论(0)

Hive

工作笔记-hive 变量

Hive导入10G数据的测试

笔记-hive分区、桶、倾斜

工作笔记-hive(1)-grouping sets

R利剑NoSQL系列文章之 Hive

轻量级OLAP（二）：Hive + Elasticsearch

【Kylin实战】Hive复杂数据类型与视图

分析函数-count() over(partition by)

Hive UDF初探

kettle+hive使用心得之Hadoop File Output

Hive学习路线图

R语言高效的管道操作magrittr

R语言中文分词包jiebaR

R语言解读多元线性回归模型

当R语言遇上Docker

相关话题

713 人关注

最佳回复者

Hive

相关话题

713 人关注

最佳回复者

手机绑定