牟瑞

大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我!

始于: 2013-06-09

发私信

1967

总声望

308

次被推荐

16

粉丝

他的回答
排序:

2
投票

【已解决】SSMS服务器连接异常

非常认可你的求证精神!点个赞,非常认真!好几年不玩SQL Server了,这个问题好像也没有人来回答,我就简单的回答下,都是个人的回忆和理解,有不对的地方,还想...

2015-08-29 10:40 回复了该问题
2
投票

哪位大神可以帮忙解决下反爬的问题

1.加header agent了么? 2.关闭cookies了么? 3.不停地换IP地址了么? 搞这3个,就搞定了绝大多数的反爬的问题。 其他的还有直接模拟各类...

2016-04-18 10:54 回复了该问题
2
投票

HADOOP工程师工作内容

简单的来说,hadoop的工作主要分为如下几类:1.Hadoop运维及其相关:主要是做Hadoop的集群安装,部署与维护等等。这类工作与Java关系不大,需要对...

2015-09-14 10:49 回复了该问题
2
投票

各位大神,利用数据仓库技术辅助统计分析,数据库中生成静态表再进行统计分析,这两个哪个效率高呢?

个人的一点经验,有不足,欢迎来讨论 首先数据仓库里面存放的数据是历史数据,历史数据也有数据量的区别,百万,千万,百G,上T等等,不同的数据仓库的数据规模对应着不...

2015-09-14 11:03 回复了该问题
2
投票

大数据BI有哪些?未来spark中会不会有可视化这块的模块?

BI这种概念,在我个人狭隘的观点里面只是存在在关系数据库,或者传统的行业里面,在所谓的大数据里面很少提BI的概念,更多的是提数据存储,数据处理,数据分析,数据挖...

2015-09-14 13:29 回复了该问题
2
投票

Kettle解析XML文件能否输入文件名

可以参考下 Kettle的参数配置:[url]http://www.flybi.net/blog/marey_marey111/2062[/url] 不过如果有...

2015-11-08 11:01 回复了该问题
2
投票

hive -e模式导出数据可以指定分隔符吗?

hive 0.11之前是不可以的,之后是可以的。 [code]insert overwrite local directory './test-04' row ...

2015-11-20 09:31 回复了该问题
2
投票

请教,kettle有没有公用的变量,我每个转换的java代码里都会用到同一个变量,不用在每个转换声明。求解决

当然有。可以在kettle.propertys里面设置一个参数,输入变量。

2015-09-01 12:18 回复了该问题
2
投票

kettle的图形界面能不能实现触发器机制

这个。。。。把MySQL的字段按如下设置: [code]CREATE TABLE `adminactlog` ( `id` bigint(20) NOT N...

2015-09-01 12:24 回复了该问题
2
投票

咨询个问题,我在一个表输入里面自己写join和使用工具提供的记录集连接来关联表有什么不同吗

自己写JOIN主要是用于比较直接的数据查询,可以通过两个直接的相互关系就能处理的数据。 而利用工具提供的记录集查询,适用于比较复杂的情况,比如字段里面的值是另外...

2015-09-01 15:16 回复了该问题
2
投票

本人现在需要用kettle抽取一个http协议的数据,源数据每天生成一个文件夹,文件夹下有多个txt文件,内容为json,有哪位大牛有类似的抽取demo么?

根据个人的实际项目经验。在这种方式下不建议使用Kettle来出来。因为Kettle毕竟只是一个工具。简单的请求HTTP数据是可以的,但是像你这么复杂的很多文件的...

2015-09-01 21:00 回复了该问题
2
投票

Cloudera manager为什么用python写agent而不用java?

python爱好者的名言:人生苦短,我用Python 我之前写过的一个博客,我转到了天善的博客中:我们为什么用Python [url]http://www.fl...

2015-11-09 10:37 回复了该问题
2
投票

请问我要用python爬取豆瓣的影评,但是那个影评在初始页面只有部分显示,要跳链接再在链接里提取文本 这个要怎么搞?

拿到这个链接地址,重新发起一个请求,把这个页面重新抓取下来。 [code]# coding=utf-8 __author__ = 'MuRui' # 引入相关...

2016-06-13 09:53 回复了该问题
2
投票

大家在做分析的时候 维度一般几个比较合适?

我不是这方面的专家,不过可以大概说一下我的理解。维度表更多是一些基础数据,元数据等相对稳定数据,如果我们仅仅是有限次的分析应用的话,可以根据实际的需求,减少指标...

2015-08-25 21:53 回复了该问题
2
投票

能否在etl项目中使用内存数据库,以提高性能?

谢谢邀请,简单的说一下个人对这块的认知。 首先,ETL过程在大部分的项目里面都是构建的是数据仓库,而数据仓库是面向历史数据的,一般数据量都比较大,即使是传统行业...

2015-09-16 08:29 回复了该问题

改版

反馈