天善智能-商业智能和大数据在线社区，用心创造价值

2

投票

【已解决】SSMS服务器连接异常

非常认可你的求证精神！点个赞，非常认真！好几年不玩SQL Server了，这个问题好像也没有人来回答，我就简单的回答下，都是个人的回忆和理解，有不对的地方，还想...

2015-08-29 10:40 回复了该问题

2

投票

哪位大神可以帮忙解决下反爬的问题

1.加header agent了么？ 2.关闭cookies了么？ 3.不停地换ＩＰ地址了么？搞这３个，就搞定了绝大多数的反爬的问题。其他的还有直接模拟各类...

2016-04-18 10:54 回复了该问题

2

投票

HADOOP工程师工作内容

简单的来说,hadoop的工作主要分为如下几类：1.Hadoop运维及其相关：主要是做Hadoop的集群安装，部署与维护等等。这类工作与Java关系不大，需要对...

2015-09-14 10:49 回复了该问题

2

投票

各位大神，利用数据仓库技术辅助统计分析，数据库中生成静态表再进行统计分析，这两个哪个效率高呢？

个人的一点经验，有不足，欢迎来讨论首先数据仓库里面存放的数据是历史数据，历史数据也有数据量的区别，百万，千万，百G，上T等等，不同的数据仓库的数据规模对应着不...

2015-09-14 11:03 回复了该问题

2

投票

大数据BI有哪些？未来spark中会不会有可视化这块的模块？

BI这种概念，在我个人狭隘的观点里面只是存在在关系数据库，或者传统的行业里面，在所谓的大数据里面很少提BI的概念，更多的是提数据存储，数据处理，数据分析，数据挖...

2015-09-14 13:29 回复了该问题

2

投票

Kettle解析XML文件能否输入文件名

可以参考下 Kettle的参数配置：[url]http://www.flybi.net/blog/marey_marey111/2062[/url] 不过如果有...

2015-11-08 11:01 回复了该问题

2

投票

hive -e模式导出数据可以指定分隔符吗？

hive 0.11之前是不可以的，之后是可以的。 [code]insert overwrite local directory './test-04' row ...

2015-11-20 09:31 回复了该问题

2

投票

请教，kettle有没有公用的变量，我每个转换的java代码里都会用到同一个变量，不用在每个转换声明。求解决

当然有。可以在kettle.propertys里面设置一个参数，输入变量。

2015-09-01 12:18 回复了该问题

2

投票

kettle的图形界面能不能实现触发器机制

这个。。。。把MySQL的字段按如下设置： [code]CREATE TABLE `adminactlog` ( `id` bigint(20) NOT N...

2015-09-01 12:24 回复了该问题

2

投票

咨询个问题，我在一个表输入里面自己写join和使用工具提供的记录集连接来关联表有什么不同吗

自己写JOIN主要是用于比较直接的数据查询，可以通过两个直接的相互关系就能处理的数据。而利用工具提供的记录集查询，适用于比较复杂的情况，比如字段里面的值是另外...

2015-09-01 15:16 回复了该问题

2

投票

本人现在需要用kettle抽取一个http协议的数据，源数据每天生成一个文件夹，文件夹下有多个txt文件，内容为json，有哪位大牛有类似的抽取demo么？

根据个人的实际项目经验。在这种方式下不建议使用Kettle来出来。因为Kettle毕竟只是一个工具。简单的请求HTTP数据是可以的，但是像你这么复杂的很多文件的...

2015-09-01 21:00 回复了该问题

2

投票

Cloudera manager为什么用python写agent而不用java？

python爱好者的名言：人生苦短，我用Python 我之前写过的一个博客，我转到了天善的博客中：我们为什么用Python [url]http://www.fl...

2015-11-09 10:37 回复了该问题

2

投票

请问我要用python爬取豆瓣的影评，但是那个影评在初始页面只有部分显示，要跳链接再在链接里提取文本这个要怎么搞？

拿到这个链接地址，重新发起一个请求，把这个页面重新抓取下来。 [code]# coding=utf-8 __author__ = 'MuRui' # 引入相关...

2016-06-13 09:53 回复了该问题

2

投票

大家在做分析的时候维度一般几个比较合适？

我不是这方面的专家，不过可以大概说一下我的理解。维度表更多是一些基础数据，元数据等相对稳定数据，如果我们仅仅是有限次的分析应用的话，可以根据实际的需求，减少指标...

2015-08-25 21:53 回复了该问题

2

投票

能否在etl项目中使用内存数据库，以提高性能？

谢谢邀请，简单的说一下个人对这块的认知。首先，ETL过程在大部分的项目里面都是构建的是数据仓库，而数据仓库是面向历史数据的，一般数据量都比较大，即使是传统行业...

2015-09-16 08:29 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票