非常认可你的求证精神!点个赞,非常认真!好几年不玩SQL Server了,这个问题好像也没有人来回答,我就简单的回答下,都是个人的回忆和理解,有不对的地方,还想...
2015-08-29 10:40 回复了该问题1.加header agent了么? 2.关闭cookies了么? 3.不停地换IP地址了么? 搞这3个,就搞定了绝大多数的反爬的问题。 其他的还有直接模拟各类...
2016-04-18 10:54 回复了该问题简单的来说,hadoop的工作主要分为如下几类:1.Hadoop运维及其相关:主要是做Hadoop的集群安装,部署与维护等等。这类工作与Java关系不大,需要对...
2015-09-14 10:49 回复了该问题个人的一点经验,有不足,欢迎来讨论 首先数据仓库里面存放的数据是历史数据,历史数据也有数据量的区别,百万,千万,百G,上T等等,不同的数据仓库的数据规模对应着不...
2015-09-14 11:03 回复了该问题BI这种概念,在我个人狭隘的观点里面只是存在在关系数据库,或者传统的行业里面,在所谓的大数据里面很少提BI的概念,更多的是提数据存储,数据处理,数据分析,数据挖...
2015-09-14 13:29 回复了该问题可以参考下 Kettle的参数配置:[url]http://www.flybi.net/blog/marey_marey111/2062[/url] 不过如果有...
2015-11-08 11:01 回复了该问题hive 0.11之前是不可以的,之后是可以的。 [code]insert overwrite local directory './test-04' row ...
2015-11-20 09:31 回复了该问题当然有。可以在kettle.propertys里面设置一个参数,输入变量。
2015-09-01 12:18 回复了该问题这个。。。。把MySQL的字段按如下设置: [code]CREATE TABLE `adminactlog` ( `id` bigint(20) NOT N...
2015-09-01 12:24 回复了该问题自己写JOIN主要是用于比较直接的数据查询,可以通过两个直接的相互关系就能处理的数据。 而利用工具提供的记录集查询,适用于比较复杂的情况,比如字段里面的值是另外...
2015-09-01 15:16 回复了该问题根据个人的实际项目经验。在这种方式下不建议使用Kettle来出来。因为Kettle毕竟只是一个工具。简单的请求HTTP数据是可以的,但是像你这么复杂的很多文件的...
2015-09-01 21:00 回复了该问题python爱好者的名言:人生苦短,我用Python 我之前写过的一个博客,我转到了天善的博客中:我们为什么用Python [url]http://www.fl...
2015-11-09 10:37 回复了该问题拿到这个链接地址,重新发起一个请求,把这个页面重新抓取下来。 [code]# coding=utf-8 __author__ = 'MuRui' # 引入相关...
2016-06-13 09:53 回复了该问题我不是这方面的专家,不过可以大概说一下我的理解。维度表更多是一些基础数据,元数据等相对稳定数据,如果我们仅仅是有限次的分析应用的话,可以根据实际的需求,减少指标...
2015-08-25 21:53 回复了该问题谢谢邀请,简单的说一下个人对这块的认知。 首先,ETL过程在大部分的项目里面都是构建的是数据仓库,而数据仓库是面向历史数据的,一般数据量都比较大,即使是传统行业...
2015-09-16 08:29 回复了该问题