牟瑞

大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我!

始于: 2013-06-09

发私信

1967

总声望

308

次被推荐

16

粉丝

他的回答
排序:

1
投票

请问 SparkContext的 textfile 如何使用正确的中文编码加载内容?好像默认没有这类参数 , 中文好像加载进来都乱码了。。。求大神支招。。

中文乱码的问题有很多种,主要是看是哪种类型的乱码,如果是字符乱码,可以采用utf8转码的方式,如果是url请求的方式乱码,可以采用urldecode的方式来解码...

2015-09-25 13:22 回复了该问题
1
投票

各位大神,对kettle性能优化方面有什么建议

kettle只是一个工具。对于一个工具的使用来说,无非就是内存,CPU,磁盘IO,网络带宽等几个主要的方面。 但是对于一个ETL过程来说,优化的内容就非常多了,...

2016-06-15 08:47 回复了该问题
1
投票

请问python使用urllib2爬虫时,出现HTTP Error 505: HTTP Version Not Supported该怎么处理?

一般造成这种情况是你提交到服务器的请求在服务端无法得到解析。可能存在以下几种情况: 1.使用IP抓取网页。目标网站只能使用域名去解析,直接使用IP地址去访问就去...

2016-06-29 08:41 回复了该问题
1
投票

pv,uv数据存在hdfs上,但是平均数,中位数,标准差,这些数值目前我们是跑python脚本去跑计算这3个数,你们有什么好方法么?

看你的数据要求精度,如果要求的不是很高,这种方式也是可以的。 如果要求的很好,实时处理什么的,可以采用阶段累加的方式计算相应的指标。一般也都是需要写脚本就计算。...

2016-04-06 17:34 回复了该问题
1
投票

Fitnesse python怎么获取返回值?

Fitnesse没有真心没有用过。。仅就问题解答,希望能帮助你。 获取返回值应该是直接用返回变量就可以了吧? result1,result2 = method(...

2016-06-01 09:38 回复了该问题
1
投票

如何自动备份数据库后将备份自动上传到FTP服务器

写一个脚本,定期执行数据库备份,上传备份日志到FTP服务器,删除备份的操作。

2015-09-21 21:28 回复了该问题
1
投票

请问下一个job调用多个ktr,执行顺序能设定吗

两种方式:1.新建一个作业,然后通过作业里面配置的执行顺序来确定ktr的执行顺序 [attach]8045[/attach] 2.通过shell脚本控制...

2015-10-15 07:30 回复了该问题
1
投票

谁知道ETL里边的sql执行和sql输入 在kettle里边是那个步骤啊 请大神赐教啊

1.在作业(Job)里面的SQL执行,如下图所示: [attach]7862[/attach] 2.在转换(Transform)中有SQL执行和SQL输...

2015-10-11 11:53 回复了该问题
1
投票

请教大家一个问题。KETTLE能不能做到不用写SQL。直接通过选择字段钩选来配置交换任务

kettle作为一个开源的ETL工具,应用十分广泛,经过开源社区的不断努力,kettle支持了非常多的数据源。在这些数据源中,有文本,数据仓库,非结构化数据,结...

2015-10-11 12:02 回复了该问题
1
投票

kettle 操作mysql 数据库数据导入,怎样禁用外键

可以变通的方式实现! 在输出的时候输出到一个临时表中。然后调用SQL组件,然后执行 SET foreign_key_checks = 0 从临时表导入数据 SE...

2016-04-06 17:46 回复了该问题
1
投票

问下我有多个数据库都需要抽数据,每个数据的表结构都是一样的,数据库的数量也可能增加,我能不能给kettle一个数据库连接的配置文件,让kettle从上往下读取数据库信息列表挨个抽数据呢

在这里提供两种思路: 思路1:利用脚本解析配置文件,然后将数据库的连接配置,作为参数传递给kettle作业,然后批量执行 [code]pan.sh -fil...

2015-10-11 12:17 回复了该问题
1
投票

python用什么库对py打包比较好?

python作为一个优秀的数据处理语言,在WinForm上面不是它的强项,如果实在需要展示,推荐web from 另外推荐python notebook 如果你...

2015-10-15 10:01 回复了该问题
1
投票

请问kettle的MaxPermSize内存参数最大支持多少呢?有限制么 kettle是64位的么 java虚拟机的内存最大值是否有限制呢

这个取决于你的JDK的版本和操作系统,如果都是64位的,那内存是没有限制的。。服务器有多大的内容,默认都能吃下多大的内存,当然为了避免资源过度紧张,一般最大设置...

2016-04-06 17:48 回复了该问题
1
投票

新人请教各位老师,Oracle如何将查询的结果放入一张自定义表中并再查询数据

1.INSERT INTO SELECT语句 语句形式为:Insert into Table2(field1,field2,...) select value1...

2015-10-11 13:29 回复了该问题
1
投票

海量数据访问,如何对1000000000000数据量的数据集进行随机汇总操作?

如果真有那么大的数据量的,可以换一种思路,所谓的大数据,包括map/reduce的思想,其实就是“分而治之”,比如你把100000万亿的数据分成1万份,然后根据...

2015-09-25 14:28 回复了该问题

改版

反馈