牟瑞

大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我!

始于: 2013-06-09

发私信

1967

总声望

308

次被推荐

16

粉丝

他的回答
排序:

2
投票

大数据的一些疑惑,希望专家帮忙解答,谢谢

再多的数据没有业务支撑也就是一堆二进制代码,很少的数据,也可以反映出问题的结果,所以对于传统的行业来说,大数据的关键不在于大和数,而是在于据。贴合业务,做到有根...

2015-09-21 21:26 回复了该问题
2
投票

大数据与传统数据仓库项目比的优势和劣势在什么地方

优势: 1.非结构化数据:在大数据的场景下,存放大量的非结构化数据,针对不同的业务场景来做分析应用 2.处理数据量更大,在大数据的数据仓库里面采用分布式来存放数...

2015-09-25 13:54 回复了该问题
2
投票

无编程经验学习Python做爬虫,目前遇到困难,请各位指点下?

1.如果抓取爬虫规模比较小的话,爬虫数据库推荐使用NoSQL的数据库,推荐mongodb.原因:在爬数据的时候,需求不确定,数据格式不确定,字段类型不确定的话,...

2015-10-15 07:24 回复了该问题
2
投票

kettle怎么在Linux上面开发?使用 VNC 连接到Linux图形界面开发,还是说在Windows上面开发了,再在Linux上面部署 ?

都可以的。你可以使用windows开发,注意下windows与linux的区别就可以:比如,路径,默认文件编码等等。 如果你的部属服务器是centos,你也可以...

2015-11-18 09:52 回复了该问题
2
投票

约 1亿条记录, 每条1k左右,key =>value形式,用于前台查询,选择什么作为存储方案比较合适呢,要求效率比较高并且相对稳定可靠?

简单的说下几种方案: 1.分库分表,读写分离: 将1亿条的数据按照某种规则拆开,存入多个不同的数据库中,读取的时候,根据Key来解析规则,直接去存放数据的sla...

2015-10-12 09:41 回复了该问题
2
投票

有哪位朋友知道进行Hadoop数据分析之前怎么把 数据 预处理成特定格式吗?

实际上这就是一个ETL的过程,最终拿到自己想要的数据格式。 处理数据不要局限于工具,开发语言,重点是数据本身。 工具类的你可以采用ETL工具,SSIS,kett...

2015-09-22 17:29 回复了该问题
2
投票

两台库都不在本地区,我在本地使用kettle在两库之前导数,需要经过我本地么?如何能提升性能?把kettle部署在哪里?

部署在什么地方,这个需要考虑很多的因素:比如网络。带宽,服务器性能等。提供思路,仅供参考: 1.部署在带宽比较大的地方,如果Kettle需要通过网络连接处理数据...

2015-08-28 10:30 回复了该问题
2
投票

列式数据库还是nosql数据库合适?

非常感谢你的邀请。 从你描述的业务场景上来说,我没有看到关系型数据库为何不符合要求。关系型数据库,列式数据库,nosql三种形式,我个人觉得都能满足你的要求,而...

2015-09-06 14:07 回复了该问题
2
投票

Kettle多添加几个控件,出现性能问题,该如何解决

1.增加kettle的内存大小 [attach]8082[/attach] 2.优化ETL流程 a.拆分处理到多个作业中 b.批量数据:对数据进行分...

2015-10-16 07:41 回复了该问题
2
投票

SSIS数据流中的"脚本组件"编辑的脚本没法运行,求大神解惑!!!!!!

我遇到过类似的问题。当时的操作是源项目工程文件是别人写的,复制到我本地其他都是可以的,就是脚本任务不可用。因此判断本地的SQL2008安装出现了问题,重新安装了...

2013-11-18 19:52 回复了该问题
2
投票

Hadoop求关键路径问题,如何编码

提供其中一种思路(使用关联分析法): 设这四种路径的情况为四个集合: set1: {A,B,C,D} set2: {B,C,E} set3: {A,D,B,C...

2015-09-28 10:37 回复了该问题
2
投票

用python写spark程序,能否做成在浏览器页面中敲代码然后执行看结果?

可以直接使用Ipython notebook就可以的。边执行,边输出结果! 但是有个问题就是,如果是WEB的,存在一个超时的问题,如果spark的计算超过60s...

2016-04-15 14:27 回复了该问题
2
投票

用r语言做文本挖掘的聚类,发现用k平均值法聚类的效果很差,大部分被分到了一类去。有什么好的聚类算法吗?

从个人的角度来说,聚类算法太多了!具体用哪一个,最主要的还是要结合你的具体的数据。 1.预测下或者你期望你的聚类会出现什么样的结果。 2.你的数据是不是噪声数据...

2016-04-08 09:48 回复了该问题
2
投票

推荐算法,大家用的比较多的是哪些啊

常用的推荐算法可以参考下面的链接 [url=http://www.flybi.net/blog/marey_marey111/2072]常用推荐算法的介绍与说明...

2015-10-13 09:48 回复了该问题
2
投票

各位大神 有什么好的办法解决sql server中跨服务器查询慢的办法吗

1.增加网络带宽,使网络传输数据更快。 2.提高I/O的吞吐率,固态硬盘等 3.提高并发处理能力,多核CPU. 4.优化数据库结构,表结构,字段,索引。 5.优...

2015-08-28 21:26 回复了该问题

改版

反馈