天善智能-商业智能和大数据在线社区，用心创造价值

2

投票

大数据的一些疑惑，希望专家帮忙解答，谢谢

再多的数据没有业务支撑也就是一堆二进制代码，很少的数据，也可以反映出问题的结果，所以对于传统的行业来说，大数据的关键不在于大和数，而是在于据。贴合业务，做到有根...

2015-09-21 21:26 回复了该问题

2

投票

大数据与传统数据仓库项目比的优势和劣势在什么地方

优势： 1.非结构化数据：在大数据的场景下，存放大量的非结构化数据，针对不同的业务场景来做分析应用 2.处理数据量更大，在大数据的数据仓库里面采用分布式来存放数...

2015-09-25 13:54 回复了该问题

2

投票

无编程经验学习Python做爬虫，目前遇到困难，请各位指点下?

1.如果抓取爬虫规模比较小的话，爬虫数据库推荐使用NoSQL的数据库，推荐mongodb.原因：在爬数据的时候，需求不确定，数据格式不确定，字段类型不确定的话，...

2015-10-15 07:24 回复了该问题

2

投票

kettle怎么在Linux上面开发？使用 VNC 连接到Linux图形界面开发，还是说在Windows上面开发了，再在Linux上面部署？

都可以的。你可以使用windows开发，注意下windows与linux的区别就可以：比如，路径，默认文件编码等等。如果你的部属服务器是centos，你也可以...

2015-11-18 09:52 回复了该问题

2

投票

约 1亿条记录, 每条1k左右，key =>value形式，用于前台查询，选择什么作为存储方案比较合适呢，要求效率比较高并且相对稳定可靠？

简单的说下几种方案： 1.分库分表，读写分离：将1亿条的数据按照某种规则拆开，存入多个不同的数据库中，读取的时候，根据Key来解析规则，直接去存放数据的sla...

2015-10-12 09:41 回复了该问题

2

投票

有哪位朋友知道进行Hadoop数据分析之前怎么把数据预处理成特定格式吗？

实际上这就是一个ETL的过程，最终拿到自己想要的数据格式。处理数据不要局限于工具，开发语言，重点是数据本身。工具类的你可以采用ETL工具，SSIS，kett...

2015-09-22 17:29 回复了该问题

2

投票

两台库都不在本地区，我在本地使用kettle在两库之前导数，需要经过我本地么？如何能提升性能？把kettle部署在哪里？

部署在什么地方，这个需要考虑很多的因素：比如网络。带宽，服务器性能等。提供思路，仅供参考： 1.部署在带宽比较大的地方，如果Kettle需要通过网络连接处理数据...

2015-08-28 10:30 回复了该问题

2

投票

列式数据库还是nosql数据库合适？

非常感谢你的邀请。从你描述的业务场景上来说，我没有看到关系型数据库为何不符合要求。关系型数据库，列式数据库，nosql三种形式，我个人觉得都能满足你的要求，而...

2015-09-06 14:07 回复了该问题

2

投票

Kettle多添加几个控件，出现性能问题，该如何解决

1.增加kettle的内存大小 [attach]8082[/attach] 2.优化ETL流程 a.拆分处理到多个作业中 b.批量数据：对数据进行分...

2015-10-16 07:41 回复了该问题

2

投票

SSIS数据流中的"脚本组件"编辑的脚本没法运行,求大神解惑!!!!!!

我遇到过类似的问题。当时的操作是源项目工程文件是别人写的，复制到我本地其他都是可以的，就是脚本任务不可用。因此判断本地的SQL2008安装出现了问题，重新安装了...

2013-11-18 19:52 回复了该问题

2

投票

Hadoop求关键路径问题，如何编码

提供其中一种思路（使用关联分析法）：设这四种路径的情况为四个集合： set1: {A,B,C,D} set2: {B,C,E} set3: {A,D,B,C...

2015-09-28 10:37 回复了该问题

2

投票

用python写spark程序，能否做成在浏览器页面中敲代码然后执行看结果？

可以直接使用Ipython notebook就可以的。边执行，边输出结果！但是有个问题就是，如果是WEB的，存在一个超时的问题，如果spark的计算超过60s...

2016-04-15 14:27 回复了该问题

2

投票

用r语言做文本挖掘的聚类，发现用k平均值法聚类的效果很差，大部分被分到了一类去。有什么好的聚类算法吗？

从个人的角度来说，聚类算法太多了！具体用哪一个，最主要的还是要结合你的具体的数据。 1.预测下或者你期望你的聚类会出现什么样的结果。 2.你的数据是不是噪声数据...

2016-04-08 09:48 回复了该问题

2

投票

各位大神有什么好的办法解决sql server中跨服务器查询慢的办法吗

1.增加网络带宽，使网络传输数据更快。 2.提高I/O的吞吐率，固态硬盘等 3.提高并发处理能力，多核CPU. 4.优化数据库结构，表结构，字段，索引。 5.优...

2015-08-28 21:26 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票