再多的数据没有业务支撑也就是一堆二进制代码,很少的数据,也可以反映出问题的结果,所以对于传统的行业来说,大数据的关键不在于大和数,而是在于据。贴合业务,做到有根...
2015-09-21 21:26 回复了该问题优势: 1.非结构化数据:在大数据的场景下,存放大量的非结构化数据,针对不同的业务场景来做分析应用 2.处理数据量更大,在大数据的数据仓库里面采用分布式来存放数...
2015-09-25 13:54 回复了该问题1.如果抓取爬虫规模比较小的话,爬虫数据库推荐使用NoSQL的数据库,推荐mongodb.原因:在爬数据的时候,需求不确定,数据格式不确定,字段类型不确定的话,...
2015-10-15 07:24 回复了该问题都可以的。你可以使用windows开发,注意下windows与linux的区别就可以:比如,路径,默认文件编码等等。 如果你的部属服务器是centos,你也可以...
2015-11-18 09:52 回复了该问题简单的说下几种方案: 1.分库分表,读写分离: 将1亿条的数据按照某种规则拆开,存入多个不同的数据库中,读取的时候,根据Key来解析规则,直接去存放数据的sla...
2015-10-12 09:41 回复了该问题实际上这就是一个ETL的过程,最终拿到自己想要的数据格式。 处理数据不要局限于工具,开发语言,重点是数据本身。 工具类的你可以采用ETL工具,SSIS,kett...
2015-09-22 17:29 回复了该问题部署在什么地方,这个需要考虑很多的因素:比如网络。带宽,服务器性能等。提供思路,仅供参考: 1.部署在带宽比较大的地方,如果Kettle需要通过网络连接处理数据...
2015-08-28 10:30 回复了该问题非常感谢你的邀请。 从你描述的业务场景上来说,我没有看到关系型数据库为何不符合要求。关系型数据库,列式数据库,nosql三种形式,我个人觉得都能满足你的要求,而...
2015-09-06 14:07 回复了该问题1.增加kettle的内存大小 [attach]8082[/attach] 2.优化ETL流程 a.拆分处理到多个作业中 b.批量数据:对数据进行分...
2015-10-16 07:41 回复了该问题我遇到过类似的问题。当时的操作是源项目工程文件是别人写的,复制到我本地其他都是可以的,就是脚本任务不可用。因此判断本地的SQL2008安装出现了问题,重新安装了...
2013-11-18 19:52 回复了该问题提供其中一种思路(使用关联分析法): 设这四种路径的情况为四个集合: set1: {A,B,C,D} set2: {B,C,E} set3: {A,D,B,C...
2015-09-28 10:37 回复了该问题可以直接使用Ipython notebook就可以的。边执行,边输出结果! 但是有个问题就是,如果是WEB的,存在一个超时的问题,如果spark的计算超过60s...
2016-04-15 14:27 回复了该问题从个人的角度来说,聚类算法太多了!具体用哪一个,最主要的还是要结合你的具体的数据。 1.预测下或者你期望你的聚类会出现什么样的结果。 2.你的数据是不是噪声数据...
2016-04-08 09:48 回复了该问题常用的推荐算法可以参考下面的链接 [url=http://www.flybi.net/blog/marey_marey111/2072]常用推荐算法的介绍与说明...
2015-10-13 09:48 回复了该问题1.增加网络带宽,使网络传输数据更快。 2.提高I/O的吞吐率,固态硬盘等 3.提高并发处理能力,多核CPU. 4.优化数据库结构,表结构,字段,索引。 5.优...
2015-08-28 21:26 回复了该问题