A. Hadoop + Hive 支持新增节点,过程中不需要重启 支持jdbc访问hive数据库 支持sql的方式获取数据 在技术过程中,数据是以批量的方式...
2015-11-30 13:25 回复了该问题1.使用SSIS+ SQL Agent代理来完成自动部署 2.使用C#编程,通过ascmd.net来访问cube,并完成部署功能
2015-11-13 13:07 回复了该问题mongodb是自动分片,可以不需要参考mysql的分表。 mongodb的文档大小是16m,这个在存储你的文章或附件时需要考虑下。 最简单的内嵌结构: { ...
2015-11-10 13:34 回复了该问题Hadoop集群的数据传输不能简单地理解是加快速度。 集群里面的数据在内部是数据块 你上传的一个文件,有可能会被分割为好几个数据块。 组播技术在Hadoop...
2015-11-24 13:40 回复了该问题spark的任务调度方面可以选择配置yarn作为计算框架。 在任务依赖调度方面可以使用oozie来完成。最新版本的oozie工作流软件中有spark actio...
2015-10-29 19:35 回复了该问题在你的脚本任务控件中插入如下代码: Dictionary<int, string> lineageIds = null; public void ...
2016-01-28 21:08 回复了该问题hbase的数据本质上是存储在Hadoop的 datanode中。 但不是普通的hdfs文件存储。 hbase有自己的存储,包括HMaster、HRegionS...
2015-10-30 09:42 回复了该问题可以在save前调用coalesce(1)方法 val rows = parquetFile(...).coalesce(1) rows.saveAsParqu...
2015-10-26 11:37 回复了该问题hive中有row_number() 函数可以做到. 在hive 0.13上的版本中应该有,此版本中提供了几个窗口函数
2015-11-18 17:20 回复了该问题没必要在java系统中执行shell命令吧。 多数的hbase shell命令都可改为 API调用解决。
2015-10-21 12:44 回复了该问题hive.execution.engine=spark 表示将hive的引擎设置为spark。 在hiveContext.sql()也是利用spark引擎来完成...
2015-11-18 17:40 回复了该问题我们也做过yarn的多队列,这其中需要仔细计算每个队列的内存配置,确保没超出总额度后才能启动并加载出多个队列名称
2015-10-08 18:26 回复了该问题从以下几个方面来考虑:1.系统的并发问题 如果并发过高,则需要前端架设负载均衡。 编程语言推荐用java,因为并发量大,请求量也大,就势必会用到大数据的相关组件...
2015-11-25 13:14 回复了该问题如果是支撑OLTP的业务,那么构建Percona-XtraDB-Cluster-server版本的MySQL集群是非常实用的,Postgresql XC集群也适...
2015-09-29 13:26 回复了该问题2.如果使用HColumnDescripter把blocksize块大小改成576KB,是不是表示每个Data块的大小为576KB? 是的。HColumnDes...
2015-11-13 12:49 回复了该问题