GeorgeYao

路漫漫其修远兮,吾将上下而求索!

始于: 2013-12-27

广东省 深圳市

发私信

703

总声望

126

次被推荐

0

粉丝

他的回答
排序:

0
投票

有这么一个项目,医疗大数据,数据有基因检测数据、基因检测报告、临床数据(包括个人信息、用药信息、检测报告,诊疗信息等)、体检报告,总数据量按100TB算,采用hadoop平台,整个数据存储怎么规划比较好?这里涉及到很多结构化和非结构化数据

针对你的问题不能做全面的回答,具体还是需要根据数据和业务来划分的。 【非结构化的用hadoop;结构化的可以使用关系型数据库或mongodb、elastisea...

2016-08-16 15:47 回复了该问题
0
投票

mysql中datetime类型的字段用sqoop导入hive中会多个零,有人知道怎么回事吗?

需要改下源于目标表之间的对应数据类型: MySQL(bigint) --> Hive(bigint) MySQL(tinyint) --> Hive...

2016-08-16 15:29 回复了该问题
0
投票

informatica 不用时间戳 怎么实现增量抽取

如果不考虑使用时间戳做增量的话,那可以考虑使用几个字段的唯一组合,来做增量抽取。

2016-08-16 11:46 回复了该问题
0
投票

请教大师: hadoop 开源的和商用的,有很大区别吗? 商用的推荐哪个?

Hadoop开源的功能是有限的,需要专门去做二次开发; Hadoop商用的功能是相对用户而定制开发的,例如:[url]http://zh.hortonworks...

2016-08-16 11:43 回复了该问题
0
投票

ketter使用命令行执行job

错误中好像提到了Debug Kettle工具设置内存参数的问题,其次为什么不选择其它平台与Kettle集成,做调度呢?

2016-08-16 11:40 回复了该问题
0
投票

我有一个独立的 tomcat web服务器,怎么将客户上传的文件存储在HDFS 上面呢?

使用这个工具【HDFS Explorer】,将文件上传或者下载。 HDFS Explorer Installer.msi

2016-08-15 16:31 回复了该问题
1
投票

hadoop、spark等作业调度平台现在流行哪些开源框架?

我们自己用的调度开发平台是阿里开源的宙斯云梯任务平台系统([url=http://wenku.baidu.com/link?url=kchOKRu5O2J2vz...

2016-08-15 16:27 回复了该问题
0
投票

如果有报错的sql可以统计到吗?单独看ORA-12899这种报错的怎么看呢?

这是因为创建表的时候某字段的长度过短,而插入的字段内容过长造成的。 现象如下: 1、创建表: create table test (id int, nam...

2016-08-15 14:18 回复了该问题
0
投票

在QS中如何将不相同的列组合在一起

使用SQL函数将其值拼接起来,不就Ok。

2016-08-12 12:52 回复了该问题
0
投票

kettle连接资源库

你要找对Oracle JDBC的驱动才行(ojdbc6-11.2.0.3.0.jar)放到Kettle对应的lib目录下面。

2016-08-12 12:50 回复了该问题
0
投票

kettle中新建一个oracle数据库连接,但oralce是个服务名,该怎么做呢

请参考如下配置 [attach]21401[/attach]  

2016-08-05 13:01 回复了该问题
0
投票

kettle服务器linux运行环境要求配置

大概配置推荐: CPU: 双核(建议4核) 内存:8GB 带宽:4兆(2兆也可以) 硬盘:200GB   仅做参考,你可以根据需求调高或者降低配置。  

2016-08-04 13:00 回复了该问题
0
投票

需要大量UPDATE几张大表的LOB 字段 现在发现执行非常慢,请问有什么办法吗

你可以新增字段,把值赋给新字段;然后把之前要Update的字段删除掉。(试一下此方法)

2016-08-04 12:55 回复了该问题
0
投票

sqlserver2008R2大表导入导出问题

分批次导入导出

2016-08-01 10:07 回复了该问题
1
投票

请教大家一个问题:kettle中怎样进行日期格式转换呢?把其中的一个日期字段格式转换一下

使用【字段选择】组件,具体如截图: [attach]20876[/attach]  

2016-07-28 10:33 回复了该问题

改版

反馈