Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

1
投票

大数据时代,小型企业的优势是什么?

小企业: 船小好调头 根据外界反应能快速调整 能在现有的大数据技术之上提供更加精细化的服务,例如现在的云计算业务不错的帮助手段。

2015-11-30 13:28 回复了该问题
1
投票

Hbase rowkey的模糊匹配有那几种filter?

1.前缀过滤器:PrefixFilter 2.行过滤器:RowFilter 3.随机行过滤器:RandomRowFilter 4.第一个行:FirstKeyOn...

2016-01-28 09:00 回复了该问题
1
投票

为什么spark支持多种语言编程,而mapreduce只支持java

hadoop 通过hadoop streaming 的方式也可以调用其他编程语言实现的MR,例如c++,Python等

2016-01-28 10:07 回复了该问题
1
投票

互联网企业中,大家是怎么做数据埋点的(App、Web、H5)?

埋点一般是需要在app开发端组建一个专门负责的团队,来对接数据团队。每次发版本前都配合数据、QA一起检测下埋点是否都覆盖了。 市面上也有一些自动化的,比如阿里的...

2015-11-05 12:51 回复了该问题
1
投票

hive 优化 模糊关联

单纯从这条语句来讲,不太好优化。 面对字符串的模糊匹配,通常可以在数据进入hdfs之前就做掉。 例如可以用solr为关键词 建立一个索引 每次有一行记录需要找出...

2015-11-05 13:04 回复了该问题
1
投票

hadoop,spark在虚拟机集群里跑还有性能上的优势吗?

性能优势还是有的。 Hadoop、spark有高度容错设计,也有很多高效的组件,比老方法肯定是少了很多工作量。 维护量也会减少些。

2015-11-05 13:08 回复了该问题
1
投票

求教对Hbase的scan方法的理解?

scan方法是有好几种场景的: 1.如果只是根据rowkey进行查询,速度是最高的。当然rowkey查询也支持几个模式:单个或多个rowkey固定查找,rowk...

2015-11-24 13:35 回复了该问题
1
投票

大数据商业化是否分历程,国内市场大数据商业化目前在什么阶段,其应用场景集中在什么地方。大数据未来发展趋势,商业成熟会在什么时间发生,以及到时的市场规模?

个人观点: 国内大数据商业起步在2014年就开始了,2015年是很多大数据公司获得融资的时间窗口 目前的应用场景主要是:帮助企业构建一体化的大数据平台,包含分析...

2016-07-01 08:43 回复了该问题
1
投票

有人知道datastage 连接DB2 AS 400的ODBC配置么?

很久没有用过ds了。 我之前记录的一个示例,你看看能不能用 [DB400] Driver=/opt/IBM/InformationServer/Server/b...

2016-01-28 20:49 回复了该问题
1
投票

如何通过hive把图片存入hbase中,麻烦大神们说详细一些

hbase表中所有单元格的数据都是二进制 如果你是调用hbase的java api来操作的话,则很容易将图片写入到表中  通常情况下不建议用hive把图片存入h...

2016-02-24 13:21 回复了该问题
1
投票

hive跟hbase整合是用hive导入数据报错,报一个路径不是一个目录

建议你使用 hadoop fs -ls 看看 /usr/local是不是一个目录。 但是从字面理解,/usr/loacal 好像是Linux的目录结构,并不是h...

2015-10-30 13:20 回复了该问题
1
投票

从hdfs上加载文件创建 hive表 文件的第一行列名 怎样做才能不被当成数据加载进来

在hive的0.13版本以后有一个新的特性: skip.header.line.count 和 skip.footer.line.count 这样就可以跳过页眉...

2016-02-24 13:25 回复了该问题
1
投票

请问hive0.9怎样实现分页查询?

这个hive的版本比较低,建议升级到最新版本吧。 新版本中有row_number() 函数。这个能帮你进行分页。   一般情况下不建议直接对hive进行分页查询...

2015-10-21 10:26 回复了该问题
1
投票

SSIS 中如何快速 Load 一个大文件(1.7G,740000条数据)到数据库中

建议在数据库中完成。1.服务器的内存要调大些 2.直接将数据装载到sql表中。在此过程中不做任何的业务逻辑处理。可以使用ssis,也可以使用t-sql的bluk...

2015-11-18 16:56 回复了该问题
1
投票

如何利用spark、hadoop等技术实现关系型数据库的数据快速汇总?

1.使用sqoop进行定时的数据抽取工作,并存放到hive数据仓库中,使用hive的hql进行数据汇总。这个方案中可以使用hive on tez 或者hive ...

2016-12-29 16:47 回复了该问题

改版

反馈