天善智能-商业智能和大数据在线社区，用心创造价值

1

投票

大数据时代，小型企业的优势是什么？

小企业：船小好调头根据外界反应能快速调整能在现有的大数据技术之上提供更加精细化的服务，例如现在的云计算业务不错的帮助手段。

2015-11-30 13:28 回复了该问题

1

投票

Hbase rowkey的模糊匹配有那几种filter？

1.前缀过滤器：PrefixFilter 2.行过滤器：RowFilter 3.随机行过滤器：RandomRowFilter 4.第一个行：FirstKeyOn...

2016-01-28 09:00 回复了该问题

1

投票

为什么spark支持多种语言编程，而mapreduce只支持java

hadoop 通过hadoop streaming 的方式也可以调用其他编程语言实现的MR，例如c++,Python等

2016-01-28 10:07 回复了该问题

1

投票

互联网企业中，大家是怎么做数据埋点的（App、Web、H5）？

埋点一般是需要在app开发端组建一个专门负责的团队，来对接数据团队。每次发版本前都配合数据、QA一起检测下埋点是否都覆盖了。市面上也有一些自动化的，比如阿里的...

2015-11-05 12:51 回复了该问题

1

投票

hive 优化模糊关联

单纯从这条语句来讲，不太好优化。面对字符串的模糊匹配，通常可以在数据进入hdfs之前就做掉。例如可以用solr为关键词建立一个索引每次有一行记录需要找出...

2015-11-05 13:04 回复了该问题

1

投票

hadoop,spark在虚拟机集群里跑还有性能上的优势吗?

性能优势还是有的。 Hadoop、spark有高度容错设计，也有很多高效的组件，比老方法肯定是少了很多工作量。维护量也会减少些。

2015-11-05 13:08 回复了该问题

1

投票

求教对Hbase的scan方法的理解？

scan方法是有好几种场景的： 1.如果只是根据rowkey进行查询，速度是最高的。当然rowkey查询也支持几个模式：单个或多个rowkey固定查找，rowk...

2015-11-24 13:35 回复了该问题

1

投票

大数据商业化是否分历程，国内市场大数据商业化目前在什么阶段，其应用场景集中在什么地方。大数据未来发展趋势，商业成熟会在什么时间发生，以及到时的市场规模？

个人观点：国内大数据商业起步在2014年就开始了，2015年是很多大数据公司获得融资的时间窗口目前的应用场景主要是：帮助企业构建一体化的大数据平台，包含分析...

2016-07-01 08:43 回复了该问题

1

投票

有人知道datastage 连接DB2 AS 400的ODBC配置么？

很久没有用过ds了。我之前记录的一个示例，你看看能不能用 [DB400] Driver=/opt/IBM/InformationServer/Server/b...

2016-01-28 20:49 回复了该问题

1

投票

如何通过hive把图片存入hbase中，麻烦大神们说详细一些

hbase表中所有单元格的数据都是二进制如果你是调用hbase的java api来操作的话，则很容易将图片写入到表中通常情况下不建议用hive把图片存入h...

2016-02-24 13:21 回复了该问题

1

投票

hive跟hbase整合是用hive导入数据报错，报一个路径不是一个目录

建议你使用 hadoop fs -ls 看看 /usr/local是不是一个目录。但是从字面理解，/usr/loacal 好像是Linux的目录结构，并不是h...

2015-10-30 13:20 回复了该问题

1

投票

从hdfs上加载文件创建 hive表文件的第一行列名怎样做才能不被当成数据加载进来

在hive的0.13版本以后有一个新的特性： skip.header.line.count 和 skip.footer.line.count 这样就可以跳过页眉...

2016-02-24 13:25 回复了该问题

1

投票

请问hive0.9怎样实现分页查询？

这个hive的版本比较低，建议升级到最新版本吧。新版本中有row_number() 函数。这个能帮你进行分页。一般情况下不建议直接对hive进行分页查询...

2015-10-21 10:26 回复了该问题

1

投票

SSIS 中如何快速 Load 一个大文件（1.7G，740000条数据)到数据库中

建议在数据库中完成。1.服务器的内存要调大些 2.直接将数据装载到sql表中。在此过程中不做任何的业务逻辑处理。可以使用ssis，也可以使用t-sql的bluk...

2015-11-18 16:56 回复了该问题

1

投票

如何利用spark、hadoop等技术实现关系型数据库的数据快速汇总？

1.使用sqoop进行定时的数据抽取工作，并存放到hive数据仓库中，使用hive的hql进行数据汇总。这个方案中可以使用hive on tez 或者hive ...

2016-12-29 16:47 回复了该问题

Bob

他关注的

他的粉丝

他的回答
排序:
时间 投票