天善智能-商业智能和大数据在线社区，用心创造价值

1

投票

kettle里面使用job的定时调度功能,运行后日志会被一直最新的日志记录覆盖,该怎么让日志表里的日志信息不会一直被覆盖?

使用数据库记录日志的方式，我没有使用过，一般都是使用日志文件来记录job的执行情况。可以通过如下的方式来指定日志文件生成的路径获取调度执行的时间，我这里是按照...

2015-10-25 10:35 回复了该问题

1

投票

kettle 怎么配置开机自动启动

Kettle设置开机自启动是什么情况啊？非要开机自启动，在Linux可以使用chkconfig,windows下拖到启动任务里面就可以。

2015-09-06 10:31 回复了该问题

1

投票

问一下 hadoop 启动时候，进程号存储在哪？版本号2.7配备了两台namenode，启动时候总是提示已启动，提示的进程号是另一台机器的namenode

由于hadoop是拿Java来实现的，所以可以使用JPS命令来查看hadoop的服务器进程，如下图所示 [attach]6076[/attach] 在一...

2015-09-22 17:33 回复了该问题

1

投票

菜鸟一个，如何学习R 软件做数据分析处理？？？有没有什么推荐的书

在天善的资料下载里面有相关的电子书：链接地址如下：[url]http://www.flybi.net/article/506[/url] 有空的时候可以多来天...

2015-09-22 17:35 回复了该问题

1

投票

数据挖掘、分析、可视化，到底选哪一个方向比较好？

不想做程序员的数据分析师不是好的职业规划。选择哪个方向，这真要看你的兴趣，个人推荐统计，应用数学之类的，未来几年数据挖掘还是可有为的。另外，我想说的是现在复...

2016-04-21 10:33 回复了该问题

1

投票

有关hive数据的复制。表里只有一行数据，我要复制这行数据99次，使这个表里有100行数据，怎么操作？

为什么会有如此奇怪的需求。参考如下两种方案： 1.将你的hive表的数据导出到一个文件，然后复制100行记录，然后再导入hive中 2.找到hive在hdfs的...

2015-10-26 07:56 回复了该问题

1

投票

运维工作中，对于监控的告警信息，应该如何分析，或者说应该从哪些方向去分析呢

1.首先最起码要做的，就是一个监控日志的收集，这个在本周五的微信直播里面会讲。 2.运维分为系统运维和应用运维，系统运维就是分析系统的各项指标，对系统优化提供参...

2015-12-01 20:28 回复了该问题

1

投票

想问下如果数据表有主表和明细表抽取是放一个队列抽取？还是两个队列分开先主表然后明细表？？？

如果你的主/明细表数据量都比较小，用哪种方式都无所谓如果你的主/明细表都非常大，最好是分开，先抽取主表数据，然后再抽取明细表数据。如果特别大，可能还需要分段抽...

2015-10-26 07:59 回复了该问题

1

投票

kettle上怎么实现ETL中实现的效果

这个是控件内传递参数么？我下面的图能解决你的问题么？ [attach]7900[/attach]

2015-10-12 13:53 回复了该问题

1

投票

数据库大表是分库，分区，还是分表？

每次遇到这种问题，我都是想说。具体问题具体分析。如果你的单机性能很低了，那可以尝试分库。如果是查询比较慢，可以优化索引，优化表结构。单表2000多万条记录...

2015-09-06 14:11 回复了该问题

1

投票

kettle 如何解析多层的xm

最好的方式是用程序解析。Python是处理解析的强项。还能追加很多自定义的check

2015-09-06 14:13 回复了该问题

1

投票

Hive表中的字段key数据类型为struct<f1:string, f2:string>,那么该字段的数据在文件中是以什么格式存放的呢？

针对你这个问题，特意写了一篇博客，地址如下： [url]http://www.flybi.net/blog/marey_marey111/2063[/url] ...

2015-10-12 14:02 回复了该问题

1

投票

请教一个问题，我把一个二维数组保存到本地，然后另外一段程序从本地再读取出来，赋给一个新变量，可是变量在输出的时候却变成了字符串的形式

既然是保存到本地了，肯定是以字符串或者序列化的方式保存啊。两种方式： 1.重新解析这个字符串，还原回二维数组 2.通过序列化和反序列化的方式，将变量的值还原回...

2016-08-09 12:37 回复了该问题

1

投票

使用ssis更新cube,需要在ssis 中写个mdx判断cube数据内容是否正确。要怎么实现？

我这边现在的做法是，刷新前，使用MDX对经常使用的Cube进行计数统计，刷新后，再使用MDX进行计数统计，判断两次统计Count值是否一致，并且后一次的不能为0...

2013-11-18 19:38 回复了该问题

1

投票

如何在windows安装部署spark 求大神们的告知...？

难度这个问题，比较难回答，会者不难。简单的说一下可能涉及到的东西。 1.linux ：基于开源的东西，就不要想windows了，老老实实用linux,即使出了问...

2015-09-28 09:19 回复了该问题

牟瑞

他关注的

他的粉丝

他的回答
排序:
时间 投票