天善小编

微信直播问题收集

始于: 2015-05-03

湖南省 怀化市

发私信

139

总声望

30

次被推荐

0

粉丝

她的回答
排序:

0
投票

[Friday BI Fly] 请问一下,我想分析一个目标变量,怎么建立各种自变量呢,建立了自变量,又如何挑选变量呢?

彭老师:这个数据数据挖掘中的特征选择和特征处理过程。大家可以搜集这两个方向的一些资料进行学习。

2016-08-01 11:08 回复了该问题
0
投票

[Friday BI Fly] 识别出来的结果有什么应用呢?

彭老师: 1. 楼宇识别; 2. 特定区域人流预测; 3. 网络流量调度  等等,应用还是挺多的。

2016-08-01 11:07 回复了该问题
0
投票

[Friday BI Fly] 请数据体系架构是不是就是BI体系,数据体系每一层的功能以及具体的呈现方式能不能具体讲一下?

彭老师:c这块讲起来可能时间会比较久,后面我会出一个课程专门讲这块,欢迎大家关注。

2016-08-01 11:07 回复了该问题
0
投票

[Friday BI Fly] 请问DBScan算法和最近一些论文中,效果非常好的DensityPeak算法相比,在处理大数据方面有何优劣呢?

彭老师:DensityPeak这个算法目前还没学习过,我可以抽时间学习后对比下再同步。

2016-08-01 11:06 回复了该问题
0
投票

[Friday BI Fly] 算法复杂度是咋算的?

彭老师:时间复杂度,针对这种要计算相似度 或者举例的算法,主要思路是剔除掉不需要计算的问题。 比如北京的一个wifi 和广州的wifi 距离这么远完全没必要进...

2016-08-01 11:05 回复了该问题
0
投票

[Friday BI Fly] 不过如果数据达到T级别之后,时间复杂度会怎样呢?

彭老师:分而治之的思路就是专门解决大数据问题,100g 比如可以切 1000块,100T 切 1000*1024块就行。 上述数据只是举例,思路就是切块解决单...

2016-08-01 11:05 回复了该问题
0
投票

[Friday BI Fly] 现在大数据计算平台感觉都在往spark上迁移,那刚讲的dbscan为什么仍然用mapreduce实现呢?

彭老师:我们早期也是主要在MR上 目前很多算法已经在向spark迁移,算法思路都是一样的。

2016-08-01 11:04 回复了该问题
0
投票

[Friday BI Fly] 老师您好,您一开始说的事件日志是什么用途?前期不是获取数据并清洗了吗?直接分析不就可以吗?谢谢老师

彭老师:公司团队比较大的时候,客户端开发和数据分析人员是独立两个团队。可能客户端同学写的日志 并不符合数据分析同学的要求。这个时候就需要数据清洗 比如ETL也是...

2016-08-01 11:03 回复了该问题
0
投票

[Friday BI Fly] 楼宇识别指的是什么,能否识别出楼宇的功能商业、办公或者居住,WIFI数据怎么获取的?

彭老师: 1. 楼宇商业功能,这个不属于DBSCAN算法解决的范畴。可以通过用户流动性,和用户行为规律结合分析; 2. wifi数据 目前wifi 基站 用于...

2016-08-01 11:03 回复了该问题
0
投票

[Friday BI Fly] 请问这个聚类有没有完整的步骤和数据让我们具体实现下啊?

彭老师:这块的原谅我只能提供思路,代码这些 可能不允许、数据就更隐私了。不过大家在遇到大数据瓶颈的时候 可以找我交流。

2016-08-01 11:02 回复了该问题
0
投票

[Friday BI Fly] 彭老师,社区上有个人发问“京东金融数据分析岗和腾讯大数据分析,职场如何选择?各分析下利弊吧~?”

彭老师:好的,这个问题确实是很多朋友会遇到的,两个工作 都是关于数据方向很好的平台: 1. 京东金融,听这个职位名字 金融领域数据分析会多一些风控方面的应用;...

2016-08-01 11:01 回复了该问题
0
投票

您现在研究预测吗,有人在研究基于事件驱动的预测,您是一般怎么做的?David Chiu:RTB 吗?类似Real time bidding这种的?

叶鹏:是的 David Chiu:这用spark streaming 叶鹏:这种研究您怎么评价?有没有成功案例? David Chiu:还是使用RMSE...

2016-07-27 15:11 回复了该问题
0
投票

house.r 中rvest无法安装,是不是与R版本不支持

David Chiu:要升級到最新版的R,Hadley 最近的套件都只支持最新版的。

2016-07-27 15:09 回复了该问题
0
投票

请问自变量与因变量的取样频率不一样,有适合这种情况的模型么?

David Chiu:自变量跟因变量的取样频率不一样? 是分开取的吗, 怎么会不一样? 曹敏:比如说对生产过程中的某个属性,取样频率是10分钟一次,但是最后的...

2016-07-27 15:08 回复了该问题
0
投票

R如何实现大量日志数据的处理?使用了哪些平台?如何实现R的分布式算法?

David Chiu:SparkR 会是你的好朋友,RMPI 也不错, 但会single point failure,如果要考虑到地理咨询的话,可以用spati...

2016-07-27 15:07 回复了该问题

改版

反馈