结实

始终在寻找数据的落脚点与发光点。还好,让我赶上了这个大数据时代,感恩中前行~!在工作中学习,在学习中分享,在分享中传递,在传递中提升。come on。我是结实,我来了。

始于: 2016-04-05

辽宁省 大连市

发私信

911

总声望

101

次被推荐

79

粉丝

他的回答
排序:

0
投票

请问从总体中抽取一部分样本建逻辑回归模型,从样本划分的测试集中确定阈值和该阈值在测试集的预测NPS,将模型和阈值运用到总体中,得到的总体NPS和测试集的NPS差异很大,可能是什么原因造成

1,总体和样本的数据量级差距大; 2,总体和样本各自的正反例相差比重相差很大; 3,样本的抽样规则是否符合业务(随机抽样还是分层抽样还是其他.....)  

2018-03-26 20:00 回复了该问题
1
投票

请问这个标准差是标准偏差吗?我想用标准偏差求变异系数

是的,单变量情况下,变异系数为标准差(标准偏差)除以平均值。

2017-02-15 15:35 回复了该问题
0
投票

R读hdfs中的文件一般是怎样读的?读过来发现是一列,你们都是怎样做的处理?

刚才回答的是odbc,已删除,见谅

2016-10-09 09:56 回复了该问题
0
投票

传统统计学方法是由于计算或取样能力有限所产生的。随着大数据的发展,尤其是当今后计算机的计算能力足够时,传统的统计学方法是不是就失去了存在的意义

这里是统计抽样部分的知识可能会被大数据取代,但其他统计知识还是难以撼动的,比如各种检验,各种预测分析

2016-09-29 09:53 回复了该问题
0
投票

问个问题,一个变量为a1,取值为0或1;另一个变量为a2.作一个均值检验,发现a2在a1两组中的均值没有显著性差异。 那是否意味着a2与a1是不相关的?

均值检验针对的是数值型数据,但a1应该不属于数值型数据。你做个逻辑回归吧,看系数是否显著

2016-09-23 15:19 回复了该问题
0
投票

想问问各位大神,从理论上讲,“网络爬虫和文本分析”、“数据挖掘”、“大数据”这几个专业术语是什么关系?论文需要,不知道怎么措辞。如果从网上爬取一些文本数据和其他数据,然后进行数据分析应用,应该叫什么呢?

网络爬虫是按照一定的规则,从网上上进行抓取信息(数据,文本,视频等); 文本分析是对数据类型为文本的信息进行分析; 数据挖掘是从大量的数据中通过算法等搜索隐藏于...

2016-09-20 16:22 回复了该问题
0
投票

请问下,logistic回归中,概率p为什么可以换成前面的sigmond函数?

logistic回归的原理是利用logistic函数进行映射。而logistic函数的图形是S曲线,又叫 sigmoid曲线。

2016-09-19 09:53 回复了该问题
0
投票

有关R语言制作ppt的问题

抱歉,没研究过

2016-09-18 08:51 回复了该问题
0
投票

请问 处理 k-mean 聚类 到底要不要 把列 标题 去掉

你指的列标题是类似于考试成绩中的学生姓名列吗 如果是,得去掉,因为在这里姓名不作为因子

2016-09-13 08:59 回复了该问题
0
投票

如何证明因子分析的原理,用最尽可能少的公理或定理?能让有基础的大学代数、微积分、概率等的知识的人能更清晰理解

可以参考免费课程,主成分分分析部分, https://edu.hellobi.com/course/83

2016-09-13 08:57 回复了该问题
0
投票

时间序列中有个针对ACF,PACF的延迟数,这是什么意思?

acf:自相关,pacf空间自相关 延迟数:延迟时间,比如向后延迟几期后自相关

2016-09-07 09:21 回复了该问题
0
投票

R 怎么把数据变成table类型的

table类型?你说的列联表吧 table(var1, var2, …, varN)    ##使用N 个类别型变量(因子)创建一个N 维列联表

2016-09-06 18:57 回复了该问题
0
投票

大神们,我问下,我用corr.test()计算多个因子间的相关系数和p值,p值列和行结果不一致怎么回事,R计算错了么

我没有看到具体的corr.test(),就结果而言,是错误的,正确的结果是对称的,对角线为1

2016-09-06 18:51 回复了该问题
0
投票

各位前辈,请问可以帮助我解答关于时间序列分析方面的问题吗?我有六个处理组,这六个组连续21天采集相关数据,请问可以做时间序列分析吗?如何做呢?请前辈不吝赐教,非常感谢

可以做,首先得检查数据的平稳性(ADF检验,甚至是协整检验)。 如果都通过了,就可以做相应的时间序列分析

2016-09-06 10:35 回复了该问题
0
投票

我求四个月变化率,其中有的最后一个月进入的,变化率是正无穷,这个大家在数据处理时怎么处理的

因为不知道具体业务哈,所以就数据而言,应该是异常值吧,如果不是,请结合业务进行解释。

2016-09-06 10:33 回复了该问题

改版

反馈