1、随机森林(RF)的随机怎么理解?
RANDOM的理解有两点:一是样本的随机,二是特征的随机,随机性得优点是防止模型过拟合。
2、决策树(DT)哪几种?
有3种:ID3(信息熵,信息增益,偏好取值较多的属性)、C4.5(采用信息增益率,解决ID3偏好取值较多属性的缺点)、CART(二叉树,使用基尼指数,可用于连续性变量)。
3、大数据的处理方法有哪些?
数据采集、数据处理(ETL,spark,hive,presto[多表查询,单表求和求均值有优势],clickhouse[单个大表查询有优势],impala[多表查询,复杂聚合join优势明显])、数据分析(sql,python)、结果展现(tableau,powerbi,bplus等可视化工具)
4、大数据使用的底层架构设计是什么?
使用的是MapReduce,主要包含input(文件),spliting(拆分),mapping(key-value),shuffing(group by),reducing(count,sum),final(result)
5、GBDT和XGBOOST的区别是什么?
①XGB是GBDT的工程实现
②GBDT的基分类器是CART,XGB的基分类器除了树分类器还有线性分类器,而且XGB使用正则项防止过拟合
③XGB的代价函数采用泰勒展开式的二阶导数,提高准确性
④GBDT采用全部数据,模型训练很耗时;XGB采用随机数据,提升模型训练速度
⑤XGB可处理缺失值
6、集成学习有几种?
主要两种:Bagging(随机森林),Boosting(GBDT)
7、模型评价指标有哪些?
AUC,KS,混淆矩阵
8、特征工程有哪些?
特征生成(特征加工和特征组合),特征筛选(过滤式Filter[卡方、信息增益、相关系数],包裹式Wrapper[模型输出特征重要性],嵌入式Embedded[岭回归,L2正则项])
9、逻辑回归的原理
逻辑回归本质上是线性回归,逻辑回归不是回归算法,是分类算法,Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同。逻辑回归的步骤大致如下:寻找h函数(即预测函数)g(z)=1/(1+e的-z次方),
构造J函数(损失函数),
想办法使得J函数最小并求得回归参数(θ)。