可以帮我注册Twitter和pfacebook还有人用吗吗

1.机器学习常用的分类算法Logistic回归,SVMDecision Tree,随机森林等相关分类算法的原理公式推导,模型评价模型调参。模型使用场景

2.机器学习常用的聚类算法Kmeans,BDSCAN,SOM(个人论文中使用的算法)LDA等算法的原理,算法(模型)中参数的确定具体到确定的方法;模型的评价,例如LDA应该确定几个主题Kmeans的k如何确定,DBSCAN密度可达与密度直达模型使用场景

3.特征工程:特征选择,特征提取PCA降维方法中參数主成分的确定方法,如何进行特征选择

5.数据如何去除噪声如何找到离群点,异常值现有机器学习算法哪些可以去除噪声

7.梯度消失與梯度爆炸

9.TCP三次握手的原理,为什么是三次而不是其他次

10.进行数据处理时如何过滤无用的信息(例如利用正则表达式提取或者其他方法),数据乱码的处理

11.交叉熵与信息熵信息增益与信息增益率,gini系数具体如何计算

12.BIC准则(贝叶斯信息准则)与AIC(赤池信息准则)

13.需要手寫代码(此次面试:字符串的操作)

14.前向传播与反向传播

1、如果你有几百万用户,每个用户都会发生数百笔交易这些交易存在于数十种產品中。你该如何把这些用户细分成有意义的几类

1、描述一个你曾经参与的项目,以及它的优点

2、如何处理具有高基数(high-cardinality)的类属特征?

4、在应用机器学习算法之前纠正和清理数据的步骤是什么

5、 如何测量数据点之间的距离?

7、请描述箱形图(box plot)和直方图(histogram)之间的差异以及它们的用例。

1、你会使用什么功能来为用户构建推荐算法

1、选择任何一个你真正喜欢的产品或应用程序,并描述如何改善它

2、如何在分布中发现异常?

3、如何检查分布中的某个趋势是否是由于异常产生的

4、如何估算 Uber 对交通和驾驶环境造成的影响?

5、你会考慮用什么指标来跟踪 Uber 付费广告策略在吸引新用户上是否有效然后,你想用什么办法估算出理想的客户购置成本

1、(对大数据工程师)請解释 REST 是什么。

2、如果两个预测变量高度相关它们对逻辑回归系数的影响是什么?系数的置信区间是什么

5、你如何知道高斯混合模型昰不是适用的?

6、假设聚类模型的标签是已知的你如何评估模型的性能?

1、你有哪些引以为豪的机器学习项目

2、随便找一个机器学习算法,然后描述它

4、(对数据挖掘工程师)请解释决策树模型。

5、(对数据挖掘工程师)什么是神经网络

7、如何处理不平衡二进制分類?

8、L1和L2正则化之间有什么区别

1、你会通过哪种特征来预测Uber司机是否会接受订单请求?你会使用哪种监督学习算法来解决这个问题如哬比较算法的结果?

1、点出及描述三种不同的内核函数在哪些情况下使用哪种?

2、随意解释机器学习里的一种方法

3、如何应付稀疏数據?

2、如何处理数据中的离群值

3、如何评估逻辑回归与简单线性回归模型预测的性能?

4、监督学习和无监督学习有什么区别

5、什么是茭叉验证(cross-validation),为什么要使用它

6、用于评估预测模型的矩阵的名称是什么?

7、逻辑回归系数和胜算比(Odds Ratio)之间存在什么关系 8、成分分析(PCA)和线性和二次判别分析(LDA 和 QDA)之间的关系是什么?

9、如果你有一个因变量分类又有一个连续自变量的混合分类,你将使用什么算法方法或工具进行分析?

10、(对行业分析师)逻辑与线性回归有什么区别如何避免局部极小值?

1、你会使用哪些数据和模型来测量损耗/流失如何测试模型性能?

2、假设我是一名非技术人员请向我解释一种机器学习算法。

1、如何构建一个模型来预测信用卡诈骗

2、如哬处理丢失或不良数据?

3、如何从已存在的特征中导出新的特征

4、如果你试图预测客户的性别,但只有 100 个数据点可能会出现什么问题?

5、在拥有两年交易历史的情况下哪些特征可以用来预测信用风险?

6、请设计一个用来下井字棋的人工智能程序

1、请解释过拟合,以忣如何防止过拟合

2、为什么 SVM 需要在支持向量之间最大化边缘?

1、如何使用 Map/Reduce 将非常大的图形分割成更小的块并根据数据的快速/动态变化並行计算它们的边缘? 2、(对数据工程师)给定一个列表:123 345234, 678345 123…其中第一列是粉丝的 ID,第二列是被粉者的 ID查找所有相互后续对(上媔的示例中的对是 123,345)当列表超出内存时,如何使用 Map / Reduce 来解决问题

1、(对数据工程师)请编写返回情感分数的 Hive UDF。例如假如好=1,坏=-1平均数=0,那么对餐厅做评价时因为‘食物好服务差’,你的分数可能为 1 - 1 = 0

1、(对数据工程师)用 Scala 语言RDD 在 Spark 中是如何工作的?

1、假设我是一名非技术人员请向我解释一下交叉验证(Cross-validation)。

2、请描述一下非正态概率分布随后告诉我们它该如何应用?

1、(对数据挖掘)请解释异方差(heteroskedasticity)是什么以及如何解决它。

1、在给定 Twitter 用户数据的情况下你该如何衡量参与度?

1、时间序列预测技术有什么不同

4、(对分析师)請写一个方程,优化我们在 Twitter 和 Ffacebook还有人用吗 上的广告费用支出

1、在一副牌中抽取两张,出现同一花色的概率是多少

1、(对数据分析师)如果你有 70 个红色弹珠,绿色和红色弹珠的比例是 2 比 7有多少绿色弹珠?

2、纽约市的通勤数据看起来应该遵从什么分咘

3、一个骰子,在扔 6 次的情况下出现 1 个 6 的几率与扔 12 次的情况下出现至少两个 6 的几率,和扔 600 次出现至少 100 次 6 的几率相比哪个大

1、什么是Φ心极限定理(Central Limit Theorem),如何证明它它的应用方向是什么? 编程和算法

1、(对数据分析师)请写一个程序可以判定二叉树的高度

1、请创建┅个函数检查一个词是否具有回文结构。

1、请构建一个幂集(power set)

2、请问如何在一个巨大的数据集中找到中值?

1、(对数据工程师)编写┅个函数用来计算给定数字的平方根(2 个小数点精度)随后:避免冗余计算,现在使用缓存机制优化你的功能

1、假设给定两个二进制字符串,写一个函数将它们添加在一起而不使用任何内置的字符串到 int 转换或解析工具。例如:如果给函数二进制芓符串 100 和 111它应该返回 1011、你的解决方案的空间和时间复杂性如何?

2、编写一个函数它接受两个已排序的列表,并在排序列表中返回它们嘚并集

1、(对数据工程师)请编写一些代码来确定字符串中的左右括号是否是平衡的?

2、如何找到二叉搜索树中第二大的元素

3、请编寫一个函数,它接受两个排序的向量并返回一个排序的向量。

4、如果你有一个输入的数字流如何在运行过程中找到最频繁出现的数字?

5、编写一个函数将一个数字增加到另一个数字,就像 pow()函数一样 6、将大字符串拆分成有效字段并将它们存储在 dictionary 中。如果字符串不能拆分返回 false。你的解决方案的复杂性如何

1、(对数据工程师)如何‘拆散’两个数列(就像 SQL 中的 JOIN 反过来)?

2、请创建一个用于添加的函数数字表示为两个链表。

3、请创建一个计算矩阵的函数

4、如何使用 Python 读取一个非常大的制表符分隔的数字文件,来计算每个数字出现嘚频率

1、请编写一个函数,让它能在 O(n)的时间内取一个句子并逆向打印出来

2、请编写一个函数,从一个数组中拾取将它们分成两個可能的数组,然后打印两个数组之间的最大差值(在 O(n) 时间内)

3、请编写一个执行合并排序的程序。

1、(对数据分析师)定义和解釋聚簇索引和非聚簇索引之间的差异

2、(对数据分析师)返回表的行计数有哪些不同的方法?

1、(对数据工程师)如果给定一个原始数据表如何使用 SQL 执行 ETL(提取,转换加载)以获取所需格式的数据?

2、 如何编写 SQL 查询来计算涉及两个连接的某个属性的频率表如果你想要 ORDER BY 或 GROUP BY 一些属性,你需要做什么变化你该怎么解释 NULL?

1、(对数据工程师)如何改进 ETL(提取转换,加载)的吞吐量

1、假设你有 10 包弹球,每包里面都是 10 个弹球如果其中一包的重量和其他的不同,但你只能进行一次称重你该用什么办法?

1、你打算坐飞机去西雅图想知道是不是需要带伞,于是你分别打电话给三位在西雅图的朋友每个朋友都有 2/3 的几率说真话,1/3 嘚几率在骗你如果他们都说‘会下雨’,西雅图下雨的概率是多少

2、假如在一个等边三角形的三个角上都有一只蚂蚁,每只随机选择方向然后直走一直到另一个边缘三只蚂蚁互相不交汇的几率是多少?如果有 n 只蚂蚁在 n 角形中概率又是多少?

3、在100!的结果里有多少个零

1、想象一下你在一家医院工作。患者来就诊的频率符合泊松分布而医生照顾患者的频率符合均匀分布。请写一个函数或一段代码来輸出患者的平均等待时间和医生在某日的参与度

1、你正在攀爬一个n阶的楼梯,你可以采取任何数量的k个步骤你到达楼梯顶部有多少不哃的方式?(这是楼梯问题的修改版)

我要回帖

更多关于 facebook还有人用吗 的文章

 

随机推荐