一级免费视频片高清无码_欧美变态ZOZO与禽交_久久线观看免费视频_一级免费2020A片

?

服務(wù)熱線

0530-583766618653002903
網(wǎng)站導(dǎo)航
技術(shù)文章
當前位置:首頁>>技術(shù)文章

高中科教設(shè)備機器學習高頻面試真題整理

時間:2022-07-12 17:03:30 點擊次數(shù):264
 

明天要找助理教授面試了,緊張的一批~為避免自己墮入時間黑洞,記錄下自己的學習軌跡嗚嗚嗚┭┮﹏┭┮

參考資料:https://www.dataapplab.com/machine-learning-interview-questions/https://blog.csdn.net/v_july_v/article/details/78121924

1: 什么是偏差(bias)、方差(variable)之間的均衡?

Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即算法本身的擬合能力。Bias 可能會導(dǎo)致模型欠擬合,使其難以具有較高的預(yù)測準確性。

Bias-Variance 的分解,本質(zhì)上是通過在基礎(chǔ)數(shù)據(jù)集中添加偏差、方差和一點由噪聲引起的不可約誤差,來分解算法上的學習誤差。從本質(zhì)上講,如果你使模型更復(fù)雜并添加更多變量,你將會失去一些 Bias 但獲得一些 Variance,這就是我們所說的權(quán)衡(tradeoff)。

2:監(jiān)督學習和非監(jiān)督學習有什么不同?

監(jiān)督學習需要train有l(wèi)abel的數(shù)據(jù),無監(jiān)督學習不需要明確標記數(shù)據(jù)。

3: KNN和 k-means 聚類由什么不同?

KNN需要標記點,因此是有監(jiān)督的學習,而k-means不是,因此是無監(jiān)督學習。 K均值聚類僅需要一組未標記的點和閾值:算法將采用未標記的點并逐漸學習如何通過計算不同點之間的距離的平均值將它們聚類成組。

(插播:

4:解釋一下ROC曲線的原理

ROC曲線是真陽率與各種閾值下的假陽率之間的對比度的圖形表示。 它通常用作代表模型靈敏度(真陽性)與跌落之間的平衡或它將觸發(fā)誤報(假陽性)的概率。

5:機器學習項目實戰(zhàn)流程

參考資料:

https://github.com/apachecn/hands-on-ml-zh/blob/master/docs/B.%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%A1%B9%E7%9B%AE%E6%B8%85%E5%8D%95.md?github.com/apachecn/hands-on-ml-zh/blob/master/docs/B.%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%A1%B9%E7%9B%AE%E6%B8%85%E5%8D%95.md

6:什么是貝葉斯定理?它在機器學習環(huán)境中如何有用?

貝葉斯定理的歷時詮釋: 根據(jù)一種數(shù)據(jù)D(Data)的內(nèi)容變化更新概率H(Hypothsis)的方法

我們需要做兩件事情:1. 算出各種不同猜測的可能性大小。2. 算出最靠譜的猜測是什么。第一個就是計算特定猜測的后驗概率,對于連續(xù)的猜測空間則是計算猜測的概率密度函數(shù)。第二個則是所謂的模型比較,模型比較如果不考慮先驗概率的話就是最大似然方法。

樸素貝葉斯是一種機器學習的思想,而不是一個簡單的直接套用的公式。而且在用樸素貝葉斯方式進行分類機器學習時還經(jīng)常需要使用其他一些輔助的建模手段。樸素貝葉斯在生產(chǎn)生活中作為機器學習手段的場景確實非常多,是一種使用很廣泛的方式。

7:為什么我們要稱樸素貝葉斯?

盡管 Naive Bayes 具有實際應(yīng)用,特別是在文本挖掘中,但它被認為是天真的,因為它假設(shè)特征的絕對獨立性 – 這種情況在現(xiàn)實生活中可能永遠不會遇到。

8:L1、L2正則之間有什么不同?

L2正則保留顯著減小損失函數(shù)方向上的權(quán)重,而對于那些對函數(shù)值影響不大的權(quán)重使其衰減接近于0。相當于加入一個gaussian prior。

L1正則會產(chǎn)生更稀疏的解,即會使得部分權(quán)重變?yōu)?,達到特征選擇的效果。相當于加入了一個laplacean prior。

L2 Norm對大數(shù)的懲罰比小數(shù)大。實際應(yīng)用過程中,L1 nrom幾乎沒有比L2 norm表現(xiàn)好的時候,優(yōu)先使用L2 norm是比較好的選擇。

9:你最喜歡的算法是什么?把它解釋一下。

10:第一類誤差和第二類誤差有什么區(qū)別?

第一類誤差指的是假正率,第二類指的是假負率。舉個例子:第一類誤差,你誤判一個男的他懷孕了。第二類誤差,你誤判了一位其實已經(jīng)懷孕的女子沒懷孕。

11:什么是傅立葉變換?

傅立葉變換是將一般函數(shù)分解成對稱函數(shù)疊加的一般方法。傅立葉變換找到一組循環(huán)速度、振幅和相位,以匹配任何時間信號。傅立葉變換將信號從時間域轉(zhuǎn)換為頻率域-這是從音頻信號或其他時間序列(如傳感器數(shù)據(jù))中提取特征的一種非常常見的方法。

12:概率和似然有什么區(qū)別?

概率描述了已知參數(shù)時的隨機變量的輸出結(jié)果;似然則用來描述已知隨機變量輸出結(jié)果時,未知參數(shù)的可能取值。例如,對于一枚正反對稱的硬幣上拋十次這種事件,我們可以問硬幣落地時十次都是正面向上的概率是多少;而對于一枚硬幣上拋十次,我們則可以問,這枚硬幣正反面對稱的似然程度是多少。

概率(密度)表達給定θ下樣本隨機向量X=x的可能性,而似然表達了給定樣本X=x下參數(shù)θ1(相對于另外的參數(shù)θ2)為真實值的可能性。我們總是對隨機變量的取值談概率,而在非貝葉斯統(tǒng)計的角度下,參數(shù)是一個實數(shù)而非隨機變量,所以我們一般不談一個參數(shù)的概率,而說似然。

13:什么是深度學習,它與機器學習算法之間有什么聯(lián)系?

深度學習是與神經(jīng)網(wǎng)絡(luò)有關(guān)的機器學習的一個子集:如何使用反向傳播和神經(jīng)科學中的某些原理來更精確地建模大量未標記或半結(jié)構(gòu)化數(shù)據(jù)。從這個意義上說,深度學習是一種無監(jiān)督的學習算法,它通過使用神經(jīng)網(wǎng)絡(luò)來學習數(shù)據(jù)的表示。

14:生成模型與判別模型有什么區(qū)別?

15:交叉檢驗如何用在時間序列數(shù)據(jù)上?

與標準的k-folds 交叉檢驗不同,數(shù)據(jù)不是隨機分布的,而是具有時序性的。如果模式出現(xiàn)在后期,模型仍然需要選擇先前時間的數(shù)據(jù),盡管前期對模式無影響。我們可以如下這么做:

fold1:training[1], test[2]

fold2:training[1 2], test[3]

fold3:training[1 2 3], test[4]

fold4:training[1 2 3 4], test[5]

fold5:training[1 2 3 4 5], test[6]

16:如何對決策樹進行剪枝?

剪枝是在決策樹中,為了降低模型的復(fù)雜度,提高決策樹模型的預(yù)測精度,去除預(yù)測能力較弱的分支后所發(fā)生的現(xiàn)象,可以自下而上和自上而下進行,方法包括減少錯誤修剪和成本復(fù)雜度修剪。

減少錯誤修剪可以:替換每個節(jié)點。如果不降低預(yù)測精度,則保持修剪。雖然很簡單,但這種啟發(fā)式方法實際上非常接近于一種可以最大限度地優(yōu)化準確性的方法。

17:模型的精度和模型的性能哪個對你更重要?

這一切都與模型的準確性僅僅是模型性能的一個子集有關(guān)(因為還有召回率等等),在這一點上,有時是一個誤導(dǎo)。例如,如果你想在一個擁有數(shù)百萬樣本的海量數(shù)據(jù)集中檢測欺詐行為,那么一個更準確的模型很可能會預(yù)測,如果只有極少數(shù)的案例是欺詐行為,那么根本就不會有欺詐行為。然而,對于預(yù)測模型來說,這是無用的——一個旨在發(fā)現(xiàn)聲稱根本沒有欺詐的欺詐的模型!這樣的問題可以幫助您證明您理解模型的準確性并不是模型性能的全部。

18:什么是F1數(shù),怎么使用它?

F1分數(shù)是衡量模型性能的指標。它是模型精度和召回的加權(quán)平均值,結(jié)果趨向于1是最好的,結(jié)果趨向于0是最差的。你可以在分類測試中使用它,而真正的否定并不重要。

19:如何處理一個不平衡的數(shù)據(jù)集?

① 從數(shù)據(jù)的角度出發(fā),主要方法為采樣,分為欠采樣和過采樣以及對應(yīng)的一些改進方法。

② 從算法的角度出發(fā),考慮不同誤分類情況代價的差異性對算法進行優(yōu)化,主要是基于代價敏感學習算法(Cost-Sensitive Learning),代表的算法有adacost。

另外可以將不平衡數(shù)據(jù)集的問題考慮為一分類(One Class Learning)或者異常檢測(Novelty Detection)問題,代表的算法有One-class SVM。

從數(shù)據(jù)角度出發(fā)的不平衡數(shù)據(jù)集的處理方法對應(yīng)的python庫(imblearn)

不平衡數(shù)據(jù)的學習即需要在分布不均勻的數(shù)據(jù)集中學習到有用的信息。

原文鏈接:https://blog.csdn.net/asialee_bird/article/details/83714612

20:激活函數(shù)的作用。常用激活函數(shù)的優(yōu)缺點比較?

激活函數(shù)是用來加入非線性因素的,提高神經(jīng)網(wǎng)絡(luò)對模型的表達能力,解決線性模型所不能解決的問題。(深層神經(jīng)網(wǎng)絡(luò)表達能力就更加強大(不再是輸入的線性組合,而是幾乎可以逼近任意函數(shù))。)

常用激活函數(shù)的優(yōu)缺點:https://blog.csdn.net/tyhj_sf/article/details/79932893

21:舉個例子,說明使用集成學習會很有用。

集成學習通過組合一些基學習算法來優(yōu)化得到更好的預(yù)測性能,通??梢苑乐鼓P偷倪^擬合使模型更具有魯棒性。

(一些集成學習的例子,如bagging、boosting、stacking等,了解他們是如何增加模型預(yù)測能力的。)

22:避免過擬合

1. 保持模型盡可能地簡單:通過考量較少的變量和參數(shù)來減少方差,達到數(shù)據(jù)中消除部分噪音的效果。

2. 使用交叉檢驗的手段如:k-folds cross-validation。

3. 使用正則化的技術(shù)如:LASSO方法來懲罰模型中可能導(dǎo)致過擬合的參數(shù)。

23:如何評估你的機器學習模型的有效性?

首先你需要將數(shù)據(jù)分成訓(xùn)練集和測試集,或者使用給交叉驗證方法分割。然后你需要選擇度量模型表現(xiàn)的metrics,如F1數(shù)、準確率、混淆矩陣等。更重要的是,根據(jù)實際情況你需要理解模型度量的輕微差別,以便于選擇正確的度量標準。

24:如何評估一個LR model?

1.混淆矩陣 Confusion Matrix

1.1 準確率vs 錯誤率: accuracy = (TP+TN)/total error tate = (FP+FN)/total1.2 召回率(覆蓋率,正確預(yù)測的正樣本/實際正樣本) recall (sensitivity) = TP/AP1.3 負例覆蓋率 specificity = TN/AN

2.ROC 和 AUC(AUC, Area Under the ROC Curve)橫軸 (1- specificity) = 1 - TN/AN = FP/AP縱軸 recall (sensitivity) = TP/AP最佳篩查界值(cut-off值)的確定,一般選擇似然比最大的閾值

3.Lift(提升)和Gain(增益) K-S圖基尼系數(shù)

25:什么是核技巧,有什么用處?

核技巧使用核函數(shù),確保在高維空間不需要明確計算點的坐標,而是計算數(shù)據(jù)特征空間中的內(nèi)積。這使其具有一個很有用的屬性:更容易的計算高維空間中點的坐標。許多算法都可以表示稱這樣的內(nèi)積形式,使用核技巧可以保證低維數(shù)據(jù)在高維空間中運用算法進行計算。

26:如何處理數(shù)據(jù)集中丟失或損壞的數(shù)據(jù)?

您可以在數(shù)據(jù)集中找到丟失/損壞的數(shù)據(jù),然后刪除這些行或列,或者決定用另一個值替換它們。在pandas中,有兩種非常有用的方法:isNull()和dropna(),這兩種方法將幫助您查找缺少或損壞數(shù)據(jù)的數(shù)據(jù)列,并刪除這些值。如果要用占位符值(例如0)填充無效值,可以使用fillna()方法。

27:簡述反向傳播的過程?

做一個前饋運算;將模型輸出與期望輸出進行比較;計算誤差;向后運行前饋運算(反向傳播),將誤差分散到每個權(quán)重;以此來更新權(quán)重,得到一個更好的模型;持續(xù)這些步驟知道得到一個滿意的模型。

28:選擇一個算法。為并行實現(xiàn)編寫psuedo代碼。

這類問題展示了您并行思考的能力,以及如何在處理大數(shù)據(jù)的編程實現(xiàn)中處理并發(fā)性。請看一下偽代碼框架(如peril-L)和可視化工具(如Web序列圖),以幫助您展示編寫反映并行性的代碼的能力。

29:鏈表和數(shù)組之間有什么區(qū)別?

數(shù)組是有序的對象集合。 鏈表是一系列帶有指針的對象,指示如何按順序處理它們。 與鏈表不同,數(shù)組假定每個元素具有相同的大小。 鏈表可以更容易地有機增長:必須預(yù)先定義或重新定義陣列以進行有機增長。 改組鏈接列表涉及改變哪些點指向哪里 – 同時,改組數(shù)組更復(fù)雜并占用更多內(nèi)存。

30:描述哈希表。

哈希表是一種產(chǎn)生關(guān)聯(lián)數(shù)組的數(shù)據(jù)結(jié)構(gòu)。 通過使用散列函數(shù)將鍵映射到某些值。 它們通常用于數(shù)據(jù)庫索引等任務(wù)。

31:你使用哪些數(shù)據(jù)可視化庫? 你對最佳數(shù)據(jù)可視化工具有何看法?

這里重要的是定義您對如何在工具方面正確可視化數(shù)據(jù)和個人偏好的看法。 流行的工具包括R的ggplot,Python的seaborn和matplotlib,以及http://Plot.ly和Tableau等工具。

32、33、34、35、36、37:略

39:您通常在哪里尋找數(shù)據(jù)集?

像這樣的機器學習面試問題試圖讓你了解機器學習興趣的核心。 真正熱衷于機器學習的人將會獨自完成側(cè)面項目,并且很清楚那些偉大的數(shù)據(jù)集是什么。 如果您遺失任何內(nèi)容,請查看 Quandl 獲取的經(jīng)濟和財務(wù)數(shù)據(jù),以及 Kaggle 的數(shù)據(jù)集集合,以獲取其他優(yōu)秀列表。

40:你認為谷歌是如何為自動駕駛汽車提供培訓(xùn)數(shù)據(jù)的?

像這樣的機器學習面試問題確實測試了你對不同機器學習方法的知識,如果你不知道答案,你的創(chuàng)造力。谷歌目前正在使用 recaptcha 來獲取店面和交通標志上的標簽數(shù)據(jù)。他們還建立在由Sebastian Thrun在谷歌(Googlex)收集的培訓(xùn)數(shù)據(jù)的基礎(chǔ)上 — 其中一些數(shù)據(jù)是由他在沙漠沙丘上駕駛馬車的研究生獲得的!

41:你將如何模擬阿爾法戈在圍棋中擊敗李世乭的方法?

在五個系列賽中,阿爾法戈擊敗了圍棋中最優(yōu)秀的人類選手之一李世石,這是機器學習和深度學習史上一個真正具有開創(chuàng)性的事件。上面的 Nature 論文描述了這是如何通過蒙特卡洛樹搜索(Monte Carlo Tree Search)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)來實現(xiàn)的,這些神經(jīng)網(wǎng)絡(luò)經(jīng)過有監(jiān)督的學習、人類專家游戲和加強自玩游戲的學習。

42.請簡要介紹下SVM

支持向量機SVM是一個面向數(shù)據(jù)的分類算法,它的目標是為確定一個分類超平面,從而將不同的數(shù)據(jù)分隔開。支持向量機通俗導(dǎo)論

43.說說你知道的核函數(shù)

線性核

這實際上就是原始空間中的內(nèi)積。這個核存在的主要目的是使得映射后空間中的問題和映射前空間中的問題兩者在形式上統(tǒng)一起來了(意思是說,咱們有的時候,寫代碼,或?qū)懝降臅r候,只要寫個模板或通用表達式,然后再代入不同的核,便可以了,于此,便在形式上統(tǒng)一了起來,不用再分別寫一個線性的,和一個非線性的)。

44.KNN中的K如何選取的?

如果選擇較小的K值,就相當于用較小的領(lǐng)域中的訓(xùn)練實例進行預(yù)測,學習近似誤差會減小,只有與輸入實例較近或相似的訓(xùn)練實例才會對預(yù)測結(jié)果起作用,與此同時帶來的問題是學習的估計誤差會增大,換句話說,K值的減小就意味著整體模型變得復(fù)雜,容易發(fā)生過擬合;

如果選擇較大的K值,就相當于用較大領(lǐng)域中的訓(xùn)練實例進行預(yù)測,其優(yōu)點是可以減少學習的估計誤差,但缺點是學習的近似誤差會增大。這時候,與輸入實例較遠(不相似的)訓(xùn)練實例也會對預(yù)測器作用,使預(yù)測發(fā)生錯誤,且K值的增大就意味著整體的模型變得簡單。

K=N,則完全不足取,因為此時無論輸入實例是什么,都只是簡單的預(yù)測它屬于在訓(xùn)練實例中最多的累,模型過于簡單,忽略了訓(xùn)練實例中大量有用信息。

在實際應(yīng)用中,K值一般取一個比較小的數(shù)值,例如采用交叉驗證法來選擇最優(yōu)的K值。

45.機器學習中,為何要經(jīng)常對數(shù)據(jù)做歸一化。

1)歸一化后加快了梯度下降求最優(yōu)解的速度;

2)歸一化有可能提高精度。

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特征值域范圍非常大,那么距離計算就主要取決于這個特征,從而與實際情況相悖(比如這時實際情況是值域范圍小的特征更重要)。

46.歸一化的類型

1)線性歸一化

這種歸一化方法比較適用在數(shù)值比較集中的情況。這種方法有個缺陷,如果max和min不穩(wěn)定,很容易使得歸一化結(jié)果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實際使用中可以用經(jīng)驗常量值來替代max和min。

2)標準差標準化

3)非線性歸一化

經(jīng)常用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小。通過一些數(shù)學函數(shù),將原始值進行映射。該方法包括 log、指數(shù),正切等。需要根據(jù)數(shù)據(jù)分布的情況,決定非線性函數(shù)的曲線,比如log(V, 2)還是log(V, 10)等。

Copyright ? 2020-2023 山東行知科教儀器設(shè)備有限公司 版權(quán)所有 ?備案號:魯ICP備16020776號-2

地址:高新區(qū)萬福辦事處吳拐行政村 電話:0530-5837666 郵箱:2586826320@qq.com

關(guān)注我們

服務(wù)熱線

0530-5837666

掃一掃,關(guān)注我們