博客專欄

EEPW首頁 > 博客 > 獨家 | Kaggle 大神Dan Becker與你分享他的數(shù)據(jù)科學(xué)之旅!

獨家 | Kaggle 大神Dan Becker與你分享他的數(shù)據(jù)科學(xué)之旅!

發(fā)布人:數(shù)據(jù)派THU 時間:2021-01-08 來源:工程師 發(fā)布文章

 “如果我下定決心要進(jìn)入前1%,有可能在達(dá)成目標(biāo)前我就放棄了。這是一個過于困難的目標(biāo),如果我心里總想著這件事,那我永遠(yuǎn)無法去完成它。”

——Dan Becker

我堅信對于很多已經(jīng)拋棄Kaggle之旅的人來說都有這樣的經(jīng)歷,無法進(jìn)入榜單前1%,并且認(rèn)為練習(xí)也毫無意義。

好吧,Kaggle大佬系列帶著一篇新的采訪回歸了,這次我們請來了Dan Becke。

2.png

Becker可謂是Kaggle Notebooks 大佬,目前排在該類別榜單的第二位。他編寫的Notebooks不僅被數(shù)據(jù)科學(xué)初學(xué)者們廣泛參考,也是Kaggle learn免費課程中的一部分。貝克爾還是Kaggle數(shù)據(jù)集與討論組的專家。

Becker還是一家名為Decision.AI公司的創(chuàng)始人,該公司致力于幫助數(shù)據(jù)科學(xué)家們把他們的AI模型轉(zhuǎn)化成理想的商業(yè)業(yè)績。在此之前,他還在谷歌從事數(shù)據(jù)科學(xué),很了不起對嗎?

這篇采訪包括了以下幾大主題:

  • Becker從經(jīng)濟(jì)學(xué)到數(shù)據(jù)科學(xué)的跨界

  • Becker從零開始成為大佬的Kaggle旅程

  • Becker給予數(shù)據(jù)科學(xué)初學(xué)者們的建議

讓我們來讀一下這篇采訪,看看從中會有怎樣的感悟吧!

貝克爾的學(xué)業(yè)和工作

Analytics Vidhya (AV):“看您的教育背景是經(jīng)濟(jì)學(xué)博士。您能告訴我們自己是怎樣從經(jīng)濟(jì)學(xué)轉(zhuǎn)戰(zhàn)到數(shù)據(jù)科學(xué),從中面對過怎樣的挑戰(zhàn)嗎?”

Dan Becker (DB):“我最開始轉(zhuǎn)向數(shù)據(jù)科學(xué),是在讀到一篇新聞時。那篇新聞報道稱有一個Kaggle競賽設(shè)置300萬美元的巨額獎金。當(dāng)時我使用經(jīng)濟(jì)學(xué)中的傳統(tǒng)技術(shù)做了一次提交,結(jié)果我排在了排行榜的倒數(shù)10%。我至今仍記得自己在看到那一結(jié)果時的感覺。我本以為自己在建模方面很擅長,所以很難接受自己排名墊底。但這個結(jié)果激勵了我進(jìn)一步學(xué)習(xí)和進(jìn)步。第二年,每天夜里,我都在努力優(yōu)化自己的結(jié)果,或者是學(xué)習(xí)更多關(guān)于機(jī)器學(xué)習(xí)的知識。我的排名每次都能前進(jìn)幾名,在這項賽事中排在了1353個隊伍中的第二名。最終,我完成了自己成為數(shù)據(jù)科學(xué)家的轉(zhuǎn)變?!?/p>

AV:“您曾在世界上最好的公司之一——谷歌任職數(shù)據(jù)科學(xué)崗位,在這樣的大公司擔(dān)任數(shù)據(jù)科學(xué)家角色需要運用到什么技能或知識呢?”

DB:“根據(jù)具體的角色,在谷歌的每個人都會有所不同。加入谷歌時,我已經(jīng)做了差不多有七八年的數(shù)據(jù)科學(xué)家。就我的性格來說,我總會擔(dān)心自己落后,所以一直在不斷學(xué)習(xí)。也因此,我在數(shù)據(jù)科學(xué)領(lǐng)域的知識面比較廣。從應(yīng)聘面試角度來看,谷歌喜歡問算法問題?!冻绦騿T面試金典(Cracking the Coding Interview)》是很多大型科技公司的最佳面試準(zhǔn)備材料?!?/p>

AV:“除Kaggle外,您創(chuàng)辦了Decision.ai,一個可以幫助數(shù)據(jù)科學(xué)家把AI模型轉(zhuǎn)化成商業(yè)業(yè)績的工具。您能解釋說明下是如何把AI模型轉(zhuǎn)化成商業(yè)模型的嗎?”

DB:“對于分析師和數(shù)據(jù)科學(xué)家來說,Decision AI是一個從他們所構(gòu)建的機(jī)器學(xué)習(xí)模型中獲得更多商業(yè)價值的工具。監(jiān)督學(xué)習(xí)模型能夠做出預(yù)測,但是對于如何去使用這些預(yù)測結(jié)果有些僵化。我來給你舉一個例子:

一個數(shù)據(jù)科學(xué)家構(gòu)建了一個預(yù)測詐騙金融交易的模型。對于一筆交易,模型表示有5%的可能是欺詐?,F(xiàn)在問題來了,你對此做怎樣的反應(yīng)呢?有些人會用一個簡單的閾值,比如說駁回所有超過10%可能性是欺詐的交易。

你將預(yù)測結(jié)果轉(zhuǎn)化成真實世界行為的方式被稱為‘決策函數(shù)’?,F(xiàn)在問題就變成了‘什么是最佳的決策函數(shù)’。對于每一次交易,你可能要考慮客戶的價值,因為這代表了如果拒絕這筆交易會帶來怎樣的后果。你要與接受欺詐交易的成本做比較,而這個成本可能取決于交易金額。

所以這筆交易所有的信息都需要在決策函數(shù)中有所考慮。我們不可能自動發(fā)現(xiàn)準(zhǔn)確的決策函數(shù)。但是我們可以提供一個工具,讓數(shù)據(jù)科學(xué)家們嚴(yán)格優(yōu)化做決策的過程。

這種情況并非金融詐騙所獨有。我們可以將其運用到供應(yīng)鏈管理、預(yù)測性維護(hù)、產(chǎn)品定價、醫(yī)療衛(wèi)生等其他一些領(lǐng)域。

在很多實際案例中,人們都會驚訝于他們能在做決策方面變得更好。在很多案例中,他們最開始認(rèn)為這不是數(shù)據(jù)科學(xué)家該做的工作,應(yīng)該由其他人來做。但當(dāng)使用了我們的工具后,他們意識到通過嚴(yán)格的決策優(yōu)化可以增加多少利潤,即使免不了要與其他利益相關(guān)者合作。

貝克爾從零開始成為Kaggle大師的旅程

1.png

AV:“你現(xiàn)在是Kaggle Notebooks大師,目前排名第二,首先為此向你致敬,這真的是太了不起了!有一個很多人都想問你的問題:‘你對于創(chuàng)造一個專業(yè)級的Notebook,會使用什么框架和策略?有一份清單嗎?’”

DB:“我并沒有列一份清單。我的很多Notebook都是在Kaggle Learn課程上精選的,這也是能夠吸引大家的一大原因。

一般情況下,我會把Notebook分為兩類:

第一類Notebook是關(guān)于教育的,這種都涉及某個特定的技術(shù)。舉例說,你可以做一個關(guān)于如何使用Seaborn進(jìn)行數(shù)據(jù)可視化的Notebook。在這里面,我不會加入太多關(guān)于pandas或者scikit-learn的東西,因為這些會分散注意力。

最理想的情況下,這篇Notebook可以解釋你自己對于seaborn的心智模型,而不只是列一堆示例。這樣的話,在讀完你的Notebook后我就能知道自己如何去做一些事情。

第二類Notebook是受好奇心驅(qū)使的。這些可能獲得較少的點贊,但我個人還是很喜歡。比如說,我可能會好奇森林大火隨著時間推移的趨勢是怎樣的。我找到一個數(shù)據(jù)集,接著繪制了幾副圖表,開始嘗試去回答這一問題。通常,在第一個圖表中,我會提出新問題,然后在用幾副圖表來回答它們。

AV:“這真的是太棒了。請問您在最初開啟Kaggle生涯時遇到的挑戰(zhàn)是什么,又是怎樣克服的呢?”

DB:“最開始,我遇到的挑戰(zhàn)就是自己還不夠出色。我沒想過自己能夠進(jìn)入前1%,但是我很享受進(jìn)步的過程。這讓我每天都堅持努力。如果我總是期待自己進(jìn)入前1%,我可能在完成目標(biāo)前就放棄了。這實在是一個在我完成前就會考慮放棄的目標(biāo)。

Kaggle 現(xiàn)在有很多頂級選手,我在10年前就開始參與。對于大多數(shù)來說,我不認(rèn)為這是邁向?qū)I(yè)道路的絕佳途徑,對我來說,找到一個可以從中學(xué)到東西的社區(qū)更有希望?!?/p>

AV:“您現(xiàn)在有超過180篇Notebook被數(shù)據(jù)科學(xué)初學(xué)者廣泛引用。您是否考慮過專注于Notebook呢?還有您選擇Notebook的主題標(biāo)準(zhǔn)是什么?”

DB:“我為Kaggle Learn上的免費課程編寫了一些Notebook,很多我的Notebook都是來自于那里。目前我沒有繼續(xù)做這塊,我所做的Notebook基本上都是受好奇心驅(qū)使,對真實世界某個問題的好奇?!?/p>

AV:“180+是一個不小的數(shù)字,您有哪5篇是自己最想推薦給我們社區(qū)的呢?”

DB:“我創(chuàng)辦了一個可解釋性機(jī)器學(xué)習(xí)課程,地址是 https://www.kaggle.com/learn/machine-learning-explainability 這些無疑都是我最喜歡的Notebook。”

AV:“考慮到您見證了Kaggle從最初到現(xiàn)在的成長,您能告訴我們在這一旅程中有沒有一兩個里程碑讓你覺得很關(guān)鍵?”

DB:“我在遺傳健康比賽中最終拿到了第二名的成績,毫無疑問那是我個人最大的里程碑。我還首次利用深度學(xué)習(xí)技巧完成了比賽。這是在Keras,PyTorch或者TensorFlow這樣的工具出現(xiàn)之前。當(dāng)時我用了一個名為PyLearn2的庫。在參加那次比賽時,我還為PyLearn2的開源做了一些貢獻(xiàn)?!?/p>

對數(shù)據(jù)科學(xué)初學(xué)者的建議

AV:“作為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的行業(yè)領(lǐng)導(dǎo)者,您能給予初學(xué)者們一些讓他們在這個行業(yè)立足的經(jīng)驗嗎?”

DB:“我認(rèn)為先去學(xué)習(xí)大量的理論然后再去動手實踐是錯誤的。我看到有些人花了幾年的時間成為數(shù)據(jù)科學(xué)家,結(jié)果他們對實際工作中如何運用這些理論卻不太了解。相反,我更喜歡先學(xué)一些最基礎(chǔ)的,能夠用來參加一個像Kaggle競賽這樣的項目。然后等你獲得足夠的經(jīng)驗時,再去學(xué)習(xí)更多的理論,以便你能理解這些理論在哪里被運用。

還有,你需要學(xué)習(xí)如何使用Git,如何和其他人合作。最后,要學(xué)會很好地使用Pandas。大多數(shù)數(shù)據(jù)科學(xué)家花費在處理和清洗數(shù)據(jù)上的時間要比使用高級算法的時間多10倍?;蛟S深度學(xué)習(xí)很有意思,但是Pandas才是更實用的。” 我認(rèn)識很多想雇數(shù)據(jù)科學(xué)家的人,他們都抱怨熟練使用Pandas的數(shù)據(jù)科學(xué)家怎么如此短缺。

AV:Kaggle對于成為成功的數(shù)據(jù)科學(xué)家來說經(jīng)常是敲門磚。您能夠給予初學(xué)者一些建議讓他們在這一平臺上產(chǎn)生影響力嗎?

DB:“有些人參與Kaggle為了拿到一定的排名來幫助他們找到工作。這樣的方式是錯誤的。排名并不會幫助你找到工作,除非你贏下了一項競賽或者接近贏下競賽,可99.9%的參賽者無法完成這一目標(biāo)。

幸運的是,Kaggle是一個對于學(xué)習(xí)很有幫助的地方。我非??粗貜钠渌松砩蠈W(xué)到東西。與比賽中的人一同合作,或者分享你的Notebook來獲得其他人的反饋或建議。

找到你覺得有趣的數(shù)據(jù)集,創(chuàng)造你自己的項目來分享。Kaggle可能是通過實踐來學(xué)習(xí)的最佳地點。如果你覺得自己還沒做好上述準(zhǔn)備,那么就從Kaggle Learn開始吧?!?/p>

AV:“經(jīng)常見到有人參加黑客馬拉松甚至取得理想的結(jié)果,但當(dāng)把結(jié)果轉(zhuǎn)化成商業(yè)或工業(yè)成果時,總是會遇到麻煩?;谀慕?jīng)驗,你會給出他們怎樣的建議來跨越這兩者之間鴻溝?”

DB:“這很難,但這確實是一個很重要的問題。在解決商業(yè)問題時,有很多是你在黑客馬拉松或者業(yè)余愛好項目中是不需要面對的。如果你能做到,找一個數(shù)據(jù)科學(xué)或數(shù)據(jù)分析的工作會對你發(fā)現(xiàn)這些問題很有幫助。我覺得這應(yīng)該是你的首要目標(biāo)。

除了這一點以外,對于每一個項目,你都需要花一點時間來明白今天要做出這些決定的方式,以及你可以在哪些方面提供幫助。如果這個決定是人為的,那你可能要開始繪制一些圖表來讓他們覺得有所幫助。然后看一下你是否可以發(fā)送這些圖表,然后和他們開啟一段對話。這個過程可能不如建立機(jī)器學(xué)習(xí)模型有趣。但是你要知道,沒有人會因為你發(fā)送給他們一個模型而啟動一個會談。所以我都是盡可能地涉及一個真實的決策過程?,F(xiàn)在這些依舊很難?!?/p>

AV:您是那種每個人都想成為的人。您能列舉出五位激勵您前進(jìn)的數(shù)據(jù)科學(xué)專家嗎?

DB:“我期待強(qiáng)化學(xué)習(xí)在未來能夠起到深遠(yuǎn)的影響(即便現(xiàn)在還沒達(dá)到),所以我特別喜歡閱讀Sergey Levine的研究。這些內(nèi)容有點更偏重于研究,但 BAIR blog是我最喜歡的內(nèi)容之一。

我非常尊重 Thomas Wiecki 以及其他讓貝葉斯相關(guān)方法的應(yīng)用變得更加廣泛的人。

我和 Tim Salimans 在Kaggle競賽中有過合作,他非常的聰明。我們沒有經(jīng)常聯(lián)系,但在我讀到他的研究時還是很興奮。Susan Athey 以一種我非常欣賞的方式將經(jīng)濟(jì)學(xué)和機(jī)器學(xué)習(xí)結(jié)合起來。Andrew Gelman  在對數(shù)據(jù)集的使用上有獨到的見解,他稱自己為統(tǒng)計學(xué)家,但是我認(rèn)為區(qū)分統(tǒng)計學(xué)和數(shù)據(jù)科學(xué)不是很重要”。

結(jié)語

這是一篇相對嚴(yán)肅且鼓舞人心的采訪。我們希望你能從采訪里所談?wù)摰膬?nèi)容中有所吸收,幫助你在數(shù)據(jù)科學(xué)旅程中向前邁進(jìn)。

原文鏈接:

https://www.analyticsvidhya.com/blog/2020/12/kaggle-grandmaster-series-Notebooks-grandmaster-and-rank-2-dan-beckers-data-science-journey/

原文標(biāo)題:

Kaggle Grandmaster Series – Notebooks Grandmaster and Rank #2 Dan Becker’s Data Science Journey!

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

fpga相關(guān)文章:fpga是什么


存儲器相關(guān)文章:存儲器原理




關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉