Hugging Face：成為機器學習界的“Github”

發(fā)布人：AI科技大本營時間：2022-09-17 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

以下文章來源于OneFlow ，作者OneFlow社區(qū)

五年前，AI領域的知名研究者Andrej Karpathy發(fā)文稱，傳統(tǒng)人工編程屬于“軟件1.0”，“軟件2.0”時代將以神經(jīng)網(wǎng)絡來編程，在這個過渡過程中，將涌現(xiàn)像GitHub這樣的重量級平臺。

AI屆網(wǎng)紅公司“抱抱臉（Hugging Face）”有志于成為“軟件2.0”時代的GitHub。在Hugging Face上，用戶可以托管機器學習模型和數(shù)據(jù)集等，對它們進行共享、協(xié)作和評價，最后將它們投入生產(chǎn)應用，這種模式有點像Github上的托管和協(xié)作模式。如今，依靠明星項目Transformers庫走紅的Hugging Face的關注點不止于NLP庫。Hugging Face已經(jīng)共享了超100,000個預訓練模型，10,000個數(shù)據(jù)集，涵蓋了 NLP、計算機視覺、語音、時間序列、生物學、強化學習等領域，以幫助科學家和相關從業(yè)者更好地構建模型，并將其用于產(chǎn)品或工作流程。
對于這些耀眼的成績，在此前的《一個GitHub史上增長最快的AI項目》一文中，Hugging Face的CEO兼聯(lián)合創(chuàng)始人Clément Delangue分析稱，主要是因為Hugging Face彌補了科學與生產(chǎn)之間的鴻溝，通過搭建平臺為開源界和科學界賦能，所產(chǎn)生的價值比通過搭建專有工具產(chǎn)生的價值要高上千倍，而很多開源軟件和公司都沒有做到這一點。 Hugging Face培育了一個龐大的開源社區(qū)，商業(yè)化似乎也順理成章。目前，已有超過10,000家公司在使用他們提供的產(chǎn)品和服務，其中付費用戶超過1000。在資本市場，Hugging Face也備受青睞，它于今年5月完成1億美元的C輪融資，估值達到20億美元。在Pieter Abbeel近期主持的The Robot Brains Podcast節(jié)目中，Clement Delangue聊了聊Hugging Face的發(fā)展歷程，開源協(xié)作和商業(yè)化以及機器學習行業(yè)的發(fā)展。以下為對話內容，由OneFlow社區(qū)編譯。

從研發(fā)聊天機器人到開源平臺

Pieter：2016年當你們創(chuàng)業(yè)時，為什么一開始決定開發(fā)聊天機器人？后來又是怎樣改變想法搭建了機器學習開源庫？ Clement：我和Julien Chaumond、Thomas Wolf一起創(chuàng)辦了Hugging Face。我們非常熱愛機器學習，認為機器學習代表未來，是我們想為之奮斗的事業(yè)。我們希望挑戰(zhàn)機器學習領域最難的方向，所以決定開發(fā)一個娛樂型的開放域對話式AI，就像科幻電影《Her》里面的AI那樣，可以跟人聊天氣、朋友、愛情和體育比賽等各種話題。市場上還沒有人很好地做出這樣的聊天機器人，當時的Siri和Alexa都是事務型AI，主要是為了幫助人類完成某些任務，缺乏趣味性和娛樂性。所以我們就定下了這個創(chuàng)業(yè)方向。為了做好開放域的對話式AI，我們必須做好一系列不同的機器學習任務。我們需要從文本中提取信息，理解文本意圖和情感，還要生成回答，對話中涉及圖片時還需要進行圖像識別。我們還希望AI能夠駕馭多種聊天話題，所以需要多種數(shù)據(jù)集，比如聊體育比賽要有體育數(shù)據(jù)集，聊天氣要有天氣數(shù)據(jù)集等等。剛開始的兩年我們都在做這件事，很幸運在創(chuàng)業(yè)初期就能夠把自己想做的事做好。后來就搭建了Hugging Face平臺，上面有各種不同的模型和數(shù)據(jù)集，幾乎想到什么就加進去，因為我們一直希望能為整個機器學習社區(qū)做貢獻。在我們決定開源后，就得到了熱烈反響，大家都踴躍地貢獻代碼，很多公司也開始使用Hugging Face庫，讓我們覺得創(chuàng)造了巨大的價值。雖然當時還不清楚這個平臺的具體意義是什么，但既然有這么多人感興趣，那它一定有比較大的作用。幾個月后，我們就決定從研發(fā)聊天機器人轉向搭建機器學習平臺，然后在這條路上一直走到今天。這是我們創(chuàng)業(yè)途中最正確的決定，我們對此非常開心。 Pieter：你們當初為什么選擇開源模式？ Clement：不同公司想法不同，有些公司認為其主要競爭力在于擁有其他公司所沒有的技術，而我們認為公司的競爭力在于技術是否創(chuàng)新，開發(fā)速度是否夠快，所以選擇了開源。在機器學習這樣快速發(fā)展的領域，技術更迭日新月異。通過開源共享，既可以幫助他人，又可以為社區(qū)吸引到優(yōu)秀人才，從而提高自己解決問題的能力。盡管有些人可能不愿意為社區(qū)做貢獻，但我認為開源是一個明智的決定，可以提高技術敏感度，保證公司永遠處于技術前沿。現(xiàn)在很多AI公司已經(jīng)失去了技術優(yōu)勢，即使是盈利良好的公司也招不到AI領域的核心人才，這個問題很致命，因為沒有前沿技術人才，做出來的東西都是落后、過時的。 Pieter：我記得Hugging Face平臺一開始開源的是Transformer庫。2017年，Google在Attention is All You Need這篇論文中提出了Transformer模型，可以說是繼Geoffrey Hinton團隊的AlexNet后AI界最重大的突破之一。Transformer模型公布時，你們有什么想法？ Clement：我們那時一直很關注行業(yè)動態(tài)，比如Jeremy Howard 和Sebastian Ruder發(fā)表的成果（https://arxiv.org/abs/1801.06146）。我們也在實踐一些好的想法，比如表征學習（representation learning）。我們讀了那篇Transformer論文，后來又試用了BERT模型，覺得非常震撼，決定做點什么。我們的庫建起來后，很快就吸引了很多用戶，覺得可以在這方面發(fā)揮重大影響力。 Pieter：現(xiàn)在人們參與和使用機器學習的方式有很多，有人需要機器學習API，有人需要下載模型用以訓練，還有人可能只需要訓練模型的數(shù)據(jù)。在這么多不同的需求中，Hugging Face如何找準定位？ Clement：Hugging Face的用戶所選擇的抽象層不僅取決于他們的公司類型，還取決于他們在機器學習開發(fā)周期中所處的階段，用戶在機器學習開發(fā)周期的不同階段需要不同的抽象層。當他們處在構建新產(chǎn)品或者構建工作流新功能的初始階段，他們可能希望從最簡單的抽象級別開始，例如從API甚至是demo開始。他們可以在Hugging Face平臺上立即試用和測試所有的模型，無需編寫任何代碼。這樣他們就可以在項目初期非常方便地測試新模型、新用例和新功能。隨著新功能逐漸開發(fā)成熟，用戶會希望自己能夠操控更多內容，也愿意投入更多資源，在自己的設備上優(yōu)化大規(guī)模推理、降低延遲。這時，他們可以逐漸接觸HuggingFace堆棧中更多的可擴展內容，例如可以使用幾乎囊括了市面上最受歡迎的開源庫。 Pieter：對用戶來說，Hugging Face是一個提供模型的平臺，但用戶也是Hugging Face平臺模型共享的貢獻者，你們如何引導用戶進行共享？ Clement：Hugging Face社區(qū)的發(fā)展是一個有機的過程，我們很樂意根據(jù)社區(qū)用戶的意見改進Hugging Face平臺。平臺創(chuàng)立初期，完全是社區(qū)驅動，我們先搞清楚研發(fā)人員想要什么，然后去滿足他們的需求。比如研發(fā)人員最初想要的是一個托管模型的平臺，我們就構建了這樣的平臺。
后來吸引了一些非研發(fā)的用戶，他們也想要試用模型，但是運行不起來，所以我們就開始支持在web界面演示模型，比如之前收購的Gradio支持用Python演示機器學習模型。
也有研發(fā)人員提出來，是否可以提供途徑讓他們能就模型的偏差和局限進行說明，所以我們就推出了模型卡（model card），這樣研發(fā)人員可以與想使用模型的公司進行溝通，這類似于一個迭代的過程。模型卡的提出者Margaret Mitchell博士也在幾個月后離開谷歌，加入了我們的團隊。 Pieter：Hugging Face提供的是平臺，那你們怎么獲得收入？ Clement：如果你看看過去十年市場上初創(chuàng)公司的創(chuàng)業(yè)歷程，會發(fā)現(xiàn)開源模式的商業(yè)可行性得到了有力印證。像MongoDB、Elastic、Confluent等是收入增長最快的開源公司，獲得了商業(yè)上的成功。開源的目的是為整個行業(yè)創(chuàng)造更大的價值，通過開源，模型可以得到非常廣泛的使用。有一萬多家公司在使用Hugging Face的超過十萬個模型，其中一半的模型是公開的，任何人都可以使用。在如此龐大的用戶群體中，總有一部分公司愿意付費，例如一些大型公司希望付費獲得更多的企業(yè)功能，還有一些公司因為重度依賴Hugging Face平臺而產(chǎn)生了某些特定的需求，所以希望通過付費得到解決。因為我們秉持做好機器學習和實現(xiàn)機器學習“平民化”的信念，所以我們一定不能成為閉源公司單打獨斗，我們希望采取一種非常開放的協(xié)作方式，讓任何人都可以和我們一起做出貢獻。

“開放科學“推動機器學習的發(fā)展

Pieter：一年前，我一直認為Hugging Face是NLP開源的大本營，但最近Hugging Face中新增了很多視覺模型。 Clement：目前在Hugging Face上語音模型和視覺模型都很熱門，語音模型的下載量是每月約30萬次，視覺模型的下載量每月超20萬次。像Vision Transformer這樣的Transformer模型在語音和視覺領域已經(jīng)開始超過一些SOTA模型。我們剛剛完成了C輪融資，會持續(xù)加大對計算機視覺、語音強化學習、生物化學等方面的投入。我更期待看到不同領域之間的結合：比如將語音與NLP、計算機視覺結合，添加強化學習來做對齊。通過將機器學習的不同領域進行融合，我們可以探索如何提高傳統(tǒng)任務的精確度，讓研發(fā)人員和公司更易上手；同時可以探索創(chuàng)建新的用例，解決遺留難題。 Pieter：雖然現(xiàn)在Hugging Face已經(jīng)不局限于NLP，但你們一直處于NLP發(fā)展的中心。過去五年NLP的發(fā)展速度太瘋狂，你如何看待NLP的迅猛發(fā)展，以及它未來的發(fā)展前景。 Clement：NLP的發(fā)展速度確實很瘋狂，這種迅速發(fā)展的起點大概是Google在2017年發(fā)表的論文《Attention is All You Need》，接著2018年出現(xiàn)了BERT模型。 Transformer模型基本上在每一項NLP任務和每一個基準測試中擊敗所有的SOTA模型。自此，越來越多的預訓練模型出現(xiàn)，從BERT開始，然后是GPT，RoBERTa以及T5。這些新一代的模型讓NLP變得更準確、易用。所以在這些模型發(fā)布幾周后，許多公司借助Hugging Face平臺和開源庫，開始將這些模型應用到生產(chǎn)中，例如搜索功能、信息提取功能、文本分類功能等。然后就產(chǎn)生了一個良性循環(huán)：這些模型越來越完善，準確性越來越高，公司使用這些模型并且看到了其中的價值，然后在機器學習和NLP中加大投入，從而獲得更好的模型。這種良性循環(huán)徹底改變了NLP領域的格局，把NLP這個三四年前還很小眾的機器學習領域，變?yōu)楫斀褡畲蟮臋C器學習門類。現(xiàn)在Transformer模型已經(jīng)改變了NLP領域的格局，也開始應用在語音、視覺、強化學習等范疇。這得益于“開放科學”的推動，“開放科學”指的是，全世界頂尖研究實驗室的科學家都公開自己的研究論文，將自己的模型面向全世界開源。我之所以提起這一點，是因為現(xiàn)在參與“開放科學”和開源的實驗室越來越少了。我希望喚起大家對開源和開放的重視，沒有這種精神就沒有Hugging Face今天的發(fā)展。如果大家不再公開分享自己的成果，未來我們的發(fā)展速度就會變慢。 Pieter：“開放科學”的力量非常強大，特別是在機器學習領域。我想，現(xiàn)在越來越多人選擇閉源是因為訓練模型的成本太高了。他們花了數(shù)百萬美元來處理海量數(shù)據(jù)、訓練模型，因此很難狠下心將模型公開提供給外界免費使用。 Clement：是的。聘請機器學習人才的成本也非常高，不過縱觀整個模型生態(tài)，雖然初始訓練的成本略顯高昂，但一旦訓練完成，就可以直接用在很多用例中，模型利用率非常高。以往，我們必須針對每項任務、每個領域、每種語言和每個用例重新訓練模型，現(xiàn)在如果想讓模型執(zhí)行新領域的新任務，甚至處理一種全新語言，后續(xù)對它們進行成本較低的微調就可以了。這就是遷移學習的美妙之處。
當然，大多數(shù)的模型訓練都是由科技巨頭或大公司完成，它們資金充裕，所以幾百萬美元的訓練成本對它們來說也只是九牛一毛。如果綜合考慮各種因素，我認為現(xiàn)在選擇將模型開源共享依然十分劃算，因為開源帶來的收益要比投入的訓練成本多得多。開源可以讓更多人接觸到你的模型，提高知名度，可以幫你培育生態(tài)，提升模型性能，減少模型偏差，還可以幫你吸引到更優(yōu)秀的研究員，因為杰出的研究員會更希望為整個行業(yè)做貢獻，而不僅僅是為某一家公司服務，這也解釋了為什么科學界一旦有了新研究成果，總要發(fā)表論文公開研究成果。機器學習也是一個科學推動的領域，因此同樣適用這個道理?？上壳按蠹曳譃闆芪挤置鞯膬纱箨嚑I，有人關注模型的短期經(jīng)濟效益，有人著重長遠的可持續(xù)效益。 Pieter：Transformer模型似乎比以往的模型更通用，似乎朝著人類大腦的通用性邁近了一步。你認為Transformer模型的通用性在代碼上有所體現(xiàn)嗎？如果要用Transformer模型處理不同的任務，有多少代碼可以共享？ Clement：沒錯，代碼共享是遷移學習的一大特性，而遷移學習是Transformer模型的基礎，也是機器學習中最令我感到振奮的發(fā)展方向，它可以提高通用性。一開始Transformer模型只是應用于NLP和文本處理，但現(xiàn)在還可以應用于其他模態(tài)。于是現(xiàn)在誕生了更多的多模態(tài)模型，例如CLIP和DALL-E是“文本+圖像”的混合，我相信，未來不同模態(tài)之間的界限會漸漸消失。 Andrej Karpathy 在Twitter上發(fā)表過一系列帖子，很好地解釋了為什么不同模態(tài)之間的差別會漸漸縮小。我相信大概在三年后，我們不會再按照不同模態(tài)把機器學習細分為計算機視覺和NLP等領域，而只會整體談論Transformer模型、遷移學習和機器學習。因為區(qū)分多種模態(tài)已經(jīng)沒有必要，不同模態(tài)僅意味著模型的輸入數(shù)據(jù)類型有所不同而已。這種通用性也會給機器學習注入新活力。首先，原本分屬不同領域的研究者可以合作，促進科研發(fā)展；其次，不同的公司可以使用相同的抽象，這樣它們開發(fā)新功能時就會容易很多。例如，不同公司要研發(fā)的功能和使用的工作流有所不同，但它們都可以使用Hugging Face平臺上的資源，而不必單獨重新研發(fā)新系統(tǒng)。很多公司一開始只是研發(fā)一個非常簡單的功能，例如信息提取。完成了這個功能后，基于模型的通用性，他們又可以用同一個模型繼續(xù)研發(fā)文本分類功能，再到文本自動補全功能，繼而拓展到圖像分類，可以一直不斷發(fā)展下去。最終，更多公司可以開發(fā)更多機器學習功能——這就是實現(xiàn)機器學習的“平民化”。

Hugging Face的工作方式

Pieter：作為一個超級籃球迷，我發(fā)現(xiàn)NBA球星杜蘭特也投資了你們。 Clement：我們認識的過程挺有意思。杜蘭特是天使投資人之一的Brian Pokorny推薦認識的，Brian在SV Angel工作，在公司成立早期，他給了我們很多幫助，大家都叫他“教練”。Brian把我介紹給杜蘭特和他的投資公司Thirty Five Ventures的經(jīng)理人Rich Kleiman，我們就這樣認識了。我是一個法國人，之前對NBA了解也不多。第一見他時不知道他的身份，就像和普通人說話一樣和他正常交流，也沒有像粉絲見到偶像一樣激動。盡管他沒有說，但我認為他還是很贊同這種溝通方式。他非?？春脵C器學習這類技術工作的前景，而且整個溝通過程比較輕松，不像和其他公司溝通時那么嚴肅，但對待自己的事業(yè)，我們都是認真負責的。還有一個比較有意思的事，他投資我們時還在勇士隊，于是作為合作伙伴，我開始支持勇士隊，當時我住在紐約，但是帶著金州勇士隊的帽子。兩年后，他加入了離我一個街區(qū)遠的布魯克林籃網(wǎng)隊，當時我住在巴克萊中心（籃網(wǎng)隊主場）旁邊的格林堡。然后我就犯難了。如果轉向支持籃網(wǎng)隊，我會被人說是“叛徒”；如果繼續(xù)支持勇士隊，但杜蘭特就在離我一個街區(qū)遠的球隊打球，我很為難，所以那時我選擇停止關注NBA。 Pieter：C輪融資完成后，團隊的規(guī)模也在逐步擴大吧？ Clement：是的，Hugging Face開放了很多崗位。團隊從去年的30人擴大到了現(xiàn)在130多人，計劃在年底擴大到200人左右。我們的招聘方式和傳統(tǒng)的招聘方式不太一樣，我們想找一些和公司文化相符合，能夠擴大公司價值的人，所以沒有設置特定的崗位名稱和崗位職責。
我認為，不管處在什么崗位，從事什么樣的工作內容，只要員工認可我們的事業(yè)并且愿意為之奮斗，他們都可以找到自己的價值，在公司發(fā)光發(fā)熱。我們一直堅守”去中心化、開放協(xié)作、價值導向“的價值觀。 Pieter：你們的辦公地點散落在不同城市，日常工作方式是怎樣的？ Clement：Hugging Face在成立之初就在不同城市有辦公地點，我在紐約，Julien Chaumond在巴黎，Thomas Wolf在荷蘭。現(xiàn)在我們在巴黎和紐約有幾個大的辦公室，在帕洛阿爾托（位于美國加利福尼亞州圣克拉拉縣西北部）、瑞士、倫敦、法國南部各有一間小辦公室。我目前主要在佛羅里達州邁阿密的辦公室工作，有時也會飛到另一個地方辦公。我們團隊約60%的成員都在世界各地遠程辦公，有時會飛到辦公室和團隊成員一起線下辦公。在2016年公司創(chuàng)立早期，我們就開始遠程辦公，并且一直延續(xù)至今，這對去中心化的公司文化非常合適。去中心化的核心是異步、公開和透明，比如我們的溝通都是在Twitter和Slack上進行。新冠疫情爆發(fā)后，員工去辦公室受到了限制，而此時遠程辦公的工作方式優(yōu)勢盡顯。
（本文經(jīng)授權后編譯發(fā)布。原視頻：https://www.youtube.com/watch?v=db_ltgsCR54&list=PLwrcw5ryumgCwOvOsU7U5XIr7OHfjc1Ur&index=37）

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

Hugging Face：成為機器學習界的“Github”

相關推薦

技術專區(qū)