2013年12月17日 星期二

Bigdata 巨無霸,到底怎麼分析?數據科學家會幫你把它變小

雖然很多人藉由免費的線上課程來學習數據科學,但是許多公司還是缺少專業的數據科學家。
Pinterest 是全球最大的圖片社交分享網站,其團隊中有 13 位成員主要負責數據科學、工程與分析,而 Pinterest 希望藉由其收集的數據,做出更好的決策,並設計出更好的產品,所以這樣的成員永遠也不嫌多。
數據科學家是個充滿神秘感的工作,我們也都知道數據科學家被《哈佛商業評論》稱之為「二十一世紀最性感的職業」,但是數據科學家到底在做什麼? 他們在乎些什麼? 而他們是如何與其他員工互動呢?
你可以到 Pinterest 上看一下數據科學家的工作描述。根據這個月公佈的一項職業描述,適合這項工作的人要「藉由有效與可操作的分析來揭示業務和產品的機會、與不同部門的團隊合作並提供專業的數據知識、預測 Pinner(Pinterest 用戶)的行為和興趣」等。
你也可以跟《VentureBeat》一樣直接去找數據科學家,向他們提出問題。
《VentureBeat 》發了 e-mail 給 Pinterest 的兩位工程師  Andrea Burbank 與 Mohammad Shahangian ,而且很幸運地得到了他們的回音。
下圖:中間的紅衣女士為搜尋與數據挖掘工程師 Andrea Burbank 
下圖:左邊的男士為數據科學家兼基礎設施工程師 Mohammad Shahangian
這兩位數據工程師鑑定了關鍵指標,根據數據而指向產品決策,並解釋他們如何幫助公司的同事分析數據。
以下是經過整理的《VentureBeat 》採訪記錄。
  • 請談談你們曾執行的數據科學計畫,以及數據分析對產品產生了什麼變化。
Burbank :這裡指的計畫很廣泛。行動裝置的使用如何影響用戶的參與、新用戶的行為、網站的重新設計會如何影響用戶的行為,這些都可能導致用戶是否會成為長期 Pinterest 用戶。我們幾乎是立即的使用這些結果:為新用戶設計改良的用戶動線、在重新設計的網站中添加特性,刺激已經消失的用戶行為、並在 email 與網站中提供行動應用程式的連結等等。
  • 你們是如何定義什麼是好的或是成功的?有哪些指標呢?
Shahangian 其實,我們對「好」的定義,跟用戶透過行為來告訴我們的訊息有關。通常,我們會尋找導致用戶回來 Pinterest 的領先指數( Leading Indicators)。
Burbank 用戶的參與度是我們的關鍵指標,像是用戶有頻繁的回到網站嗎? 他們瀏覽網站的時候,有沒有執行像是點擊圖片或是把圖片 Pin 到他們的釘版 (Board) 的關鍵操作?今天新加入的用戶有成為長期用戶嗎?
  • 現在 Pinterest 的數據科學跟幾年前有什麼不同嗎?
Shahangian :當然有囉!在我們成立數據團隊之前, Pinterest 可是經歷了很大的成長。我在兩年前左右加入 Pinterest ,上班的第一個星期我不停的在回答「我們有多少用戶?」。一旦我們獲得基礎設施來代替我們處理數十億個對象,我們做的分析也演變為整個團隊關鍵決策中的重要投入。
Burbank :架構讓我們能更迅速地回答更多問題,這樣我們就能擁有更多時間好快速的設計新想法。我們為新推出的特色做了 A / B 實驗,同時我們也會查看日常指標,以了解事情的進展。
  • 你們會讓那些不是數據科學家的人自己分析數據嗎? 如果是的話,你們是用什麼樣的工具呢?
Shahangian :是,我們的確會讓不是數據科學家的人自己分析數據。「把海量資料變小」是數據小組的目標之一。我們希望公司的每一個人都在不考慮規模的情況下自己做分析。工具的話,亞馬遜網頁服務系統的雲端倉儲服務 Redshift 與 Qubole (Hadoop 雲端運算技術)一直都很成功,因為他們讓像是社區專家或產品經理等不是工程師的員工自己回答重要的問題。
  • 隨著公司的發展,你們如何衡量分析?
Shahangian:我們相信,在一定的指導下,任何人都可以進行分析,而這真的是測量分析的最佳方式。我們分享對於每一新分析的疑問,並且發展可以讓分析容易複製的新工具。
Burbank:我們有非常大量的數據,而問題也多到我們沒有足夠的時間回答。所以我們盡量製造工具,好幫助公司員工迅速回答問題,並做更深入的分析,雖然這可能不會太廣泛的使用,但對某一特定產品的決定有實質性的幫助。們還會招募新血,我們一直在尋找善於使用數據的人。
  • 請問你的工作對用戶體驗有什麼影響?
Burbank: 我們與所有的團隊合作,為幾乎所有用戶會面臨的功能設計實驗。例如,我們觀察推薦電子郵件 (Recommendations Email) 的哪一個部分點擁有最高點擊率,並因此重新設計 email 以及讓公司把個人化推薦(Personalized Recommendations)排於首位。 我們使用模型來預測用戶的參與,以設計新的用戶動線。我們會察看流量從哪裡來,進而決定要把那些網站加入 Pin It 按鈕。 說實在的,你所看到的產品,幾乎任何部分,其背後都有很重要的數據科學。
  • 延伸閱讀:
(資料來源:VentureBeat ; 圖片來源:justgrimes , CC Licensed)
http://techorange.com/2013/12/13/what-pinterests-data-scientists-look-for-and-how-they-help-their-peers-interview/

沒有留言:

張貼留言

請留言,謝謝囉!Thank you.