前 言
當(dāng)一個(gè)觀點(diǎn)不能被洞察和理解時(shí),這種觀點(diǎn)就會(huì)變得危險(xiǎn)。
—馬歇爾·麥克盧漢
本書(shū)是為產(chǎn)品分析從業(yè)者設(shè)計(jì)的一本從業(yè)指南,主要講解如何基于消費(fèi)者數(shù)據(jù)生成可實(shí)踐的洞見(jiàn)。這些“可實(shí)踐的洞見(jiàn)”源自曾經(jīng)在Web產(chǎn)品、移動(dòng)產(chǎn)品或整個(gè)組織中驅(qū)動(dòng)過(guò)變革的實(shí)踐。很多組織都曾從其Web產(chǎn)品或內(nèi)部組織獲得了TB級(jí)的用戶數(shù)據(jù),然而這些數(shù)據(jù)都未曾被使用過(guò)。怎樣使用這些數(shù)據(jù)促進(jìn)用戶增長(zhǎng),增加收入,提升用戶參與度并提高組織效率,組織并沒(méi)有認(rèn)真思考過(guò)。
本書(shū)將教你逐步地從用戶數(shù)據(jù)中收獲洞見(jiàn)。通過(guò)精心分析基于用戶數(shù)據(jù)理論曲線構(gòu)建的高峰和低谷,觀察不同實(shí)驗(yàn)設(shè)計(jì)產(chǎn)生的實(shí)驗(yàn)效果,再在復(fù)雜的開(kāi)發(fā)模式上實(shí)現(xiàn),最終將這些結(jié)果轉(zhuǎn)化為可實(shí)踐的洞見(jiàn)。本書(shū)是一個(gè)產(chǎn)品數(shù)據(jù)科學(xué)工具包的入門(mén)級(jí)教程。
數(shù)據(jù)科學(xué)是一個(gè)多學(xué)科交叉領(lǐng)域,其目標(biāo)就是從數(shù)據(jù)中收獲洞見(jiàn)。數(shù)據(jù)科學(xué)產(chǎn)品的重心是利用用戶數(shù)據(jù)來(lái)驅(qū)動(dòng)產(chǎn)品和組織變革,以實(shí)現(xiàn)核心業(yè)務(wù)目標(biāo)。它強(qiáng)調(diào)使用先進(jìn)的分析策略來(lái)理解用戶并改變用戶,從而幫助初創(chuàng)企業(yè)和大型公司構(gòu)建符合市場(chǎng)的產(chǎn)品,并超額完成銷(xiāo)售目標(biāo)。注意,本書(shū)不涉及其他數(shù)據(jù)科學(xué)工作流程,例如構(gòu)建可擴(kuò)展的推薦系統(tǒng)、計(jì)算機(jī)視覺(jué)和圖像識(shí)別或其他類(lèi)型的應(yīng)用程序。
數(shù)據(jù)科學(xué)中涉及的分析數(shù)據(jù)來(lái)源非常多。通常情況下,這些數(shù)據(jù)可能是來(lái)自Web產(chǎn)品的用戶數(shù)據(jù),也可能是電子郵件或郵寄廣告類(lèi)的數(shù)據(jù)、調(diào)查數(shù)據(jù)、公司內(nèi)部數(shù)據(jù)或營(yíng)銷(xiāo)綜合數(shù)據(jù),還可能是人口統(tǒng)計(jì)或普查數(shù)據(jù),以及各種其他類(lèi)型的數(shù)據(jù)等。
讀者對(duì)象
本書(shū)的目標(biāo)讀者包括企業(yè)家、數(shù)據(jù)科學(xué)家、分析師,以及所有利用用戶數(shù)據(jù)來(lái)推動(dòng)Web產(chǎn)品或移動(dòng)產(chǎn)品的用戶增長(zhǎng)、收入增加、效率或用戶參與度提高的從業(yè)人員。如果你想成為產(chǎn)品數(shù)據(jù)科學(xué)家、產(chǎn)品數(shù)據(jù)分析師、建立企業(yè)網(wǎng)站或Web產(chǎn)品的企業(yè)家,又或者對(duì)處理Web上可用的TB級(jí)行為數(shù)據(jù)感興趣,那么這本書(shū)很適合你。這本書(shū)是為從業(yè)者編寫(xiě)的,不適合學(xué)術(shù)讀者。如果你想了解現(xiàn)實(shí)世界中的產(chǎn)品數(shù)據(jù),那么本書(shū)就再合適不過(guò)了。
產(chǎn)品數(shù)據(jù)科學(xué)要從用戶行為中獲取洞見(jiàn),這依賴(lài)于多門(mén)學(xué)科知識(shí)。雖然分析工具包更現(xiàn)代化,但它仍然依賴(lài)計(jì)算方法和統(tǒng)計(jì)方法,會(huì)涉及一些新的機(jī)器學(xué)習(xí)和因果推斷技術(shù)。在過(guò)去的400年,社會(huì)科學(xué)家一直在研究人類(lèi)行為,“可實(shí)踐的洞見(jiàn)”還需要充分整合社會(huì)科學(xué)方法和分析工具才能得以生成。
通常,從業(yè)人員只使用一種工具包,不會(huì)同時(shí)使用多個(gè)工具包。許多數(shù)據(jù)科學(xué)家精通最新的機(jī)器學(xué)習(xí)技術(shù),但是缺乏用戶專(zhuān)業(yè)知識(shí)和定性技能,導(dǎo)致不能使用這些技術(shù)從用戶數(shù)據(jù)中提取“可實(shí)踐的洞見(jiàn)”。當(dāng)面臨開(kāi)發(fā)大量社會(huì)過(guò)程理論和將概念落實(shí)到具體實(shí)踐時(shí),他們常常會(huì)陷入困境。
相比之下,許多對(duì)人類(lèi)行為有充分了解的用戶專(zhuān)家,由于缺乏統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的知識(shí),因此無(wú)法充分測(cè)試他們的想法和模型數(shù)據(jù)。本書(shū)的目標(biāo)是為主題專(zhuān)家和機(jī)器學(xué)習(xí)專(zhuān)家架起一座橋梁,將主題專(zhuān)家的上下文洞察力與機(jī)器學(xué)習(xí)專(zhuān)家的復(fù)雜方法相結(jié)合,從而在Web或移動(dòng)分析領(lǐng)域生成有意義的洞見(jiàn)。
本書(shū)內(nèi)容
本書(shū)結(jié)合Web分析領(lǐng)域的實(shí)際案例介紹 :
如何像社會(huì)科學(xué)家一樣思考,將社會(huì)環(huán)境中的個(gè)人行為情景化,探索人類(lèi)行為的發(fā)展方式,并為改變行為創(chuàng)造條件;
如何為Web產(chǎn)品定制核心指標(biāo)和用戶分析的關(guān)鍵績(jī)效指標(biāo);
如何理解統(tǒng)計(jì)推斷、相關(guān)性和因果關(guān)系間的差異,以及在何時(shí)應(yīng)用這些技術(shù);
如何進(jìn)行更有效的A/B 測(cè)試;
如何構(gòu)建直觀的預(yù)測(cè)模型,幫助捕獲產(chǎn)品中的用戶行為;
如何使用準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)技術(shù)和統(tǒng)計(jì)匹配技術(shù),從觀察數(shù)據(jù)中梳理出因果關(guān)系;
如何實(shí)施復(fù)雜的目標(biāo)定位方法,例如針對(duì)營(yíng)銷(xiāo)活動(dòng)的增益建模;
如何使用高級(jí)人口預(yù)測(cè)方法,預(yù)測(cè)業(yè)務(wù)成本和人口子群體之間的變化關(guān)系。
本書(shū)主題
本書(shū)包含3個(gè)主題:
(1)將社會(huì)學(xué)、心理學(xué)和人口統(tǒng)計(jì)學(xué)的定性工具與統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)的定量工具進(jìn)行整合,應(yīng)用于Web分析領(lǐng)域。
(2)因果推斷(不是預(yù)測(cè))方法,它對(duì)于改變?nèi)祟?lèi)行為不可或缺。
(3)以非數(shù)學(xué)解釋和R語(yǔ)言演示應(yīng)用程序的方式討論機(jī)器學(xué)習(xí)和因果推斷主題。因?yàn)檫@些領(lǐng)域的大多數(shù)著作都不是為從業(yè)者編寫(xiě)的。
主題1:定性工具與定量工具
第一個(gè)主題是本書(shū)的核心。該部分的目標(biāo)不僅是為讀者提供分析工具,還為讀者提供應(yīng)用這些分析工具和示例所需的資源。這些工具和示例最適合用于Web應(yīng)用程序。數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)領(lǐng)域中的許多書(shū)籍都只是簡(jiǎn)單地介紹了底層算法。盡管這些算法確實(shí)發(fā)揮了重要的作用,但我的腦海不禁浮現(xiàn)出“垃圾進(jìn),垃圾出”這句話。沒(méi)有適當(dāng)?shù)臄?shù)據(jù),算法將毫無(wú)用處。將錯(cuò)誤的算法應(yīng)用于錯(cuò)誤的問(wèn)題可能會(huì)導(dǎo)致一大堆問(wèn)題。
要正確應(yīng)用算法或設(shè)計(jì)實(shí)驗(yàn),我們需要回顧一下整個(gè)過(guò)程:理論構(gòu)建、概念化、操作化、指標(biāo)構(gòu)建、假設(shè)檢驗(yàn)、證偽等。我們可以使用大量定性工具來(lái)準(zhǔn)確地模擬人類(lèi)行為和社會(huì)過(guò)程。如果不使用這些工具,就會(huì)丟失大量的信息、細(xì)微差別和洞見(jiàn),還可能完全誤解用戶在我們的Web產(chǎn)品中的行為。第1~3章主要向讀者介紹那些用來(lái)理解和建模用戶行為的定性工具。
獲得可實(shí)踐的洞見(jiàn)需要了解上下文和每個(gè)變量中存儲(chǔ)的信息。如果無(wú)法清楚地將概念想法與分析結(jié)果關(guān)聯(lián)起來(lái),那么什么結(jié)論也獲取不到。我的一個(gè)好朋友擁有物理學(xué)博士學(xué)位,他目前在一家女裝公司擔(dān)任數(shù)據(jù)科學(xué)家,正好面臨這樣的情況。他熱愛(ài)物理學(xué),也喜歡將物理學(xué)算法應(yīng)用于各種數(shù)據(jù)集,但他很難將結(jié)果與具體的商業(yè)環(huán)境聯(lián)系起來(lái)。我經(jīng)常會(huì)問(wèn)他對(duì)女裝業(yè)務(wù)有何見(jiàn)解,但他總是回答說(shuō),他通過(guò)“一些極其復(fù)雜的調(diào)整”應(yīng)用了最新的“ X”模型。盡管將復(fù)雜的、經(jīng)過(guò)優(yōu)化的算法應(yīng)用于正確的上下文非常棒,但這些算法也有可能被應(yīng)用于錯(cuò)誤的數(shù)據(jù)集,還可能被人們用來(lái)掩蓋自己對(duì)于某個(gè)主題缺乏真正洞見(jiàn)的事實(shí)。
“可實(shí)踐的洞見(jiàn)”實(shí)際上并不依賴(lài)于人們是否使用最新的算法。通常來(lái)說(shuō),好的算法的確能稍微改善結(jié)果,但是一旦使用錯(cuò)誤的數(shù)據(jù),獲得有價(jià)值洞見(jiàn)的希望將會(huì)徹底破滅。還有一個(gè)問(wèn)題是人們對(duì)準(zhǔn)確數(shù)據(jù)的誤解,這在行業(yè)中非常普遍。
因此,在開(kāi)始數(shù)據(jù)分析之前,選一個(gè)好的定性方法是非常重要的,這樣就可以避免以
“垃圾出”告終。不過(guò),由于原始數(shù)據(jù)通常不容易被記錄,因此由變量測(cè)量或統(tǒng)計(jì)的內(nèi)容就很容易被誤解。我們必須準(zhǔn)確理解用戶采取哪些必要步驟才能獲得特定變量,以及用戶完成哪些操作后才能獲得特定的變量結(jié)果。如果用變量代表一個(gè)概念復(fù)雜的想法,那么這個(gè)變量實(shí)際上測(cè)量的是這個(gè)概念的哪些部分呢?適當(dāng)?shù)鼐邆湎嚓P(guān)的理論知識(shí)和正確的定性框架知識(shí),便能對(duì)數(shù)據(jù)進(jìn)行更合理的解釋和更正確的使用。
主題2:因果推斷
第二個(gè)主題更偏重于因果推斷,而不是預(yù)測(cè)。許多數(shù)據(jù)科學(xué)書(shū)籍都專(zhuān)注于預(yù)測(cè)算法。本書(shū)提供了由以下算法組成的基本預(yù)測(cè)工具包:k均值、主成分分析(PCA)、線性回歸、邏輯回歸、決策樹(shù)、支持向量機(jī)以及一些時(shí)間序列建模技術(shù)。更高級(jí)的主題(例如雙重差分模型、統(tǒng)計(jì)匹配和增益模型)都與因果推斷相關(guān)。
不過(guò),我們?cè)诘?章中提到了先進(jìn)預(yù)測(cè)技術(shù),即人口統(tǒng)計(jì)學(xué)中的人口預(yù)測(cè)技術(shù)。在第9章中,我們通過(guò)一種比較新穎的方式使用預(yù)測(cè)建模技術(shù)來(lái)創(chuàng)建更好的核心用戶指標(biāo)(例如留存指標(biāo)),以此了解Web產(chǎn)品中不同子群體的變化,從而預(yù)測(cè)未來(lái)用戶的變化。通常,對(duì)于用戶行為的分析,因果推斷優(yōu)于預(yù)測(cè)。
主題3:產(chǎn)品分析的入門(mén)指南
之所以撰寫(xiě)這本書(shū),是因?yàn)槲野l(fā)現(xiàn)大多數(shù)有關(guān)數(shù)據(jù)科學(xué)、因果推斷統(tǒng)計(jì)或人口統(tǒng)計(jì)學(xué)的書(shū)籍都非常學(xué)術(shù)化,需要很強(qiáng)的論證思維。盡管這些知識(shí)在某些情況下很重要,但是這超出了普通人在數(shù)學(xué)領(lǐng)域的認(rèn)知。因果推斷工具的使用大多數(shù)時(shí)候不需要過(guò)多的數(shù)學(xué)知識(shí),在對(duì)R語(yǔ)言不了解的情況下,也可以非常容易地使用。統(tǒng)計(jì)數(shù)據(jù)科學(xué)和因果推斷工具在許多業(yè)務(wù)環(huán)境中都很有用,但由于缺乏數(shù)學(xué)領(lǐng)域的復(fù)雜知識(shí),往往無(wú)法在實(shí)際中應(yīng)用。
本書(shū)的目標(biāo)就是讓所有完成高中數(shù)學(xué)和統(tǒng)計(jì)學(xué)的人都可以學(xué)習(xí)和掌握數(shù)據(jù)分析的方法。這可能有些樂(lè)觀,因?yàn)槟承┲黝}(例如統(tǒng)計(jì)匹配、增益建模和人口預(yù)測(cè))在數(shù)學(xué)上的確非常復(fù)雜。所以,我們首先要使它們?cè)诟拍钌弦子诶斫狻?shù)學(xué)知識(shí)比較缺乏的讀者需要先了解一些算法的工作原理和應(yīng)用場(chǎng)景。閱讀本書(shū)后,讀者需要找到符合設(shè)計(jì)或者能應(yīng)用到自己的特定案例的模型來(lái)進(jìn)行練習(xí)。在確定正確的設(shè)置和算法后,讀者應(yīng)該能夠在 R中運(yùn)行自己的分析程序。本書(shū)的核心目標(biāo)是向讀者介紹這些算法的工作原理,在哪些情況下應(yīng)該在用戶或Web分析上下文中應(yīng)用特定的算法,以及可以應(yīng)用 R 中的哪些工具來(lái)獲得正在尋找的答案。
在本書(shū)中,我們很少使用數(shù)學(xué)符號(hào),因?yàn)檫@會(huì)讓很多讀者沒(méi)有閱讀下去的興趣。第1~6章將盡可能少地使用數(shù)學(xué)符號(hào),只從文字上描述一下方程式。第6章之后可能會(huì)依賴(lài)一些數(shù)學(xué)素材,所以隨后的章節(jié)將偶爾使用數(shù)學(xué)符號(hào)。
本書(shū)結(jié)構(gòu)
本書(shū)的目標(biāo)是更好地建模、理解和改變Web產(chǎn)品和移動(dòng)產(chǎn)品中的用戶行為。本書(shū)將按如下結(jié)構(gòu)分五大部分進(jìn)行闡述 :
第1~3章講解用來(lái)建模用戶行為的定性工具及理論;
第4~6章介紹入門(mén)級(jí)的產(chǎn)品分析中的統(tǒng)計(jì)方法;
第 7~9 章探討預(yù)測(cè)建模和預(yù)測(cè)方法;
第 10~13 章介紹真實(shí)世界中數(shù)據(jù)的因果推斷方法;
第 14~16 章用R實(shí)現(xiàn)定量方法。
第 1 章是一個(gè)介紹性章節(jié),通過(guò)晚宴的比喻向讀者闡述不利于理解用戶行為的常見(jiàn)陷阱,例如將社交數(shù)據(jù)視為一個(gè)“過(guò)程”而不是一個(gè)問(wèn)題。社交數(shù)據(jù)往往信息非常不完整,沒(méi)有明確的結(jié)果,而且還有大量相互關(guān)聯(lián)的變量,是一個(gè)容易被擾亂的系統(tǒng),因此我們很難推斷因果關(guān)系。
第2章回顧科學(xué)方法,并介紹量化人類(lèi)行為的社會(huì)學(xué)工具。在探索概念化想法的同時(shí),我們也在思考“量化”這個(gè)詞,包括它代表著什么,以及在量化過(guò)程中會(huì)丟失什么。當(dāng)今,一切量化都在朝著指標(biāo)發(fā)展。人們嘗試用一些定量指標(biāo)來(lái)替換復(fù)雜的定性指標(biāo),這是一件非常困難的事情,因?yàn)檫@些指標(biāo)很少能捕捉到原始人類(lèi)在探索過(guò)程中的一些高級(jí)行為或一些出乎專(zhuān)家預(yù)料的復(fù)雜行為。從業(yè)者很少深入研究所使用指標(biāo)的缺點(diǎn),這導(dǎo)致了更多的誤導(dǎo)策略。
第 3 章介紹人類(lèi)行為改變。用戶分析已從人口統(tǒng)計(jì)分析的形式轉(zhuǎn)變?yōu)楦鼜?fù)雜的形式,即在Web產(chǎn)品中定位用戶和改變