產(chǎn)品評價(jià)標(biāo)準(zhǔn)的統(tǒng)計(jì)分析方法與應(yīng)用
針對于產(chǎn)品評價(jià),你知道什么衡量的標(biāo)準(zhǔn)以及數(shù)據(jù)統(tǒng)計(jì)分析方法?本文將重點(diǎn)解析數(shù)據(jù)量化標(biāo)準(zhǔn)的重要性和量化數(shù)據(jù)建模及產(chǎn)品評價(jià)應(yīng)用,一起來看看吧。
今天主要從下面四個(gè)方向來展開分享,第一部分,數(shù)據(jù)量化標(biāo)準(zhǔn)重要性;第二部分,什么是評價(jià)類評級標(biāo)準(zhǔn);第三部分,我們?nèi)绾稳プ鲈u價(jià)類標(biāo)準(zhǔn);最后,進(jìn)行案例分享。
一、數(shù)據(jù)量化標(biāo)準(zhǔn)重要性
第一部分讓我們先稍微了解一下如何做數(shù)據(jù)樣本收集以及數(shù)據(jù)量化工作具體是什么內(nèi)容,這部分偏重理論一些。做數(shù)據(jù)分析項(xiàng)目,第一步一般都會提出項(xiàng)目調(diào)研的方向,然后設(shè)定調(diào)研問題。簡單舉例一下,假設(shè)我們想知道購買某一產(chǎn)品客戶的平均年齡是多少?如上語句就是一個(gè)項(xiàng)目的調(diào)研方向,這里面其實(shí)蘊(yùn)含了很多信息。我們現(xiàn)在逐一去刨析一下。
首先,我們可以鎖定項(xiàng)目調(diào)研目標(biāo)人群(population)是什么,數(shù)據(jù)分析上我們稱為數(shù)據(jù)源;還是以我們這個(gè)舉例來說,目標(biāo)人群是購買這一產(chǎn)品的所有用戶。
其次,我們要知道調(diào)研的數(shù)據(jù)變量(variables)有哪些;這個(gè)例子里我們的變量是年齡。知道調(diào)研數(shù)據(jù)變量是什么了,我們才可以去做數(shù)據(jù)分析的前端數(shù)據(jù)樣本收集工作。
那么重點(diǎn)來了,我們需要根據(jù)我們的數(shù)據(jù)變量來設(shè)定調(diào)研問題;我們的舉例比較簡單,那調(diào)研問題可以是如下但不僅限于以下兩種,在此也僅是舉例:
調(diào)研問題1: 請問您的年齡是_____(請?zhí)顚懻鎸?shí)數(shù)字)
調(diào)研問題2: 請問您的年齡是以下_____
A. 25 及以下
B. 26-35
C. 36-49
D. 50 及以上
在此也簡單介紹一下數(shù)據(jù)變量標(biāo)準(zhǔn),在數(shù)據(jù)分析層面上,變量可粗分為兩個(gè)大類:一是數(shù)字變量,就像調(diào)研問題1所提出的年齡數(shù)據(jù)收集,結(jié)果可以是 23, 24,或 59(歲),顯而易見,每一個(gè)調(diào)研數(shù)據(jù)的結(jié)果是一個(gè)數(shù)字;還有很重要一點(diǎn),在數(shù)學(xué)和統(tǒng)計(jì)分析角度上來講,數(shù)字變量可以說是連續(xù)的,而且是直接的量化數(shù)據(jù)。
第二類是分類變量,即如調(diào)研問題 2 所提出的同樣是收集年齡信息,但問題 2 是收集的年齡段,結(jié)果也只能是 A 類、B 類、C 類或 D 類。同樣是收集用戶年齡,但問題 1 和問題 2 所收集的數(shù)據(jù)變量是完全不同的。不同的變量有不同的數(shù)據(jù)分析方法和建模,因此變量標(biāo)準(zhǔn)對后期的統(tǒng)計(jì)分析的方法的應(yīng)用、結(jié)論都是影響非常大的。在項(xiàng)目最開始的時(shí)候,我們就應(yīng)該定好變量標(biāo)準(zhǔn),它決定了項(xiàng)目后面如何去做。變量的標(biāo)準(zhǔn)是重中之重,但往往這點(diǎn)也是我們很多人都忽略的。
在此我也多介紹一點(diǎn),調(diào)研項(xiàng)目通常不會只設(shè)定單純的一個(gè)調(diào)研問題,所以一般數(shù)據(jù)變量也不會只有一個(gè)。再簡單舉例,在做人群細(xì)分、產(chǎn)品調(diào)研的時(shí)候,我們需要知道用戶的全面信息,收集數(shù)據(jù)變量可以有年齡、性別、收入、家庭結(jié)構(gòu)、居住城市、對特定產(chǎn)品的喜愛度等等,在此就不多做介紹了。
現(xiàn)在我們制定好項(xiàng)目需要的變量標(biāo)準(zhǔn)了,那問題來了,我們該如何去收集這些信息呢?需要做數(shù)據(jù)采集,又稱數(shù)據(jù)取樣,來收集我們的樣本(Sample),在統(tǒng)計(jì)分析上,樣本數(shù)據(jù)是我們目標(biāo)人群數(shù)據(jù)源的子集。采樣方法有很多種,也是通過了解數(shù)據(jù)變量和數(shù)據(jù)結(jié)構(gòu)來確認(rèn)最佳的采樣方法,一般情況下,我們用的也是最多的,還是簡單的隨機(jī)取樣。
取樣最基本的原則,我們簡化來講,就是要求從數(shù)據(jù)源里面抓取每一個(gè)數(shù)據(jù)點(diǎn)的概率是一樣的。這句話有點(diǎn)模糊,我舉例來解釋一下,假設(shè)某公司年會有一個(gè)抽獎活動,所有的獎券都放在抽獎箱里,我們怎么去確認(rèn)每一個(gè)獎券被任何一個(gè)員工拿到的概率是一樣的呢,換句話說就是抽獎完全公平,我們的做法通常是讓工作人員盡可能的去搖抽獎箱,把獎券都搖勻,這就是最簡單隨機(jī)取樣的例子。
我們做樣本取樣主要也是為了節(jié)省時(shí)間和成本,因?yàn)閿?shù)據(jù)源可能包含成千上萬乃至上億個(gè)數(shù)據(jù)點(diǎn),去收集這些所有的數(shù)據(jù)信息是基本不可能的。所以我們用隨機(jī)取樣在數(shù)據(jù)源中選擇有限集的數(shù)據(jù)樣本,樣本數(shù)據(jù)點(diǎn)可能只有 30 個(gè),或者 50 個(gè),是有限集,最小樣本量是需要根據(jù)分析方法來確定的。我們的目的就是用樣本數(shù)據(jù)表象出來的統(tǒng)計(jì)值,來反映并展現(xiàn)出整個(gè)目標(biāo)人群數(shù)據(jù)源的表現(xiàn)形態(tài)。所以數(shù)據(jù)樣本的質(zhì)量也是完全會影響到我們數(shù)據(jù)分析的結(jié)論,取樣同樣是重要并不可懈怠的工作。
本次的討論重心還是放在數(shù)據(jù)量化標(biāo)準(zhǔn)的重要性和量化數(shù)據(jù)建模及產(chǎn)品評價(jià)應(yīng)用上面。
二、什么是評價(jià)類評級標(biāo)準(zhǔn)
專家層面上的評價(jià)標(biāo)準(zhǔn),第一個(gè)例子我們來講一下米其林餐廳的評價(jià)標(biāo)準(zhǔn)。它通過專家對餐廳的食品、包括環(huán)境上的種種指標(biāo),調(diào)查給出 1 到 3 顆星的米其林餐廳的星級評定。
它是餐廳的最高榮譽(yù),是一個(gè)級別的分類。細(xì)節(jié)上面,這里列了這五個(gè)(如下圖)。米其林同時(shí)還有一個(gè)舒適度的評價(jià),即餐環(huán)境的好壞程度有另一套評價(jià)標(biāo)準(zhǔn),是用了一個(gè)五個(gè)刀叉的形式來表示的。
專家層面上的評價(jià)標(biāo)準(zhǔn),另一個(gè)例子是比較直觀的,是羅伯特·帕克紅酒的評分標(biāo)準(zhǔn),它是一個(gè)百分的評價(jià)標(biāo)準(zhǔn)。
它評價(jià)變量信息有顏色和外觀、香氣、風(fēng)味和魚味、綜合的潛力,我們可以看到后面它有一個(gè)值域,它的變量是根據(jù)權(quán)重的維度來給出的分?jǐn)?shù),不是一模一樣的綜合給出來的。PR 評分從 50 到 100 來定位紅酒的好壞。
用戶體驗(yàn)層面評價(jià)標(biāo)準(zhǔn),現(xiàn)在用的比較多的,我們現(xiàn)實(shí)生活中也都是接觸過的,如豆瓣評分,看了一個(gè)電影之后,可以去評價(jià),評價(jià)標(biāo)準(zhǔn)為 1 到 5 分,其實(shí)就是李克特的 5 分量表。
通過平臺設(shè)定算法,然后可以最后給出來一個(gè) 2 到 10 分的打分,作為電影的一個(gè)綜合評價(jià)。豆瓣評分還有一個(gè) IMDb 評分標(biāo)準(zhǔn),它是可以顯示出一個(gè)電影的好壞的。IMDb 中電影的排名就不單純的是用戶的打分來算出來的,它用了一個(gè)計(jì)算公式,公式里面每個(gè)小寫字母都是一個(gè)變量,變量值都是通過平臺收集用戶回饋的真實(shí)數(shù)據(jù),使用如下模型綜合評價(jià)得出,所以這個(gè)評價(jià)是實(shí)時(shí)的。如阿凡達(dá)這個(gè)電影,當(dāng)時(shí)我選取材料作為素材的時(shí)候,排名是 75,我們現(xiàn)在去看它的排名可能會變化。
舉另一個(gè)例子,美國的 yelp、中國的大眾點(diǎn)評、淘寶、還有蘋果的 app store 都是很常見的是 1 到 5 星的評價(jià)系統(tǒng),標(biāo)準(zhǔn)評價(jià)的體系非常簡單.可是我們?nèi)タ刺詫氝x商品的時(shí)候,可能會去評價(jià)比較高的店鋪去買東西,雖然用戶都知道有可能部分評價(jià)數(shù)據(jù)是刷出來的,但是無論如何,在大數(shù)據(jù)面前,也認(rèn)為是有理可依的一部分。
專家層面上的評價(jià)標(biāo)準(zhǔn)是有權(quán)威依據(jù)的,即我們理解的專家說的就是對的。其特點(diǎn)為樣本量小,但需要行業(yè)專家參評。
用戶體驗(yàn)層面上的評價(jià)標(biāo)準(zhǔn)有大數(shù)定理的統(tǒng)計(jì)依據(jù),換句話說,用戶還是相信,大多數(shù)人說好的東西一般就是好的。其特點(diǎn)為樣本量需求大,但可以從使用者真實(shí)量化回饋意見中獲取。
問題就來了,我們做數(shù)據(jù)分析,當(dāng)然希望樣本數(shù)據(jù)越多越好,但是在現(xiàn)實(shí)情況下,不可能去一味的擴(kuò)大樣本量,其耗時(shí)耗資,大多數(shù)情況下是不可取的或根本做不到的,所以我們就想盡可能用合適的統(tǒng)計(jì)分析方法來做到用最小的樣本量,使用最小的人工成本,并得到有統(tǒng)計(jì)依據(jù)的分析結(jié)論。數(shù)據(jù)變量的量化和模型標(biāo)準(zhǔn)的制定就成了我們研究的重點(diǎn)。
三、我們?nèi)绾稳プ鲈u價(jià)類標(biāo)準(zhǔn)
如何做評價(jià)標(biāo)準(zhǔn),這里介紹一下 SUS-系統(tǒng)可用性評估??梢哉f這也是我們比較熟知的一個(gè)評價(jià)系統(tǒng)了,它一共是十個(gè)量化問題,統(tǒng)一使用的是李克特的 1 到 5 級打分。
不管我們設(shè)定的變量問題是什么,假設(shè)我們問這個(gè)產(chǎn)品使用的舒不舒服,回饋?zhàn)兞繑?shù)據(jù)都是 1 至 5 之中的數(shù)字,極簡的模式但做到了數(shù)據(jù)變量量化。李克特量表是一個(gè)對稱的關(guān)系,5 級量表來說,1 到 5 的話,3 就是中心值,如用戶對于測評問題語句,感覺沒有什么認(rèn)同感但也不反對,可能會給出 3 分評價(jià),贊同的話給 5 分,假設(shè)測評話語說到用戶心坎兒里了,那么可能會給出 5 分。李克特量表,可以用正反向問題來問,假設(shè)我們的問題是今天是個(gè)非常好的天氣,或今天的天氣真是糟透了,讓測評用戶用 1 到 5 分來評價(jià),其實(shí)這兩句話問的是同一個(gè)問題,前者給 4 分,跟后者反向給的 2 分是一樣的。
為了體驗(yàn)總體測評分值的好壞區(qū)分,研究人員加了第 11 個(gè)問題,即想知道好的評價(jià)到底是一個(gè)什么樣分值打分區(qū)間,所以加了一個(gè)定性分類變量的問題,為(下圖)七個(gè)級別,然后通過大量的樣本收集(5000 個(gè)樣本統(tǒng)計(jì)值)來分析到底多少分值是好,多少分值是不好,這樣的話對系統(tǒng)可以有一個(gè)非常權(quán)衡的定位。
通過它的 95% 的一個(gè)置信區(qū)間做了一個(gè)均值的回歸,把打出來的七個(gè)不同級別,分為一個(gè)小樣本,然后取得均值再去做模擬,最后做出最重要的統(tǒng)計(jì)值的一個(gè)分布量表,叫做二次統(tǒng)計(jì)的樣本數(shù)據(jù),如下圖左側(cè)所示。這就是把統(tǒng)計(jì)值的樣本數(shù)據(jù)做了一個(gè)分布的量表呈現(xiàn)。
做這個(gè)工作是為了能看出產(chǎn)品在同類中處于哪個(gè)級別如 A 類,或 A+,從而看出給它評級評為 A 類的概念是什么,這里用百分位來表示,意思是它可能是前百分之幾,即舉例,產(chǎn)品如達(dá)到 A 類證明這個(gè)產(chǎn)品要比市面上 91% 的同類產(chǎn)品要好。
我們簡單了解一下 SUS 的統(tǒng)計(jì)依據(jù),因?yàn)樗且粋€(gè)變量量化的小樣本分析方法,這個(gè)模型樣本量只需要 20 個(gè)左右,但可以給出知信度高達(dá) 91% 的統(tǒng)計(jì)分析結(jié)論。但是,此類樣本必須是有時(shí)效性的,有代表性的,必須是隨機(jī)取樣的樣本。所以說盡可能地去縮小樣本量,還是要有統(tǒng)計(jì)分析依據(jù)才可以,不然我們所做的分析工作是沒有任何意義的。
現(xiàn)在想把數(shù)據(jù)量化的方法去做一個(gè)延伸,然后為我們用戶體驗(yàn)和產(chǎn)品的評價(jià)去量身打造一個(gè)數(shù)據(jù)分析體系。我們怎么去做呢?
為了擴(kuò)大變量信息收集的值域,得到分析中潛在數(shù)據(jù)變量變化內(nèi)容,我們把 5 級量表擴(kuò)大到 9 級,即 1-9 的打分,然后做產(chǎn)品綜合評價(jià)值的模型搭建。我們的變量問題就不限數(shù)量,打造產(chǎn)品測評變量問題庫,也是調(diào)研庫,我們的變量數(shù)量可根據(jù)需要設(shè)定上百乃至上千,對于模型設(shè)定都是沒有任何問題的。每次去使用變量時(shí),不是說所有問題都要去用,我們可以針對這個(gè)產(chǎn)品想調(diào)研的方向,去做篩選,這里我也是不建議項(xiàng)目變量信息超過 30 個(gè)的,因?yàn)樵俣嗟脑挘瑯颖举|(zhì)量可能就會下降。
綜合測評值是什么概念?我們要達(dá)到的目的是,在我們收集到樣本數(shù)據(jù)后,通過模型算法展示如下,給予產(chǎn)品的評價(jià)是一個(gè) 0-100 的打分,這是最直觀的樣本統(tǒng)計(jì)值。不管我們設(shè)定的變量問題是 20 個(gè)或者 50 個(gè),模型都會回歸給出 0-100 分區(qū)間內(nèi)的綜合評價(jià)統(tǒng)計(jì)值。
四、案例展示
下面講一些實(shí)際應(yīng)用案例。下圖冰箱測評的一個(gè)指標(biāo)體系,分了三大類指標(biāo),細(xì)分一級指標(biāo)有產(chǎn)品的概念、設(shè)計(jì)美學(xué)、界面設(shè)計(jì)、操作、功能,還有產(chǎn)品表現(xiàn)形態(tài)等。大指標(biāo)還可以去細(xì)分,如設(shè)計(jì)美學(xué)里可以細(xì)分為外觀、尺寸、顏色,紋理,細(xì)節(jié)等。這個(gè)標(biāo)準(zhǔn)不僅限于冰箱或家電產(chǎn)品。
再往后看分類展現(xiàn)出的三級問題是直接觸達(dá)用戶的,或者是讓專家評定給出分值的,三級變量是我們直接收集的樣本數(shù)據(jù)。而二級指標(biāo)和一級指標(biāo)都是我們在統(tǒng)計(jì)分析模型里計(jì)算出來的統(tǒng)計(jì)值。這里陳述性的語句,如“這個(gè)界面好不好看、顏色我喜不喜歡”,是一個(gè)三級變量問題的語句,由被測評人給出 1-9 打分。
用戶看到的可能只有下圖中的三級變量問題,但是標(biāo)準(zhǔn)背后的設(shè)計(jì)和變量問題權(quán)重,包括計(jì)分算法模型,以及我們的分析方法都不需要去了解。這也是單盲實(shí)驗(yàn)法中為做到樣本數(shù)據(jù)無偏激性。我們盡可能要去收集到高品質(zhì)的樣本數(shù)據(jù),不需要把我們設(shè)計(jì)的所有內(nèi)容完全給用戶解釋清楚,這樣反而會影響用戶的判斷,因?yàn)槲覀兿M脩艚o最真實(shí)的反饋。
這是(如下圖所示)當(dāng)時(shí)做的遙控器的模板測評案例,測了四個(gè)模板,可能設(shè)了 48 個(gè)變量問題,每個(gè)模板都對應(yīng)一個(gè)綜合評價(jià)值。那我怎么樣去解讀,拿遙控器 A 來舉例,81.71 分在最右側(cè),對應(yīng) A 級,按照百分位等級來說,它可能是比行業(yè)內(nèi) 92% 的產(chǎn)品要好。
我們用李克特對稱量表的方式主要是做量化。如下圖所示,數(shù)據(jù)可視化展示可以用不同的顏色色段用戶評價(jià)展示出來,這里設(shè)了十個(gè)心理測評問題,在數(shù)據(jù)編程后計(jì)算出,直接把最認(rèn)可的問題放到最上面。
如下圖第一個(gè)問題,“我愿意多花錢去買好的東西”基本上能看到 84% 的人給出了五分以上,表示認(rèn)可態(tài)度。粗略地來看,可能有 42% 的人非常贊同,當(dāng)然也有很少數(shù)的不認(rèn)可,可能是 8% 的。這樣去做分析,是想剖析到產(chǎn)品的每一個(gè)細(xì)節(jié)上,用變量信息展現(xiàn)出產(chǎn)品到底是哪里好,哪里不好。
下圖產(chǎn)品概念,把它分為二級指標(biāo),圖中紅字其實(shí)就是代碼里的變量的名字。
通過這幾個(gè)問題,也可以用數(shù)據(jù)量表來評價(jià)產(chǎn)品功能或產(chǎn)品概念到底是好是壞。下圖是數(shù)據(jù)可視化的呈現(xiàn)給出了數(shù)據(jù)分析效果。
用另一種形式去看,可以做對比分析。具體分析A、B、C、D,單向哪里好,哪里不好。這些統(tǒng)計(jì)結(jié)果單純是通過數(shù)據(jù)可視化展現(xiàn)出來的。
二級指標(biāo)也可以用對比分析,用這種雷達(dá)圖(下圖)來表現(xiàn)其實(shí)也很直觀。我們用量化方式,能直觀地表現(xiàn)出產(chǎn)品需求,產(chǎn)品的好壞,同時(shí)我是想用這套理論,來提示在專家層面上產(chǎn)品需不需要研發(fā)或改進(jìn),或者是從用戶角度上反饋使用場景上哪些需要去提升。
無論作為設(shè)計(jì)師,還是產(chǎn)品的開發(fā)方,對產(chǎn)品的好壞的評價(jià)一定要結(jié)合專家和用戶兩個(gè)方面去看。
第二個(gè)案例是《青島歷史建筑與傳統(tǒng)風(fēng)貌建筑保護(hù)技術(shù)導(dǎo)則》。
在評定歷史保護(hù)建筑的時(shí)候,它可能也是有一些指標(biāo)的。比如說哪個(gè)年代,什么人去居住過等等。
作為歷史保護(hù)建筑,我們?nèi)プ鰯?shù)據(jù)評價(jià),是想知道什么建筑是歸為幾類保護(hù)。在知道保護(hù)級別后,不同的級別對以后建筑的翻修、使用、包括整個(gè)城市的規(guī)劃,都是有不同的方案的。
下圖是具體的兩個(gè)量表,雖然量化方式不太一樣,但最終把它的分類變量也分到了 1-5 的級別。第一個(gè)量表是歷史風(fēng)貌建筑保存的完好程度現(xiàn)狀評估,最終統(tǒng)計(jì)值也是 0-100 的打分。
第二個(gè)量表是歷史風(fēng)貌建筑價(jià)值評估,同樣建模設(shè)定回歸為 0-100統(tǒng)計(jì)值 打分。根據(jù)樣本分布,我們把歷史與風(fēng)貌建筑現(xiàn)狀保存狀況評估,通常設(shè)定60 分及以上為較好;40-59 分為一般;39 分及以下為較差。歷史與風(fēng)貌建筑價(jià)值評估,通常設(shè)定 65 分及以上為較高;41-64 分為中等;40 分及以下為較低。
因?yàn)檫@個(gè)模型是雙量表樣本數(shù)據(jù)收集,我們最后商議的是用坐標(biāo)象限的方式來展示,縱坐標(biāo)為建筑評定價(jià)值,橫坐標(biāo)為現(xiàn)狀保存狀態(tài),通過這樣來評價(jià)出歷史保護(hù)建筑的類別。
五、結(jié)語
我們在做數(shù)據(jù)分析項(xiàng)目時(shí),研究數(shù)據(jù)變量的形式其實(shí)決定了分析方法及建模。所以制定數(shù)據(jù)量化標(biāo)準(zhǔn)的工作也是非常重要的。量化數(shù)據(jù)的統(tǒng)計(jì)值的分布比較多樣,我們可以直觀了解更多潛在的信息。
制定好量化數(shù)據(jù)標(biāo)準(zhǔn)也有益于我們?nèi)ダ塾?jì)數(shù)據(jù)資產(chǎn),不會出現(xiàn)項(xiàng)目內(nèi)樣本數(shù)據(jù)僅限于項(xiàng)目內(nèi)使用,無法與其他項(xiàng)目樣本數(shù)據(jù)匹配對接的情況。
最后,數(shù)據(jù)分析是一個(gè)全流程有連續(xù)性思維的過程,從數(shù)據(jù)變量的制定,變量量化標(biāo)準(zhǔn)的制定,確定采樣方法,收集樣本數(shù)據(jù),制定分析模型一直到最后使用統(tǒng)計(jì)值做出的分析依據(jù),需要從始至終有依據(jù)地去執(zhí)行。這也是我們做變量量化標(biāo)準(zhǔn)及制定評價(jià)類分析體系的初衷。
作者:徐龍?bào)J;圖文編輯:筱沄、司嘉惠
來源公眾號:用戶體驗(yàn)大學(xué)堂(ID:isaruxd),專注用戶研究和用戶體驗(yàn)設(shè)計(jì)。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @用戶體驗(yàn)大學(xué)堂 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
想請教一下,SUS系統(tǒng)可用性評估應(yīng)該是有自己的一套打分標(biāo)準(zhǔn),為什么在文章中需要對各個(gè)數(shù)據(jù)點(diǎn)做均值回歸,取得均值后再去做模擬,得出統(tǒng)計(jì)值的分布量表呢?