八爪魚采集器產(chǎn)品調(diào)研分析報(bào)告

3 評(píng)論 6531 瀏覽 36 收藏 17 分鐘

大家對(duì)于八爪魚采集器這個(gè)產(chǎn)品的了解有多少呢?下面這篇文章是筆者對(duì)這個(gè)產(chǎn)品的一個(gè)調(diào)研分析報(bào)告,大家一起來看看吧!

一、調(diào)研目的和背景

1. 調(diào)研背景

八爪魚是深圳視界信息技術(shù)有限公司開發(fā)的一款數(shù)據(jù)采集器,目前在網(wǎng)頁數(shù)據(jù)采集軟件領(lǐng)域內(nèi)占據(jù)領(lǐng)先的地位,與之相競(jìng)爭(zhēng)得軟件還有火車頭、集搜客、神箭手云爬蟲等。對(duì)于搜索平臺(tái),數(shù)據(jù)采集是數(shù)據(jù)集成關(guān)鍵的一環(huán),涉及到之后的數(shù)據(jù)建庫、數(shù)據(jù)分析、數(shù)據(jù)可視化;其次簡(jiǎn)潔高效的可交互性對(duì)于用戶也能提升較大的使用體驗(yàn)。

作為數(shù)據(jù)采集器的排頭兵,八爪魚的用戶群體廣泛,其產(chǎn)品有獨(dú)特的亮點(diǎn),能夠比較好地滿足不同類型業(yè)務(wù)下對(duì)數(shù)據(jù)搜索的需求,基于此,開展八爪魚采集器產(chǎn)品調(diào)研。

2. 調(diào)研目的

通過對(duì)八爪魚采集器windows10下8.2.2版本進(jìn)行深度體驗(yàn),首先對(duì)八爪魚進(jìn)行定位分析;然后,對(duì)八爪魚進(jìn)行產(chǎn)品分析,挖掘不同用戶的需求和場(chǎng)景,并通過完成主流用戶的操作任務(wù),還原產(chǎn)品的邏輯和結(jié)構(gòu);最后,通過市場(chǎng)上用戶反饋和競(jìng)品對(duì)比分析,提出產(chǎn)品優(yōu)化的方向。

二、對(duì)八爪魚的定位分析

八爪魚的基本定位是互聯(lián)網(wǎng)數(shù)據(jù)采集軟件,通過提供不同的采集方式,讓用戶能夠在短期內(nèi)根據(jù)自己的業(yè)務(wù)需求,快速獲取自己所需求的數(shù)據(jù),并支持不同的導(dǎo)出方式進(jìn)行數(shù)據(jù)分析和可視化。

在產(chǎn)品上線初期,市場(chǎng)上多數(shù)網(wǎng)頁數(shù)據(jù)采集技術(shù)主要是接收指定頁面,然后用正則表達(dá)式分析里面的網(wǎng)頁結(jié)構(gòu),獲取指定的數(shù)據(jù)。

采集不同網(wǎng)站的數(shù)據(jù),所用的正則表達(dá)式也不同。

但是八爪魚就以其傻瓜式采集的特點(diǎn)吸引眾多用戶,它簡(jiǎn)略了這一過程,即使不會(huì)正則表達(dá)式或者說是不會(huì)代碼,也可以進(jìn)行信息的采集,大大的降低了操作難度。

目前,八爪魚在采集上的核心功能是模板采集、智能采集、云采集、自定義采集四個(gè)方面。從最開始的簡(jiǎn)單、快速化采集,到現(xiàn)在智能化、自動(dòng)化采集,能夠在線5000臺(tái)云服務(wù)器,24*7小時(shí)不間斷的高效穩(wěn)定采集,提供30/100云節(jié)點(diǎn)高并發(fā)采集能力,能完成大規(guī)模數(shù)據(jù)的采集。

八爪魚,具有清晰的產(chǎn)品定位,在大數(shù)據(jù)自動(dòng)化時(shí)代,掌握了用戶對(duì)數(shù)據(jù)的大量需求,配合以簡(jiǎn)單易學(xué)的可視化操作界面,在爬蟲類軟件領(lǐng)域占據(jù)領(lǐng)先地位,目前,正處于穩(wěn)步優(yōu)化和發(fā)展的階段。

三、對(duì)八爪魚的產(chǎn)品分析

為了更加深入地了解產(chǎn)品,本調(diào)研從市場(chǎng)分析、競(jìng)對(duì)分析、用戶畫像、產(chǎn)品核心架構(gòu)、產(chǎn)品業(yè)務(wù)流程圖、產(chǎn)品優(yōu)缺點(diǎn)及改進(jìn)方向六個(gè)方面進(jìn)行產(chǎn)品分析。

1. 市場(chǎng)分析

近年來,中國(guó)政府對(duì)大數(shù)據(jù)產(chǎn)業(yè)的支持力度不斷加大。2015年,國(guó)務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確提出推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó)。在此背景下,中國(guó)爬蟲軟件市場(chǎng)逐漸嶄露頭角。

市場(chǎng)規(guī)模方面,根據(jù)相關(guān)數(shù)據(jù),2019年中國(guó)爬蟲軟件市場(chǎng)規(guī)模為10.8億元,預(yù)計(jì)到2025年將達(dá)到50億元,年復(fù)合增長(zhǎng)率達(dá)24.6%。可以看出,爬蟲軟件市場(chǎng)具有巨大的增長(zhǎng)潛力。

競(jìng)爭(zhēng)格局方面,目前中國(guó)爬蟲軟件市場(chǎng)主要由幾家頭部企業(yè)主導(dǎo),包括數(shù)倉、八爪魚、光年等。這些企業(yè)通過技術(shù)創(chuàng)新和精準(zhǔn)定位,在市場(chǎng)上占據(jù)了重要地位。

以下的圖表展示了全球爬蟲軟件在近十年的市場(chǎng)增長(zhǎng)率變化:

2. 主流的爬蟲軟件競(jìng)品分析

上一節(jié)分析到關(guān)于爬蟲軟件的市場(chǎng)占有率在不斷增長(zhǎng),在中國(guó)市場(chǎng)中,以下的5個(gè)產(chǎn)品在用戶體量、軟件知名度、市場(chǎng)占有率等指標(biāo)上表現(xiàn)不俗,以下為這5個(gè)產(chǎn)品的競(jìng)品分析:

3. 用戶需求和場(chǎng)景

八爪魚的基本定位是數(shù)據(jù)抓取平臺(tái),主要用戶有產(chǎn)品、運(yùn)營(yíng)、銷售、數(shù)據(jù)分析、政府機(jī)關(guān)、電商從業(yè)者、學(xué)術(shù)研究等多種身份職業(yè),對(duì)應(yīng)的業(yè)務(wù)場(chǎng)景也非常廣泛,這一類人對(duì)數(shù)據(jù)的利用程度和需求指數(shù)是不同的,并且受到教育程度和專業(yè)化程度不一樣。

通過對(duì)八爪魚采集器一段時(shí)間的使用,得到大致的用戶需求如下:

1) 數(shù)據(jù)采集的精準(zhǔn)性

對(duì)于用戶來說無論采集源是什么,通過配置要采集的數(shù)據(jù),將網(wǎng)頁中無用的信息忽略,只提取出用戶關(guān)心的關(guān)鍵數(shù)據(jù)點(diǎn),是最為關(guān)鍵的。

2) 數(shù)據(jù)分析的有效性

完成數(shù)據(jù)采集后,就應(yīng)該有準(zhǔn)確的分析和使用數(shù)據(jù)能力,透過對(duì)采集數(shù)據(jù)的深入分析,建立分析模型,通過對(duì)數(shù)據(jù)進(jìn)行分析,計(jì)算,統(tǒng)計(jì),趨勢(shì)分析等等,從而幫助用戶做出正確的決策,洞察真實(shí)數(shù)據(jù)的變化。

3) 數(shù)據(jù)整合的自動(dòng)化

最后整合數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)源源不斷的進(jìn)入系統(tǒng)。讓整個(gè)數(shù)據(jù)采集,分析,決策的過程實(shí)現(xiàn)自動(dòng)化。針對(duì)以上的數(shù)據(jù)需求,參考類似競(jìng)品調(diào)研,將八爪魚的用戶分為數(shù)據(jù)小白、數(shù)據(jù)行家、企業(yè)用戶,并總結(jié)了他們各自的使用場(chǎng)景和需求。

4. 產(chǎn)品核心架構(gòu)

為了更加全面地了解八爪魚產(chǎn)品,本調(diào)研梳理了產(chǎn)品的核心架構(gòu),具體內(nèi)容如下圖所示:

八爪魚的大致架構(gòu)比較清晰,主要是包括模板采集、智能采集、自定義采集、云采集四個(gè)板塊,以人的瀏覽行為為路徑,讓用戶在使用產(chǎn)品的時(shí)候比較容易上手。

首先模板采集內(nèi)置了上百種主流網(wǎng)站數(shù)據(jù)源,如京東、天貓、大眾點(diǎn)評(píng)等熱門采集網(wǎng)站,即對(duì)于一些搜集需求量大的一些數(shù)據(jù)源網(wǎng)站的匯總,包括常見的數(shù)據(jù)字段,和操作,對(duì)于一些初級(jí)操作者在一些數(shù)據(jù)字段不特殊的情況下使用,例如學(xué)生對(duì)于研究某一熱點(diǎn)現(xiàn)象或者影視作品的數(shù)據(jù)搜尋,或是電商從業(yè)者對(duì)不同商品的各類指數(shù)的研究,以及疫情下對(duì)于所有疫情情報(bào)的收集。

其次自定義采集是目前用戶采集數(shù)據(jù)的主要方式,其需要用戶具備一定網(wǎng)頁結(jié)構(gòu)的知識(shí),或者通過八爪魚官方的教程來學(xué)習(xí)采集的流程,其最大的特點(diǎn)是模擬了人的瀏覽行為進(jìn)行采集數(shù)據(jù),例如不管任何操作前都要輸入目標(biāo)網(wǎng)址,再對(duì)目標(biāo)內(nèi)容進(jìn)行一一選中,同時(shí)進(jìn)行額外的循環(huán)操作。

智能采集是在模板采集中缺少模板,同時(shí)不想在自定義采集下耗費(fèi)精力的另外一種方式。輸入數(shù)據(jù)源網(wǎng)站后,支持一鍵識(shí)別網(wǎng)頁,該網(wǎng)頁內(nèi)的各字段即可被選中采集,之后可以進(jìn)行增加翻頁和滾動(dòng)操作,但僅限于單一網(wǎng)頁結(jié)構(gòu)下內(nèi)容的提取,若需要進(jìn)一步的對(duì)某個(gè)鏈接內(nèi)部進(jìn)行點(diǎn)擊操作,其程度類似于自定義,只不過不需要對(duì)采集字段一一選擇,而是由八爪魚自動(dòng)識(shí)別后抓取。

云采集作為八爪魚的收費(fèi)項(xiàng)目,必然有其亮點(diǎn)之處。通過云采集實(shí)現(xiàn)多任務(wù)并發(fā)和單任務(wù)加速的采集效果以便用戶快速的收集整理互聯(lián)網(wǎng)公開數(shù)據(jù)。

其主要功能點(diǎn)如下:

  1. 采集速度。
  2. 實(shí)現(xiàn)無人值守??申P(guān)閉電腦、軟件進(jìn)行數(shù)據(jù)采集,真正實(shí)現(xiàn)無人值守。
  3. 定時(shí)采集。云采集星球是7*24小時(shí),可設(shè)置任務(wù)的定時(shí)工作。
  4. 數(shù)據(jù)自動(dòng)入庫。
  5. 通過數(shù)據(jù)導(dǎo)出API接口,實(shí)現(xiàn)秒級(jí)導(dǎo)出,無縫對(duì)接內(nèi)部系統(tǒng)。

5. 產(chǎn)品業(yè)務(wù)流程圖

從根本上來說八爪魚的特質(zhì),首先其原理就是模擬人的瀏覽行為,第一步永遠(yuǎn)是找到目標(biāo)網(wǎng)址并進(jìn)行輸入,和與手機(jī)上的操作類似,需要對(duì)目標(biāo)數(shù)據(jù)進(jìn)行點(diǎn)擊,翻頁,采集。

其次就是,八爪魚能夠根據(jù)不同的網(wǎng)站制定不同的采集規(guī)則,之后就能為用戶提供自動(dòng)化采集的模板。因此,可以看出八爪魚的業(yè)務(wù)范圍和用戶群體都是相對(duì)大眾的,但是從制定規(guī)則處又能兼容更高層次采集業(yè)務(wù)的需要。

因此,本調(diào)研梳理了八爪魚自定義采集的業(yè)務(wù)流程圖。

由于八爪魚官方?jīng)]有關(guān)于微信公眾號(hào)文章的抓取模板,故采用自定義的方式進(jìn)行抓取,由于模擬人的瀏覽習(xí)慣,在打開頁面后首先創(chuàng)建翻頁循環(huán),通過選擇Ajax技術(shù)和頁面刷新等待時(shí)間,更好匹配網(wǎng)頁加載的時(shí)間,接著創(chuàng)建列表循環(huán)并提取數(shù)據(jù),提取自己所需要的相應(yīng)字段后,啟動(dòng)本地采集或是云采集,之后選擇導(dǎo)出數(shù)據(jù)。

在梳理“自定義采集”業(yè)務(wù)流程的過程中,發(fā)現(xiàn)具有幾個(gè)特點(diǎn):

  • 對(duì)于不同網(wǎng)站有不同的抓取規(guī)則,在制定好采集規(guī)則后,根據(jù)流程全自動(dòng)采集數(shù)據(jù),下一次類似網(wǎng)站依舊能使用相同規(guī)則。
  • 操作流程可視化。在進(jìn)行采集的過程中,可以同步查看自己采集的流程圖。
  • 智能化,支持自動(dòng)識(shí)別網(wǎng)頁,采集網(wǎng)頁中可提取的各個(gè)字段。并在識(shí)別頁面操作之后,提示是否需要增加翻頁采集或者列表循環(huán)采集,如果采集字段并非所需,還可以切換識(shí)別結(jié)果。
  • 上手難度比較低,有很多功能屬于隱藏款,需要在增加熟練度之后才能開發(fā)。比如配置xpath,要會(huì)查看網(wǎng)頁源代碼,理解網(wǎng)頁結(jié)構(gòu)之后才會(huì)使用。但也比一般的爬蟲工具易于理解。

6. 用戶反饋和優(yōu)化方向

通過對(duì)數(shù)據(jù)收集整理,剔除好評(píng)數(shù)據(jù)和無意義數(shù)據(jù),形成以上用戶反饋表格,本調(diào)研得出以下結(jié)論:

優(yōu)化方向:

  • 用戶反饋數(shù)據(jù)偏少,可能未客觀全面反映出產(chǎn)品存在的問題。
  • 產(chǎn)品的bug主要出現(xiàn)在采集數(shù)據(jù)的操作過程中,是產(chǎn)品的核心操作,直接影響用戶體驗(yàn),建議聯(lián)系反饋者,并測(cè)試bug是否存在,如果bug還原,及時(shí)處理,如果bug未還原,進(jìn)入觀察期。
  • 采集數(shù)據(jù)操作的簡(jiǎn)易型是用戶選擇八爪魚的重要因素,對(duì)于模板采集需要增加更多的模板,可以從兩個(gè)方面入手,一是開設(shè)模板上傳功能,讓用戶在采集完成后覺得不錯(cuò),穩(wěn)定性高的模板采用積分鼓勵(lì)的方式上傳,二是創(chuàng)建官方的博客專區(qū),放置更多的模板和介紹,并讓用戶留言的方式增加互動(dòng)性,也可以解決一部分的技術(shù)問題。
  • 對(duì)于自定義采集,對(duì)于一些常用的網(wǎng)站可以在自定義識(shí)別后,自動(dòng)保留上一次在該網(wǎng)站進(jìn)行采集的流程,可以減少因?yàn)闂l件增加的基礎(chǔ)上導(dǎo)致規(guī)則崩潰的問題。
  • 關(guān)于任務(wù)數(shù)上限的問題,在同時(shí)啟動(dòng)多少個(gè)任務(wù)下效率最高,且不會(huì)卡死,是一個(gè)待解決的問題。

三、總結(jié)

總的來說,八爪魚的優(yōu)點(diǎn)是:簡(jiǎn)單易用、規(guī)則好找、可視化界面、容易學(xué)習(xí)和模仿。

直觀看到網(wǎng)頁變化,不管是測(cè)試還是采集的時(shí)候都容易規(guī)避一些操作失誤;自定義規(guī)則相對(duì)較快,官方文檔詳細(xì)。而缺點(diǎn)則是:模板量不夠豐富,自定義規(guī)則容易因錯(cuò)誤操作導(dǎo)致卡死,企業(yè)版出現(xiàn)采集速度緩慢等原因。

未來迭代方向及思路:

1)用戶引導(dǎo)方面

可以在用戶第一次使用之前就進(jìn)行強(qiáng)制的操作教學(xué),分成若干的課程給用戶進(jìn)行學(xué)習(xí),沒完成一項(xiàng)就給予積分鼓勵(lì)。積分可用來下載VIP模板或者提高采集速度。

2)智能化方面

若用戶在選擇進(jìn)入采集頁面之后自動(dòng)識(shí)別到該網(wǎng)頁在本模板庫中,可以先向用戶推薦使用該模板采集,若庫中沒有此類模板,則開啟自動(dòng)化識(shí)別,之后為用戶提供是否需要翻頁采集,是否需要圖片采集等一系列功能。

3)模板采集方面

對(duì)于模板采集需要增加更多的模板,可以從兩個(gè)方面入手,一是開設(shè)模板上傳功能,讓用戶在采集完成后覺得不錯(cuò),穩(wěn)定性高的模板采用積分鼓勵(lì)的方式上傳,二是創(chuàng)建官方的博客專區(qū),放置更多的模板和介紹,并讓用戶留言的方式增加互動(dòng)性,也可以解決一部分的技術(shù)問題。

4)基于同儕互助的問答社區(qū)

由于目前人工客服只對(duì)企業(yè)版開放,大多數(shù)普通用戶不到解答,就導(dǎo)致了用戶流失和惡意評(píng)價(jià)等問題,建立評(píng)論社區(qū)可以減少人工客服的負(fù)擔(dān),同樣可以為產(chǎn)品帶來更多效益。

本文由 @瓜皮結(jié)衣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 競(jìng)品分析沒結(jié)論嘛

    來自江蘇 回復(fù)
    1. 結(jié)論這部分內(nèi)容在6用戶反饋和優(yōu)化總結(jié)

      來自湖北 回復(fù)
  2. 不黑,八爪魚的售后服務(wù)很差

    來自江蘇 回復(fù)