CDA數(shù)據(jù)科學(xué)研究院

7x24小時咨詢熱線

400-660-3310

當前位置 : 好學(xué)校 CDA數(shù)據(jù)科學(xué)研究院 學(xué)校動態(tài) 資訊詳情

作為文科生,我是如何轉(zhuǎn)行數(shù)據(jù)挖掘工程師的 | CDA持證人分享

2022-01-21

大家好,今天跟大家?guī)硪粋€分享,主題是關(guān)于我如何從文科生轉(zhuǎn)行為數(shù)據(jù)挖掘工程師的。

  • 第 一部分講一下我作為文科生轉(zhuǎn)行數(shù)據(jù)挖掘的歷程;
  • 第二部分是關(guān)于目前從事數(shù)據(jù)挖掘,主要針對商業(yè)數(shù)據(jù)挖掘所需要掌握的一些技能;
  • 第三部分講一下我之前做的一個產(chǎn)品,關(guān)于電信產(chǎn)品營銷的模型建置整體的流程。
分享

01、文科生轉(zhuǎn)行數(shù)據(jù)挖掘工程師的歷程

首先看到第 一部分的內(nèi)容 ,也就是我的轉(zhuǎn)行歷程。

我高中那會兒讀的是文科,大學(xué)期間學(xué)習了社會學(xué)專業(yè)。在本科期間,我也接觸過一些統(tǒng)計學(xué)的知識,線性代數(shù)等知識也學(xué)過,但當時對這些學(xué)科將來的用途并不是很清楚。

參加工作后,最初我從事產(chǎn)品運營的相關(guān)工作。在工作過程中, 我接觸到了數(shù)據(jù)分析相關(guān)的內(nèi)容。當時我感覺自己工作內(nèi)容比較雜,也沒有拿得出來的技能。

我認為數(shù)據(jù)分析很有前景,無論是文科生還是理科生都可以學(xué),學(xué)起來也比較有趣 ,內(nèi)容不枯燥,所以我漸漸開始學(xué)習數(shù)據(jù)分析。

這里我列了幾個對我比較關(guān)鍵的節(jié)點,這些對我未來的工作有了較大的影響。

轉(zhuǎn)行歷程

首先就是學(xué)數(shù)據(jù)挖掘,用的是SPSS Modeler.比較容易上手,入門也比較簡單。SPSS Modeler雖然很好用,但其實很多時候不能滿足數(shù)據(jù)清洗的一些需求,也有一些劣勢 ,比如算法更新很慢,只有比較常規(guī)的算法,如果想用比較先進的算法,還是開源的軟件提供的比較多。

之后我學(xué)習了Python,比較容易上手,語法也比較簡潔。通過大量練習掌握了爬蟲、數(shù)據(jù)清洗、數(shù)據(jù)可視化等技能點。

Python基本能滿足日常工作的需求。

第三個節(jié)點是我學(xué)習了SQL和統(tǒng)計知識。SQL本身基礎(chǔ)的知識不是特別復(fù)雜,然后主要靠練習,包括統(tǒng)計的一些知識,這也是我在之后的工作中不斷學(xué)習的。

02、從事數(shù)據(jù)挖掘技能需求

目前我目前從事的是數(shù)據(jù)挖掘的相關(guān)工作,接下來講一下I作中所需要的一些技能。

技能需求

這部分可以分為硬技能和軟技能。

硬技能

硬技能這里我分為理論基礎(chǔ)、算法能力、分析工具和通用工具。下面具體來看一 看。理論基礎(chǔ)中統(tǒng)計知識是不可或缺的。

后面的概率論、線性代數(shù)、微積分其實是跟偏算法相關(guān)。

算法方面主要需要一些機器學(xué)習跟深度學(xué)習的算法。 比如分類、回歸、聚類等-些比較基礎(chǔ)的算法。

不同于算法工程師對算法的要求會比較高,像偏業(yè)務(wù)的數(shù)據(jù)挖掘的崗位,對算法的要求沒那么高。你能夠做到理解算法的基本原理跟應(yīng)用場景,能夠應(yīng)用工具去實現(xiàn)它,能夠解讀算法最 后的結(jié)果,也就差不多了, 對數(shù)學(xué)的要求也并不太高。

關(guān)于深度學(xué)習,現(xiàn)在數(shù)據(jù)挖掘等算法崗也相對內(nèi)卷,如果你不會也不了解深度學(xué)習就有點說不過去了,這方面可以了解一下。還需要掌握一些工具庫,現(xiàn)在深度學(xué)習的工具庫比較多,也有一些比較簡便的工 具庫能協(xié)助實現(xiàn)相關(guān)的功能。

然后看到分析工具。其實目前主要用的也就是SQL跟Python ,主要是看你公司的數(shù)據(jù)量,如果數(shù)據(jù)量不是很大的話,基礎(chǔ)的一些SQL知識就夠了,可能關(guān)系數(shù)據(jù)庫就可以了, 包括在單機里面,去運行Python也可以的;但是如果公司的數(shù)據(jù)量特別大的話,比如我目前是在Hadoop的平臺做一些數(shù)據(jù)分析跟數(shù)據(jù)挖掘。 如果本身的數(shù)據(jù)量就比較大,可能會用到Hive數(shù)據(jù)倉庫等。

再看到建模工具,目前其實主流是Python ,還有集成了Pyspark ,這是用得比較多的。然后建模的話,考慮到數(shù)據(jù)Python在80%的情況上都是夠用的。

關(guān)于通用工具, Excel跟PPT都是比較基礎(chǔ)的。下面這個Shell是開發(fā)工具 ,很多時候會涉及到一些開發(fā)的工作,比如說標簽表的開發(fā),然后就會用到Shell結(jié)合ETL自動化平臺,調(diào)用需要的腳本進行自動化的運行。就相當于是每天它會自動的跑一些腳本,而不需要去手I或者是在單機操作,這些都是在平臺上面自動完成的。

軟技能

軟技能這塊簡單看一下 ,包括像業(yè)務(wù)的理解,比如你進入任何- -個行業(yè),你前幾個月會多花時間了解該行業(yè)的業(yè)務(wù)表,業(yè)務(wù)涉及的一些內(nèi)容,核心的盈利業(yè)務(wù)是哪些。還有一些通用的能力,比如溝通、匯 報能力等,因為你經(jīng)常會需要將模型和分析報告講給別人聽,因此這些能力也是十分重要的。還有學(xué)習能力。數(shù)據(jù)行業(yè)的迭代比較快,需要有持續(xù)學(xué)習的能力。

03、項目實操流程電信產(chǎn)品案例分享

下面來講一個電信產(chǎn)品的項目案例,在此之前讓看一下目前會涉及到的主要模型。

這邊將用戶生命周期劃分為這樣幾塊:第 一、新用戶獲取階段;第二、入網(wǎng)期;第三、成長期;第四、成熟期;第五、衰退期。

在不同的時期會有不同的模型。當然要根據(jù)具體的業(yè)務(wù),就不同行業(yè)可能它的業(yè)務(wù)不一樣,但是用戶生命周期都是類似的。都需要獲取用戶,用戶在平臺上成長,包括會有成熟到衰退的生命周期,會有一個曲線。比如在新用戶獲取這邊,會有很多像家庭圈模型等類型。

下面介紹一下入網(wǎng)期中天翼看家這個模型。它是一個看家的智能設(shè)備,一 般在農(nóng)村比較多,安裝在家里,在外務(wù)工的人群就可以通過它看到家里老人和小孩的情況。

還有-類是滿意度的模型。這邊核心關(guān)注就是三塊,第 一塊是像這種開源的營銷模型。第二塊是用于節(jié)流的,減少損失的離網(wǎng)模型。第三種是提升用戶滿意度的模型。

電信產(chǎn)品辦理預(yù)測模型

整體模型的建置分為以下4個步驟,第 一個步驟是數(shù)據(jù)的準備;第二個步驟是模型的構(gòu)建;第三個是預(yù)測感知,也就是模型預(yù)測;第四個是結(jié)果應(yīng)用。

預(yù)測模型

首先第 一點是基于產(chǎn)品營銷模型,也就是基于客戶的一些產(chǎn)品數(shù)據(jù),還有行為數(shù)據(jù)、消費數(shù)據(jù)等維度 ,從而去構(gòu)造樣本空間。

樣本空間包括特征空間,樣本空間就是正負樣本。正樣本就是已經(jīng)辦理,比如說11月已經(jīng)辦理的用戶作為正樣本,同時這個月沒有辦理的用戶都可以作為負樣本。接著進行抽樣,構(gòu)造樣本空間。

特征工程也就是特征構(gòu)造,基于客戶的一 些基本屬性信息,還有套餐信息,包括產(chǎn)品訂購的信息,包括消費信息。其實還有很多其他維度的信息, 比如說瀏覽內(nèi)容、訪問軌跡、位置信息等都可以考慮進來。

構(gòu)造產(chǎn)品預(yù)測模型可分為這樣幾塊。將數(shù)據(jù)分割成訓(xùn)練集, 測試集跟驗證集。測試集本身應(yīng)該是在下一步構(gòu)造的,指的是沒有用戶的標簽,需要預(yù)測其將來的標簽,給每個用戶打標簽。

在訓(xùn)練集里劃分成訓(xùn)練集跟測試集,訓(xùn)練集用于訓(xùn)練模型, 驗證集用于修正模型。

接著看到數(shù)據(jù)探索,這部分會進行一些統(tǒng)計分析,還有每個變量跟目標變量之間的關(guān)系,這些都都需要做- -些探索。模型的話,當時是用了幾種集成模型做建置,進行模型間對比,最 后輸出模型的重要特征。

然后第三步對用戶辦理預(yù)測。對未辦理的用戶拿過來,輸入剛才訓(xùn)練的模型,預(yù)測出其對產(chǎn)品營銷的辦理可能會響應(yīng)的概率。最 后輸出的就是用戶是否會辦理的產(chǎn)品,以及辦理的產(chǎn)品的預(yù)測概率值。從而根據(jù)預(yù)測概率值,劃定閾值。比如說想營響應(yīng)概率在40%以上的用戶,這時就可以將這些用戶篩選出來,然后最 后生成關(guān)聯(lián)標簽,交給營銷平臺,做營銷派單,之后做一些短信或電話觸達。最 后可以針對轉(zhuǎn)化進行跟蹤,以上就是該項目的整體流程。

下面分步驟講一 下模型的情況。首先是模型的背景,目前已辦理天翼看家用戶的規(guī)模,建置模型的預(yù)期等目標。

模型背景

樣本選擇方面,已辦理的作為正樣本,接觸過沒辦理的作為負樣本,這里正負樣本有些不均衡。針對這種樣本不均衡的數(shù)據(jù),可以采用采樣的技術(shù)。

樣本選擇

下面是關(guān)于取數(shù)的問題。取數(shù)會有一個時間窗口的問題,在這邊會分成訓(xùn)練數(shù)據(jù)跟測試數(shù)據(jù),假設(shè)預(yù)測變量y是10月到11月,訓(xùn)練數(shù)據(jù)的x就要往前取。這里是要看用戶過去的行為,可能會對將來產(chǎn)生什么影響。所以訓(xùn)練特征要往前取,比如看用戶在7到10月的通話行為。

下面是關(guān)于模型特征的一些構(gòu)建。

模型特征

建模過程方面,也是一些常規(guī)的流程。比如數(shù)據(jù)清洗中,錯誤值的填充,錯誤值的處理。離群值可以使用蓋帽法進行處理,對于套餐價值量可以進行離群值的處理。然后空值的填補,比如說像分類變量連續(xù)性變量,可以用一些統(tǒng)計方法或模型方法來做。

建模過程

數(shù)據(jù)編碼這塊,對于連續(xù)性變量可以去做一些分箱,在字段分箱之后,看一下對目標變量是否有一些顯著的影響。建模調(diào)參方面,對模型參數(shù)進行調(diào)整,選擇最 佳模型。

接著我們看到模型評估。

模型評估

模型評估會輸出混淆矩陣,行是實際值,實際有沒有辦理,列可能是預(yù)測值,預(yù)測它有沒有辦理。營銷比較關(guān)注的是*中率,也就是說預(yù)測差不多有8000多個人會辦理這個產(chǎn)品,但實際上辦理了多少,這里實際辦理有6000多,所以*中率是68%。預(yù)測得準不準非常重要。

之后會跟蹤營銷活動的轉(zhuǎn)化率。

營銷活動的轉(zhuǎn)化率

預(yù)測用戶可能是比較高概率的用戶,在將來的一段時間可能是一到兩個月,預(yù)測家裝的用戶中的加裝比例,也就是營銷活動的轉(zhuǎn)化的情況。

再看到地域特點部分。

地域

比如說農(nóng)村用戶家裝的是33萬,城市用戶家裝是9萬多。這里看到百分比,農(nóng)村占比70%,其實是遠遠超過城市的。在城市這個群體中,家裝概率是2.58%,然后在農(nóng)村這個群體中,它加裝的概率是9.82%??梢钥吹剑绻麪I銷農(nóng)村這個區(qū)域,響應(yīng)概率來說相對會比較高。

以上就是我分享的內(nèi)容了,希望對大家能有所幫助。

收藏
分享到:

相關(guān)課程

CDA數(shù)據(jù)科學(xué)研究院

CDA數(shù)據(jù)科學(xué)研究院

認證等級

信譽良好,可安心報讀

CDA數(shù)據(jù)科學(xué)研究院

已獲好學(xué)校V2信譽等級認證

信譽值

  • (60-80)基礎(chǔ)信譽積累,可放心報讀
  • (81-90)良好信譽積累,可持續(xù)信賴
  • (91-100)充分信譽積累,推薦報讀

與好學(xué)校簽訂讀書保障協(xié)議:

  • 100%
  • 706
  • 6392
在線咨詢
;