利用樣本分群提升風控模型性能

首頁    工商    利用樣本分群提升風控模型性能

  Part 1. 樣本分群在風控建模中的價值

  重慶代理記賬分群(segmentation)是指根據某些規則將人群細分,其基本要求是組內相近,組間相異。

  在市場營銷中,我們往往希望廣告能精準投放,這樣就能大幅度減少廣告成本,并且能讓目標人群有更高的響應率(response rate)。

  在風控建模中,我們希望模型能專注地從樣本中學到X與y之間的映射關系。為了達到這個目的,我們會幫助模型預先篩選好樣本(也就是分群),使其在特定樣本上專注學習。當然,我們需要注意每個分群上的樣本量足夠,否則容易過擬合。

重慶餐飲經營許可證代辦

  Part 2. 基于業務經驗的無監督分群

  此時,我們需要用戶畫像有全面的了解,否則很容易失去業務可解釋性。例如,如果有“有娃一族”、“購物達人”、“理財能手”等用戶畫像標簽,我們就很容易根據這些標簽進行組合,實現進一步分群。

  常見的無監督聚類方法有K-means、GMM(高斯混合模型)等。其中,K-means存在隨機選擇初始質心和需設置超參數K(目標簇數)等問題,容易導致分群不穩定的現象。GMM在實際聚類時的效果往往更好,其主要思想是樣本分布可以分解為多個正態分布的組合。

  需要指出的是,這些無監督算法在實踐中并不一定會得到很好的效果,不穩定的分群也會讓人懷疑合理性,因此通常情況下還是基于業務經驗,以及用戶畫像基礎屬性來細分人群。

  經過上述分析,我們認為該分群是有效的。接下來對5個子人群分別建立5個子模型。可以預見,不同子模型內入模特征的重要性順序通常會存在差異。而當相對排序性幾乎一致時,我們也能預估該分群操作對整體的提升貢獻較小。

  Part 3. 基于決策樹的有監督分群

  在實踐中,很多經驗不足的建模同學可借助有監督分群。首先需要根據業務目標來定義目標變量(target),因此在特定的場景上相對于無監督分群往往更為有效。重慶執照代辦

  在實踐中,我們經常使用決策樹來分群,如分類回歸決策樹(Classification and Regression Tree,CRT)和CHAID等。一般情況下,也會在參考sklearn中可視化決策樹結構的基礎上,手動調整分裂點

  在構造分群變量時,一般需要滿足以下幾點要求:

  分群穩定性:隨著時間變化,該分群是足夠穩定的,不至于未來消失,或出現新的人群。

  分群差異性:各子群體之間具有足夠的差異,否則便沒有分群的意義。在PD模型中,差異性是指bad rate差異。

  業務解釋性:分裂點通常需要符合業務經驗,比如變量age在30.5發生分裂,這就不太符合業務sense,就會將其手動調整為30。

  在實踐中,我們一般很難一下子就找到有效的分群規則,因此需要不斷迭代嘗試。這是一個相當耗時的步驟。

  Part 4. 利用分群變量提升模型

  我們常會用全量樣本直接訓練一個模型(記為Model 1)作為baseline版本,意義在于:

  1. baseline版本產出模型基本性能,從而幫助建模同學有大致判斷,更有底。

  2. 階段性成果用于向boss匯報,從而在項目執行過程中有及時反饋。

  3. 繼續探索優化,比如樣本分群、樣本權重調整等,目的是打敗這個baseline版本。

  另外,相信有過大型風控建模項目經驗的同學肯定能明白baseline的重要性。在實踐中,往往有幾個切身體會:

  1. 模型設計和數據準備值得投入更多精力。

  2. 先打通整個流程,再考慮迭代優化。

  3. 先有保底版本,不至于項目延期無果。

  在得到分群變量后,我們可能采取兩種候選建模方案:

  方案一:分群單獨建模

  step 1. 對于N個分群單獨建立N個子模型。同時,根據不同分群的特點構造新特征來提升子模型性能。

  step 2. 將子模型分數作為新的特征x,以及原樣本的目標變量y,訓練一個組合主模型。或者,將子模型分數校準到同一尺度,可以參考文章《信用評分卡模型分數校準》。

  方案二: 加入分群變量

  step 1. 加入分群變量,只訓練一個模型。

  step 2. 在模型選擇上:對于樹模型而言,自動選擇分群變量進行分裂群體來擬合;對于線性評分卡模型而言,增加新的維度,在高維空間進行擬合。

  那么,這兩種方案之間的效果是否有差異呢?以及各有什么優缺點???

  方案一:優點在于能強制模型專注于擬合局部人群樣本,因此通常能達到不錯的效果。另一方面,如果是團隊協作建模,也便于分工并行。缺點在于相對耗時耗力,需要建多個子模型和一個主模型。同時,在模型上線部署和監控時會增加很多額外的工作量。因此,需要衡量這個“性價比”。

  方案二:優點在于相對省時省力,只需要建一個模型。然而,缺點也比較明顯。理想情況下,如果樹模型自動選擇分群變量在根節點處分裂,那么就能達到和方案一同樣的效果。但事實上真的如此嗎?有時分群變量并一定在樹模型的根部分裂,而在中間某個環節才分裂。因此,效果可能并不盡如人意。

  Part 5. 業務場景案例分析

  在建立PD(Probability of Default,違約率)風險模型時,首先建立baseline版本的Model 1,假設得到測試集上的Gini指標為0.57。

  接下來,我們利用年齡(age)和收入(income)這兩個變量來進行樣本分群,得到如圖2所示的決策樹。其中,共有5個葉子節點(綠色方塊),代表5個細分人群。

  現從分群差異性、分群穩定性、業務解釋性這3個維度進行分析:

  1. 分群差異性:各人群之間的bad rate差異性符合業務經驗,相鄰節點的差異達到30%以上。注意,這個并沒有統一標準,根據具體業務場景而定。

  2. 分群穩定性:經過月維度的樣本集分析,發現分群人數占比(sample rate)和bad rate都基本穩定。

  3. 業務解釋性:符合業務常識。分裂點為整數,并且通常情況下,在一定范圍內年齡越大,收入越高。重慶公司注銷代辦

2019年10月24日 09:33
?瀏覽量:0
本網站由阿里云提供云計算及安全服務
11选5冷热号以多少期来看