大數據風控建模標準流程
一、風控建模標準過程
(一)數據採集彙總
1、以客戶爲維度組織蒐集信息(人口屬性、交易信息、交易渠道、風險評估、產品偏好、經營信息)
2、評估數據真實性和質量,數據質量好的變量進入後續步驟
(二)模型設計
1、時間窗和好壞客戶定義
時間窗:根據獲取數據的覆蓋週期,將數據分爲用來建模的觀察期數據,和後面用來驗證表現的表現期數據;
好壞客戶定義:分析客戶滾動和遷移率,來定義什麼程度逾期的爲“壞客戶”,例如定義M3爲壞客戶就是定義逾期3個月的纔是壞客戶;
2、樣本集切分和不平衡樣本處理
樣本集切分:切分爲訓練集和測試集,一般7/3或8/2比例;
不平衡樣本:最理想樣本爲好壞各50%,實際拿到的樣本一般壞客戶佔比過低,採取過採樣或欠採樣方法來調節壞樣本濃度。
3、模型選擇
評分卡模型以邏輯迴歸爲主。
(三)數據預處理及變量特徵分析
1、變量異常值、缺失值處理:使用均值、衆數等來平滑異常值,來填補缺失,缺失率過高的變量直接丟棄;
2、變量描述性統計:看各個變量的集中或離散程度,看變量的分佈是否對樣本好壞有線性單調的相關性趨勢;
(四)變量篩選
1、變量分箱:變量取值歸入有限個分組中,一般5個左右的分箱數量,來參加後面的算法模型計算。分箱的原則是使得各箱內部儘量內聚,即合併爲一箱的各組壞樣本率接近;使得相鄰分箱的壞樣本率呈現單調趨勢。從方法上一版採取先機器分箱,後人工微調。
2、定量計算變量對於識別壞樣本的貢獻度(WOE和IV)
(1)WOE是統計一個變量的各分箱區間之間的好佔總好比值壞佔總壞之比,不同分箱之間差異明顯且比例成單調趨勢,說明分箱的區分度好;
(2)IV是在WOE基礎上進一步加權計算這個變量整體上對於區分好壞樣本的識別度,也就是變量影響因子。數越大說明用這個變量進行區分的效果越好,但IV值過大容易引起模型過擬合,即模型過於依賴單一變量,造成使用過程中平衡性健壯性不好;
3、計算變量之間的相關性或多重共線性,相關性高於0.5甚至0.7的兩個變量裏,就要捨棄一個,留下iv值較高的那個。例如“近一個月查詢次數”、“近三個月查詢次數”、“近六個月查詢次數”這三個變量顯然明顯互相相關度高,只保留其中一個變量進入模型即可。
(五)變量入模計算
1、以最終選定的若干變量,進入迴歸模型算法,機器自動計算
其中每一個X就是一種變量,這個計算就是爲了算出每種變量的最終權重,也就是算出所有的b。
2、客戶違約概率映射爲客戶分數。以上公式一旦計算確定,則給出一個確定的客戶,就可以算出其違約概率,下面公式是把概率進一步再映射計算成一個客戶總評分。
3、計算確定每種變量每個分箱所應該給的得分
某一變量在一個分箱的得分該組WOE
(六)模型驗證與評價
1、模型區分好壞客戶能力評價
(1)ROC值及繪圖
用來評價模型的靈敏度,橫座標是好人被錯殺的概率,縱座標是壞人被正確挑出的概率,所以曲線越向左上角偏越好,曲線下方面積就是AUC值,一般達到0.75以上說明靈敏度好。
(2)K-S值及繪圖
評價模型區分好壞客戶的能力,並得到最大化通過好客戶、拒絕壞客戶的極值點。橫座標是評分,縱座標是累計百分比,紅線是壞人被正確識別的累計概率,藍線是好人被錯殺的累計概率,灰線是紅藍數值之差,則灰線最高點爲KS極值點,通常KS大於0.4爲良好的模型。
2、模型穩定性評價
因爲模型是使用過去的一批客戶訓練出來的,穩定性測試是爲了證明訓練出來的模型不依賴於訓練樣本的某些特異屬性,而是能抓住業務面對客戶的共同特點規律,在未來實際業務使用中能夠健壯穩定地識別新客戶的好壞。主要是模型在訓練集和測試集中識別率表現應該基本一致,對全樣本的不同時段切片應該表現基本一致,對樣本內數據和樣本外數據應該表現基本一致。
3、模型壓力測試
壓力測試是評估模型承受“罕見但是仍然可能”的宏觀經濟衝擊或重大金融事件過程,進行壓力測試一般用量化模型,用以衡量在經濟環境變化導致樣本大幅偏移的情況下模型是否仍然有效,評估銀行抵禦經濟週期性變化的能力。目前我行使用專家模型,需要有完整時間週期(如整年)的樣本積累,並且進行經濟預期數據建模後續可以開展有效的壓力評估。
-
公司管理案例範本 企業管理案例精析(精品多篇)
最新公司管理案例篇一1、車輛進\\出校門時,車速不得超過20公里。2、上學、放學進出校門期間,教師車輛必須給學生讓道。教師車輛進入校園後,必須按規定車位停放。不得亂停亂放。校車停放在學校行政辦公樓前。傳達室西停車場不再安排停車,備上級領導來時停車用。教...
-
企業全套管理方案精彩多篇
企業全套管理方案範文(精選8篇一一、公司管理現狀:(1)公司高層管理思想落後,管理方式粗俗、多采用集中式獨裁管理,員工沒有有發言權,機械地執行中高層指示,命令,政策,挫傷員工積極性和創造性。(2)公司中高層疏於授權,授權文化氛圍不濃厚,管理層上行下效、公司不論處於萌芽期,...
-
物業公司管理報告多篇
【第1篇】物業管理公司總經理度述職報告董事局各位董事:依據董事局股東大會報告、《集團經營管理責任書》目標任務以及集團董事局決議、決定的要求,我代表______物業管理有限公司向董事局報告,請予審議。度回顧滄海雲帆,長風破浪。當___保安隊伍伴隨着新年的腳步雄...
-
企業管理調查報告多篇
【第1篇】關於煙汽應用計算機信息技術加強企業管理地調查報告企業管理是一個老話題,但管理如何細化,制度如何硬化,手段如何強化,長期以來卻沒有解決好。煙臺汽車製造廠幾年來通過運用計算機網絡和統一的財務軟件,積極探索企業內部資金流、物流和信息流的一體化管理,...