Python機器學習算法實戰(zhàn)

課程編號：32145

課程價格：￥26000/天

課程時長：3 天

課程人氣：374

行業(yè)類別：行業(yè)通用

專業(yè)類別：大數(shù)據(jù)

授課講師：傅一航

課程說明
講師介紹
選擇同類課

【培訓對象】
IT系統(tǒng)部、大數(shù)據(jù)系統(tǒng)開發(fā)部、大數(shù)據(jù)建模等IT技術人員。

【培訓收益】

第一部分：機器學習基礎
1、機器學習簡介
2、機器學習的種類
監(jiān)督學習/無監(jiān)督學習/半監(jiān)督學習/強化學習
批量學習和在線學習
基于實例與基于模型
3、機器學習的主要戰(zhàn)挑
數(shù)據(jù)量不足
數(shù)據(jù)質量差
無關特征
過擬合/擬合不足
4、機器學習任務
監(jiān)督：分類、回歸
無監(jiān)督：聚類、降維、關聯(lián)規(guī)則
5、機器學習基本過程
6、機器學習常用庫
第二部分：回歸算法實現(xiàn)
1、建模的本質，其實是一個最優(yōu)化問題
2、回歸模型的基礎
3、基本概念：損失函數(shù)
4、線性回歸常用算法
普通最小二乘法OLS
梯度下降算法
牛頓法/擬牛頓法
5、最小二乘法
a)數(shù)學推導
b)OLS存在的問題
6、過擬合解決方法：正則化
嶺回歸（Ridge）
套索回歸Lasso
ElasticNet回歸
各種算法的適用場景
7、超大規(guī)模數(shù)據(jù)集的回歸模型：迭代算法
梯度概念
梯度下降/上升算法
批量梯度BGD/隨機梯度SGD/小批量梯度MBGD
學習率的影響
早期停止法
8、梯度算法的關鍵問題
9、牛頓法/擬牛頓法
泰勒公式(Taylor)
牛頓法(Newton)
擬牛頓法(Quasi-Newton)的優(yōu)化
DFP/BFGS/L-BFGS
10、算法比較
第三部分：邏輯回歸算法
1、邏輯回歸基礎
2、LR的常用算法
最大似然估計法
梯度算法
牛頓法
3、最大似然估計法
似然函數(shù)/損失函數(shù)
數(shù)學推導
4、模型優(yōu)化
迭代樣本的隨機選擇
變化的學習率
5、邏輯回歸+正則項
6、求解算法與懲罰項的關系
7、多元邏輯回歸處理
ovo
ovr
優(yōu)缺點比較
8、邏輯回歸建模實戰(zhàn)
案例：用sklearn庫實現(xiàn)銀行貸款違約預測
案例：訂閱者用戶的典型特征（二元邏輯回歸）
案例：通信套餐的用戶畫像（多元邏輯回歸）
第四部分：決策樹算法
1、決策樹簡介
演練：識別銀行欠貨風險，提取欠貸者的特征
2、決策樹的三個關鍵問題
最優(yōu)屬性選擇
熵、基尼系數(shù)
信息增益、信息增益率
屬性最佳劃分
多元劃分與二元劃分
連續(xù)變量最優(yōu)劃分
決策樹修剪
剪枝原則
預剪枝與后剪枝
3、構建決策樹的算法
ID3、C4.5、C5.0
CART
4、決策樹的超參優(yōu)化
5、決策樹的解讀
6、決策樹建模過程
案例：商場酸奶購買用戶特征提取
案例：客戶流失預警與客戶挽留
案例：識別拖欠銀行貨款者的特征，避免不良貨款
案例：識別電信詐騙者嘴臉，讓通信更安全
案例：電力竊漏用戶自動識別
第五部分：神經網絡算法
1、神經網絡簡介（ANN）
2、神經元基本原理
加法器
激活函數(shù)
3、神經網絡的結構
隱藏層數(shù)量
神經元個數(shù)
4、神經網絡的建立步驟
5、神經網絡的關鍵問題
6、BP算法實現(xiàn)
7、MLP多層神經網絡
8、學習率的設置
案例：評估銀行用戶拖欠貨款的概率
案例：神經網絡預測產品銷量
第六部分：線性判別算法
1、判別分析簡介
2、判別分析算法
中心和方差
類間散席Sb
類內散席Sw
3、特征值和特征向量
4、多分類LDA算法
5、算法實戰(zhàn)
案例：MBA學生錄取判別分析
案例：上市公司類別評估
第七部分：最近鄰算法（KNN）
1、KNN的基本原理
2、K近鄰的關鍵問題
距離公式
投票機制
3、KNN算法實現(xiàn)
Brute（蠻力計算）
Kd_tree（KD樹）
Ball_tre（球樹）
4、算法比較
第八部分：貝葉斯算法（NBN）
1、貝葉斯簡介
2、貝葉斯分類原理
先驗概率和后驗概率
條件概率和類概率
3、常見貝葉斯網絡
4、計算類別屬性的條件概率
5、估計連續(xù)屬性的條件概率
6、預測分類概率（計算概率）
7、拉普拉斯修正
案例：評估銀行用戶拖欠貨款的概率
第九部分：支持向量機算法（SVM）
1、支持向量機簡介
適用場景
2、支持向量機原理
支持向量
最大邊界超平面
3、線性不可分處理
松弛系數(shù)
4、非線性SVM分類
5、常用核函數(shù)
線性核函數(shù)
多項式核
高斯RBF核
核函數(shù)的選擇原則
6、SMO算法
第十部分：模型集成優(yōu)化篇
1、模型的優(yōu)化思想
2、集成模型的框架
Bagging
Boosting
Stacking
3、集成算法的關鍵過程
弱分類器如何構建
組合策略：多個弱學習器如何形成強學習器
4、Bagging集成算法
數(shù)據(jù)/屬性重抽樣
決策依據(jù)：少數(shù)服從多數(shù)
隨機森林RandomForest
5、Boosting集成算法
基于誤分數(shù)據(jù)建模
樣本選擇權重更新
決策依據(jù)：加權投票
AdaBoost模型
6、GBDT模型
7、XGBoost模型
8、LightGBM模型
第十一部分：聚類分析（客戶細分）實戰(zhàn)
1、聚類基本原理
2、K均值聚類算法
K均值算法
3、距離計算公式
閔可夫斯基距離(Minkowski Distance)
曼哈頓距離(Manhattan Distance)
歐氏距離(Euclidean Distance)
切比雪夫距離(Chebyshev Distance)
余弦距離(Cosine)
Pearson相似距離
馬哈拉諾比斯距離（Mahalanobis）
漢明距離(Hamming distance)
杰卡德相似系數(shù)(Jaccard similarity coefficient)
相對熵（K-L距離）
4、K均值算法的關鍵問題
初始中心的選取方式
最優(yōu)K值的選取
5、聚類算法的評價方法
Elbow method（手肘法）
Calinski-Harabasz Index（CH準則法）
Silhouette Coefficient（輪廓系數(shù)法）
Gap Statistic（間隔統(tǒng)計量法）
Canopy算法
6、算法實戰(zhàn)
案例：使用SKLearn實現(xiàn)K均值聚類
第十二部分：關聯(lián)規(guī)則算法
1、關聯(lián)規(guī)則基本原理
2、常用關聯(lián)規(guī)則算法
Apriori算法
發(fā)現(xiàn)頻繁集
生成關聯(lián)規(guī)則
FP-Growth算法
構建FP樹
提取規(guī)則
3、算法實戰(zhàn)
案例：使用apriori庫實現(xiàn)關聯(lián)分析
案例：中醫(yī)證型關聯(lián)規(guī)則挖掘
第十三部分：協(xié)同過濾算法
1、協(xié)同過濾基本原理
2、協(xié)同過濾的兩各類型
基于用戶的協(xié)同過濾UserCF
基于物品的協(xié)同過濾ItemCF
3、相似度評估常用公式
4、UserCF算法實現(xiàn)
計算用戶間的興趣相似度
篩選前K個相似用戶
合并相似用戶購買過的物品集
剔除該用戶已經購買過的產品，得到候選物品集
計算該用戶對物品的喜歡程度，物品集排序
優(yōu)先推薦前N個物品
5、ItemCF算法實現(xiàn)
計算物品間的相似度
篩選前K個喜歡的物品
合并與前K個物品相似的前L個物品集
剔除該用戶已經購買過的物品，得到候選物品集
計算該用戶到候選物品的喜愛程度，物品排序
優(yōu)先推薦前N個物品
6、關于冷啟動問題
7、協(xié)同過濾算法比較

結束：課程總結與問題答疑。

爱爱剧情视频久久_欧美性战A久久久久久_日韩另类色区欧美日韩_午夜tv无码免费区

Python機器學習算法實戰(zhàn)