本文將普通易懂的先容邏輯回歸的基本看法、優缺陷和實踐使用的案例。同時會跟線性回歸做一些比力,讓各位可以好效的區分 2 種不同的算法。
線性回歸的地點如上圖所示,它屬于機器學習 – 監督學習 – 分類 – 邏輯回歸。
擴展閱讀:
《「65頁PDF」讓 PM 全盤了解深度學習》
《什么是監督學習?怎樣了解分類和回歸?》
邏輯回歸(Logistic Regression)主要處理二分類成績,用來表現某件事變產生的約莫性。
好比:
優點:
缺陷:
線性回歸和邏輯回歸是 2 種經典的算法。常常被拿來做比力,底下整理了一些兩者的區別:
注:
自變量:主動利用的變量,可以看做「因變量」的緣故
因變量:由于「自變量」的厘革而厘革,可以看做「自變量」的后果。也是我們想要猜測的后果。
美團會把邏輯回歸使用到業務中處理一些實踐成績。這里以猜測用戶對品類的置辦偏好為例,該成績可以轉換為猜測用戶在將來某個時間段對否會置辦某個品類,假如把會置辦標志為1,不會置辦標志為0,就轉換為一個二分類成績。我們用到的特性包含用戶在美團的欣賞,置辦等汗青信息,見下表:
此中提取的特性的時間跨度為30天,標簽為2天。天生的練習數據約莫在7000萬量級(美團一個月有過舉動的用戶),我們人工把相似的小品類聚合起來,最初有18個較為典范的品類聚集。假如用戶在給定的時間內置辦某一品類聚集,就作為正例。有了練習數據后,使用Spark版的LR算法對每個品類練習一個二分類模子,迭代次數設為100次的話模子練習必要40分鐘支配,均勻每個模子2分鐘,測試集上的AUC也大多在0.8以上。練習好的模子會保存下去,用于猜測在各個品類上的置辦概率。猜測的后果則會用于保舉等場景。
由于不同品類之間正負例分布不同,有些品類正負例分布很不均衡,我們還實驗了不同的采樣辦法,終極目標是提上下單率等線上目標。顛末一些參數調優,品類偏好特性為保舉和排序帶來了凌駕1%的下單率提升。
別的,由于LR模子的簡便高效,易于完成,可以為后續模子優化提供一個不錯的baseline,我們在排序等辦事中也使用了LR模子。
版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除
原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/wangluozixun/43612.html