什么是邏輯回歸?優缺點是什么?美團是如何應用它的?

時間:2024-03-01 17:16:35 閱讀:8

什么是邏輯回歸?優缺陷是什么?美團是怎樣使用它的?

本文將普通易懂的先容邏輯回歸的基本看法、優缺陷和實踐使用的案例。同時會跟線性回歸做一些比力,讓各位可以好效的區分 2 種不同的算法。

什么是邏輯回歸?

線性回歸的地點如上圖所示,它屬于機器學習 – 監督學習 – 分類 – 邏輯回歸。

擴展閱讀:

《「65頁PDF」讓 PM 全盤了解深度學習》

《什么是監督學習?怎樣了解分類和回歸?》

邏輯回歸(Logistic Regression)主要處理二分類成績,用來表現某件事變產生的約莫性。

好比:

  • 一封郵件是渣滓郵件的肯能性(是、不是)
  • 你置辦一件商品的約莫性(買、不買)
  • 傾銷被點擊的約莫性(點、不點)

邏輯回歸的優缺陷

優點:

  • 完成簡便,廣泛的使用于產業成績上;
  • 分類時盤算量十分小,速率很快,存儲資源低;
  • 便宜的觀察樣本概率分數;
  • 對邏輯回歸而言,多重共線性并不是成績,它可以團結L2正則化來處理該成績;
  • 盤算代價不高,易于了解和完成;

缺陷:

  • 當特性空間很大時,邏輯回歸的功能不是很好;
  • 容易欠擬合,尋常準確度不太高
  • 不克不及很好地處理多量多類特性或變量;
  • 只能處理兩分類成績(在此基本上衍生出來的softmax可以用于多分類),且必需線性可分;
  • 關于非線性特性,必要舉行轉換;

邏輯回歸 VS 線性回歸

線性回歸和邏輯回歸是 2 種經典的算法。常常被拿來做比力,底下整理了一些兩者的區別:

  1. 線性回歸只能用于回歸成績,邏輯回歸固然名字叫回歸,但是更多用于分類成績(關于回歸和分類的區別可以看看這篇文章《一文看懂監督學習(基本看法+4步流程+9個典范算法)》)
  2. 線性回歸要求因變量是一連性數值變量,而邏輯回歸要求因變量是散伙的變量
  3. 線性回歸要求自變量和因變量呈線性干系,而邏輯回歸不要求自變量和因變量呈線性干系
  4. 線性回歸可以直觀的表達自變量和因變量之間的干系,邏輯回歸則無法表達變量之間的干系

注:

自變量:主動利用的變量,可以看做「因變量」的緣故

因變量:由于「自變量」的厘革而厘革,可以看做「自變量」的后果。也是我們想要猜測的后果。

美團的使用案例

美團會把邏輯回歸使用到業務中處理一些實踐成績。這里以猜測用戶對品類的置辦偏好為例,該成績可以轉換為猜測用戶在將來某個時間段對否會置辦某個品類,假如把會置辦標志為1,不會置辦標志為0,就轉換為一個二分類成績。我們用到的特性包含用戶在美團的欣賞,置辦等汗青信息,見下表:

此中提取的特性的時間跨度為30天,標簽為2天。天生的練習數據約莫在7000萬量級(美團一個月有過舉動的用戶),我們人工把相似的小品類聚合起來,最初有18個較為典范的品類聚集。假如用戶在給定的時間內置辦某一品類聚集,就作為正例。有了練習數據后,使用Spark版的LR算法對每個品類練習一個二分類模子,迭代次數設為100次的話模子練習必要40分鐘支配,均勻每個模子2分鐘,測試集上的AUC也大多在0.8以上。練習好的模子會保存下去,用于猜測在各個品類上的置辦概率。猜測的后果則會用于保舉等場景。

由于不同品類之間正負例分布不同,有些品類正負例分布很不均衡,我們還實驗了不同的采樣辦法,終極目標是提上下單率等線上目標。顛末一些參數調優,品類偏好特性為保舉和排序帶來了凌駕1%的下單率提升。

別的,由于LR模子的簡便高效,易于完成,可以為后續模子優化提供一個不錯的baseline,我們在排序等辦事中也使用了LR模子。

版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除

原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/wangluozixun/43612.html


Copyright ? 2021-2022 All Rights Reserved 備案編號:閩ICP備2023009674號 網站地圖 聯系:dhh0407@outlook.com

www.成人网