国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

你知道XGBoost背后的數(shù)學(xué)原理是什么嗎?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-22 08:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:說到Kaggle神器,不少人會想到XGBoost。一周前,我們曾在“從Kaggle歷史數(shù)據(jù)看機器學(xué)習(xí)競賽趨勢”介紹過它的“霸主地位”:自提出后,這種算法在機器學(xué)習(xí)競賽中被迅速普及,并被多數(shù)奪冠模型視為訓(xùn)練速度、最終性能提升的利器。那么,你知道XGBoost背后的數(shù)學(xué)原理是什么嗎?

好奇的李雷和韓梅梅

李雷和韓梅梅是形影不離的好朋友,一天,他們一起去山里摘蘋果。按照計劃,他們打算去摘山谷底部的那棵大蘋果樹。雖然韓梅梅聰明而富有冒險精神,而李雷有些謹(jǐn)慎和遲鈍,但他們中會爬樹的只有李雷。那么他們的路徑是什么呢?

如上圖所示,李雷和韓梅梅所在的位置是a點,他們的目標(biāo)蘋果樹位于g點。山里環(huán)境復(fù)雜,要怎么做才能確定自己到了山谷底部呢?他們有兩種方法。

1.由韓梅梅計算“a”點的斜率,如果斜率為正,則繼續(xù)朝這個方向前進;如果為負(fù),朝反方向前進。

斜率給出了前進的方向,但沒有說明他們需要朝這個方向移動多少。為此,韓梅梅決定走幾步臺階,算一下斜率,確保自己不會到達錯誤位置,最終錯過大蘋果樹。但是這種方法有風(fēng)險,控制臺階多少的是學(xué)習(xí)率,這是個需要人為把控的值:如果學(xué)習(xí)率過大,李雷和韓梅梅很可能會在g點兩側(cè)來回奔走;如果學(xué)習(xí)率過小,可能天黑了他們都未必摘得到蘋果。

聽到可能會走錯路,李雷不樂意了,他不想繞遠路,也不愿意錯過回家吃飯的時間??吹胶糜堰@么為難,韓梅梅提出了第二種方法。

2.在第一種方法的基礎(chǔ)上,每走過特定數(shù)量的臺階,都由韓梅梅去計算每一個臺階的損失函數(shù)值,并從中找出局部最小值,以免錯過全局最小值。每次韓梅梅找到局部最小值,她就發(fā)個信號,這樣李雷就永遠不會走錯路了。但這種方法對女孩子不公平,可憐的韓梅梅需要探索她附近的所有點并計算所有這些點的函數(shù)值。

XGBoost的優(yōu)點在于它能同時解決以上兩種方案的缺陷。

梯度提升(Gradient Boosting)

很多梯度提升實現(xiàn)都會采用方法1來計算目標(biāo)函數(shù)的最小值。在每次迭代中,我們利用損失函數(shù)的梯度訓(xùn)練基學(xué)習(xí)器,然后用預(yù)測結(jié)果乘上一個常數(shù),將其與前一次迭代的值相加,更新模型。

它背后的思路就是在損失函數(shù)上執(zhí)行梯度下降,然后用基學(xué)習(xí)器對其進行擬合。當(dāng)梯度為負(fù)時,我們稱它為偽殘差,因為它們依然能間接幫助我們最小化目標(biāo)函數(shù)。

XGBoost

XGBoost是陳天奇在華盛頓大學(xué)求學(xué)期間提出的成果。它是一個整體加法模型,由幾個基學(xué)習(xí)器共同構(gòu)成。

那么,我們該如何在每次迭代中選擇一個函數(shù)?這里可以用一種最小化整體損失的方法。

在上述梯度提升算法中,我們通過將基學(xué)習(xí)器擬合到相對于先前迭代值的損失函數(shù)的負(fù)梯度,在每次迭代時獲得ft(xi)。而在XGBoost中,我們只探索幾個基學(xué)習(xí)器或函數(shù),選擇其中一個計算最小值,也就是韓梅梅的方法2。

如前所述,這種方法有兩個問題:

探索不同的基學(xué)習(xí)器;

計算所有基學(xué)習(xí)器的損失函數(shù)值。

XGBoost在計算基學(xué)習(xí)器ft(xi)最小值的,使用的方法是泰勒級數(shù)逼近。比起計算精確值,計算近似值可以大大減輕韓梅梅的工作量。

雖然上面只展開到二階導(dǎo)數(shù),但這種近似程度就足夠了。對于任意ft(xi),第一項C都是常數(shù)。gi是前一次迭代中損失的一階導(dǎo)數(shù),hi是其二階導(dǎo)數(shù)。韓梅梅可以在探索其他基學(xué)習(xí)器前直接計算gi和hi,這就成了一個簡單的乘法問題,計算負(fù)擔(dān)大大減輕了,不是嗎?

解決了損失函數(shù)值的問題,我們還要探索不同的基學(xué)習(xí)器。

假設(shè)韓梅梅更新了一個具有K個葉子節(jié)點的基學(xué)習(xí)器ft。設(shè)Ij是屬于節(jié)點j的實例集合,wj是該節(jié)點的預(yù)測。因此,對于Ij中的實例i,我們有ft(xi)=wj。所以我們在上式中用代入法更新了L(t)的表達式。更新后,我們就能針對每個葉子節(jié)點的權(quán)重采用損失函數(shù)的導(dǎo)數(shù),以獲得最優(yōu)權(quán)重。

以上就是對于具有K個葉子節(jié)點的基學(xué)習(xí)器的最佳損失。考慮到這樣的節(jié)點會有上百個,一個個探索它們是不現(xiàn)實的。

所以讓我們來看韓梅梅的情況。她現(xiàn)在已經(jīng)知道如何使用泰勒展開來降低損失計算量,也知道了什么是葉子節(jié)點中的最佳權(quán)重。唯一值得關(guān)注的是如何探索所有不同的樹結(jié)構(gòu)。

XGBoost不會探索所有可能的樹結(jié)構(gòu),它只是貪婪地構(gòu)建一棵樹,選擇導(dǎo)致最大損失的方法,減少分叉。在上圖中,樹從節(jié)點I開始,根據(jù)標(biāo)準(zhǔn),節(jié)點分為左右分叉。所以我們的實例一部分被放進了左側(cè)的葉子節(jié)點,剩下的則去了右側(cè)的葉子節(jié)點?,F(xiàn)在,我們就可以計算損失值并選擇導(dǎo)致?lián)p失減少最大的分叉。

解決了上述問題后,現(xiàn)在韓梅梅就只剩下一個問題:如何選擇分叉標(biāo)準(zhǔn)?XGBoost使用不同的技巧來提出不同的分割點,比如直方圖。對于這部分,建議去看論文,本文不再作解釋。

XGBoost要點

雖然梯度提升遵循負(fù)梯度來優(yōu)化損失函數(shù),但XGBoost計算每個基學(xué)習(xí)器損失函數(shù)值用的是泰勒展開。

XGBoost不會探索所有可能的樹結(jié)構(gòu),而是貪婪地構(gòu)建一棵樹。

XGBoost的正則項會懲罰具有多個葉子節(jié)點的樹結(jié)構(gòu)。

關(guān)于選擇分叉標(biāo)準(zhǔn),強烈建議閱讀論文:arxiv.org/pdf/1603.02754.pdf

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 梯度
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    10566
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136928

原文標(biāo)題:計算:XGBoost背后的數(shù)學(xué)之美

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    數(shù)學(xué)工程計算+失效分析,雙輪驅(qū)動電路可靠性

    ”的循環(huán)?面對復(fù)雜電路,不知道如何用數(shù)學(xué)工具進行精準(zhǔn)計算與風(fēng)險預(yù)估?為什么需要這門課?武老師20年航天及工業(yè)產(chǎn)品設(shè)計經(jīng)驗,結(jié)合數(shù)學(xué)分析、器件物理、失效機理,構(gòu)建了一
    的頭像 發(fā)表于 02-27 17:44 ?271次閱讀
    <b class='flag-5'>數(shù)學(xué)</b>工程計算+失效分析,雙輪驅(qū)動電路可靠性

    內(nèi)存泡沫,和它背后的幽靈訂單

    內(nèi)存泡沫,和它背后的幽靈訂單
    的頭像 發(fā)表于 02-10 00:37 ?1.2w次閱讀
    內(nèi)存泡沫,和它<b class='flag-5'>背后</b>的幽靈訂單

    的導(dǎo)航早已“中國芯”:北斗如何靜默取代GPS,成為日常出行主力?

    四大全球衛(wèi)星系統(tǒng)深度對比+實測驗證指南當(dāng)你說“打開導(dǎo)航”時,知道背后是哪顆“星辰”在為指引方向嗎?今天,我們將深入探討全球衛(wèi)星定位系統(tǒng)的格局,并揭示一個
    的頭像 發(fā)表于 02-05 19:33 ?463次閱讀
    <b class='flag-5'>你</b>的導(dǎo)航早已“中國芯”:北斗如何靜默取代GPS,成為日常出行主力?

    學(xué)單片機編程對數(shù)學(xué)英語有要求嗎

    辛苦學(xué)數(shù)學(xué)和英語到底是為毛?數(shù)學(xué)和英語不是單片機開發(fā)的門檻,但卻決定以后能達到的高度,如果數(shù)學(xué)和英語不行,那么月薪20K可能就是
    發(fā)表于 02-02 06:24

    避繁就簡!商湯日日新大模型靈性巧解數(shù)學(xué)難題,獲贊“機器的審美”

    大模型也能擁有某種數(shù)學(xué)家“直覺”! 在近日舉辦的第十屆世界華人數(shù)學(xué)家大會“人工智能與數(shù)學(xué)”夜話活動上,由菲爾茲獎得主丘成桐院士引領(lǐng),集結(jié)國內(nèi)四大頂尖模型團隊,上海人工智能實驗室、商湯科技、阿里通義
    的頭像 發(fā)表于 01-12 11:41 ?263次閱讀
    避繁就簡!商湯日日新大模型靈性巧解<b class='flag-5'>數(shù)學(xué)</b>難題,獲贊“機器的審美”

    從微積分的視角結(jié)構(gòu)功率電子:碳化硅(SiC)技術(shù)的數(shù)學(xué)原理與工程價值解析報告

    從微積分的視角結(jié)構(gòu)功率電子:碳化硅(SiC)技術(shù)的數(shù)學(xué)原理與工程價值解析報告 傾佳電子(Changer Tech)是一家專注于功率半導(dǎo)體和新能源汽車連接器的分銷商。主要服務(wù)于中國工業(yè)電源、電力
    的頭像 發(fā)表于 01-11 09:21 ?85次閱讀
    從微積分的視角結(jié)構(gòu)功率電子:碳化硅(SiC)技術(shù)的<b class='flag-5'>數(shù)學(xué)原理</b>與工程價值解析報告

    薄膜電容的關(guān)鍵詞是什么知道嗎?

    薄膜電容是一種以金屬箔作為電極,以聚乙酯、聚丙烯、聚苯乙烯等塑料薄膜作為電介質(zhì)的電容器,在電子電路中具有重要作用。薄膜電容有哪些關(guān)鍵詞知道嗎?
    的頭像 發(fā)表于 10-13 15:30 ?488次閱讀
    薄膜電容的關(guān)鍵詞是什么<b class='flag-5'>你</b><b class='flag-5'>知道</b>嗎?

    知道板卡廠商參與芯片研發(fā)的α階段意味著什么?

    大家都知道芯片很重要,但是否知道一顆芯片從設(shè)計構(gòu)思到最終量產(chǎn),需要經(jīng)歷怎樣一個漫長的過程嗎?
    的頭像 發(fā)表于 09-24 17:08 ?7605次閱讀
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>板卡廠商參與芯片研發(fā)的α階段意味著什么?

    光模塊拉環(huán)顏色背后的神秘意義,知道多少?

    在數(shù)據(jù)中心的復(fù)雜網(wǎng)絡(luò)世界里,光模塊扮演著至關(guān)重要的角色,它負(fù)責(zé)實現(xiàn)電信號與光信號之間的高效轉(zhuǎn)換,確保數(shù)據(jù)在光纖網(wǎng)絡(luò)中穩(wěn)定、高速地傳輸。而光模塊上小小的拉環(huán)顏色,看似不起眼,卻隱藏著諸多關(guān)鍵信息,下面跟著小易,一起揭開其神秘的面紗。
    的頭像 發(fā)表于 08-05 16:22 ?1079次閱讀
    光模塊拉環(huán)顏色<b class='flag-5'>背后</b>的神秘意義,<b class='flag-5'>你</b><b class='flag-5'>知道</b>多少?

    知道光耦的特性參數(shù)包括哪些嗎?

    知道光耦的特性參數(shù)包括哪些嗎? 一、輸入特性參數(shù) 正向工作電壓(Forward Voltage):在給定的工作電流下,LED本身的壓降。 反向電壓(Reverse Voltage):LED所能承受
    的頭像 發(fā)表于 07-31 09:44 ?1874次閱讀
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>光耦的特性參數(shù)包括哪些嗎?

    已收藏!需要知道的57個常用樹莓派命令!

    初次使用樹莓派并不總是那么容易,因為可能還沒有使用命令行的習(xí)慣。然而,終端命令是必不可少的,而且通常比通過圖形用戶界面(GUI)操作更高效。那么,有哪些重要的命令是應(yīng)該知道的呢?有相當(dāng)多的命令
    的頭像 發(fā)表于 07-23 18:36 ?1138次閱讀
    已收藏!<b class='flag-5'>你</b>需要<b class='flag-5'>知道</b>的57個常用樹莓派命令!

    知道船用變壓器有哪些嗎?

    在船舶和海洋平臺上,電力系統(tǒng)的穩(wěn)定運行至關(guān)重要,而船用變壓器作為其中的關(guān)鍵設(shè)備,其種類繁多,各具特點。知道船用變壓器有哪些嗎?讓我們一起來揭開它們的神秘面紗。CSD船用變壓器是船舶供電系統(tǒng)中
    的頭像 發(fā)表于 06-01 00:00 ?735次閱讀
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>船用變壓器有哪些嗎?

    嵌入式工控機vs普通工控機:區(qū)別在哪?誰才更適合的生產(chǎn)線?

    說到智能制造,大家第一時間可能會想到自動化生產(chǎn)線、機器人、MES系統(tǒng)這些高大上的名詞。但知道嗎?這些系統(tǒng)背后都有一個“幕后英雄”在默默運轉(zhuǎn),那就是——嵌入式工控機。
    的頭像 發(fā)表于 05-15 10:09 ?1800次閱讀
    嵌入式工控機vs普通工控機:區(qū)別在哪?誰才更適合<b class='flag-5'>你</b>的生產(chǎn)線?

    (專家著作,建議收藏)電機的數(shù)學(xué)研究方法

    本魯企圖系統(tǒng)地説明電機主要的、最新的數(shù)學(xué)研究方法。本需的材料在足夠的程度上已包括用于研究電機過渡狀態(tài)和穩(wěn)定 狀態(tài)的獨特范圓。這些材料應(yīng)用已經(jīng)廣泛流行的最新數(shù)學(xué)分析作為它 的湛礎(chǔ)。電機過渡狀態(tài)和穩(wěn)定狀
    發(fā)表于 04-01 15:02

    串口服務(wù)器品牌排名背后,隱藏著的行業(yè)潛規(guī)則知道嗎?

    在科技飛速發(fā)展的當(dāng)下,串口服務(wù)器作為連接串口設(shè)備與網(wǎng)絡(luò)的重要橋梁,在工業(yè)、金融、交通等眾多領(lǐng)域都有著廣泛應(yīng)用。市場上的串口服務(wù)器品牌繁多,各種品牌排名也讓人眼花繚亂。但是否想過,這些排名背后可能
    的頭像 發(fā)表于 03-27 13:09 ?710次閱讀