国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據挖掘與機器學習項目特征工程實戰

lviY_AI_shequ ? 來源:未知 ? 作者:胡薇 ? 2018-08-09 10:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

找特征這件事,Andrew Ng在深度學習網課中提到過,原課件見第3課結構化機器學習項目中的2.9和2.10兩節,筆記整理如下:

Andrew以Speech Recognition的場景為例,比較了pipeline和end-to-end兩種建模方式中特征工程的差異。

其中pipeline的搭建依賴于人工設計的特征,需要依賴于人類可以理解的音節,將一段音頻轉化為文字;而end-to-end模型基于大量的音頻素材,自動找出語音和文字間的關系,不依賴于音節而自動翻譯成文字。

總而言之,除去語音和圖像等特定場景,對于大部分生活中的機器學習項目,由于沒有足夠的訓練數據支撐,我們還無法完全信任算法自動生成的特征,因而基于人工經驗的特征工程依然是目前的主流。

人工經驗這件事比較虛,加之許多業界的項目由于隱私性的考慮,很少會透露底層的入模特征和計算邏輯,使得目前網絡上關于特征工程細節的文章少之又少。答主在這里結合自己這幾年在金融領域的建模經驗,介紹一些常見的數據源類型和特征計算方法,希望可以幫助剛入行或者想入行的從業者們開開腦洞。

(1)支付流水:通常包括支付賬戶、時間、金額、地點、目的、狀態等字段,可以反映出客戶的經濟實力和消費習慣。其中特別的,賬戶間的復雜交易關系和異常金額時間地點的支付行為,都可以在反欺詐場景中應用,視為團伙作案或者反洗錢的重要指標。

(2)財富管理:基金理財類產品的申購歷史記錄,體現出客戶的資金儲備和購買偏好。對于風險偏好較低的客戶,我們可以推薦小金庫這類收益穩定、波動較小的債券類產品;對于追求高收益的客戶,我們可以推薦在京東金融app上代銷的各類基金,以及智能投顧產品。

(3)貸款信息:伴隨著近幾年國內現金貸以及場景貸市場的迅速發展,國家也在大力推動各家資方信貸數據的治理與共享。基于一個客戶在各個平臺上的貸款申請、提現、還款信息,可以刻畫出這個客戶的還款意愿和征信表現,從而為其下一次的信貸申請決策提供建議。常見的,多個平臺申請和在貸以及當前有貸款發生90天以上逾期的用戶,都會被其他平臺列入自動拒絕的名單。

(4)App登錄:從SDK埋點獲取的各類app登錄數據中,我們可以分析出用戶在每個app上的停留時間,從而側面了解這個用戶的興趣愛好,甚至預測用戶的年齡和性別。例如京東、阿里等電商app登錄較頻繁的用戶,通常以女性居多,并且消費能力較強;而抖音、快手等小視頻app停留時間較長的,一般為年輕人群體。

(5)電商流水:從電商公司豐富的訂單流水數據中,可以挖掘出較為完整的客戶畫像。客戶Alice近一年內購買頻繁,但是平均單筆訂單金額較低,通常集中在生活用品以及水果生鮮,可以推斷出Alice應該是一位家庭婦女;而客戶Ben消費總金額較高,購買過車飾類產品,收貨地址集中在辦公場所,則大概率Ben是有車一族的白領青年。

(6)收貨地址:在信貸風控場景中,通常近一年內地址數量較少、地址穩定性高的用戶,貸款逾期風險更低;而對于地址變動頻繁或者涉黑的用戶,建議貸前申請直接拒絕,或者把這些收貨地址運用到貸后催收之中。

(7)運營商信息:數據市場上比較常見的第三方數據源,可以用作各個場景下的身份證、姓名、手機號的三要素核驗,以及利用在網時長和在網狀態判斷一個用戶是否有欺詐風險。

除去上面整理的簡單底層特征,在實際工作中數據分析師和算法工程師們還需要針對不同的業務場景,利用規則和模型構造一些復雜特征。

舉兩個實際的例子:

第一個例子,為了計算用戶的年收入,可以利用近一年內支付總金額+理財總余額-信貸總負債的大公式,通過線性回歸擬合出三個指標的系數,來得到每個用戶預測的收入水平;

第二個例子,給自己在做的模型打個小廣告,京東金融金融科技業務部基于京東集團商城、金融和物流三大自有數據源以及海量外部數據源,利用XGBoost、LightGBM、CatBoost等復雜集成樹類算法,計算得到玉衡分特征,用來衡量京東客戶在現金貸場景的信用等級,幫助服務的銀行和小貸公司搭建信貸智能決策系統。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136953

原文標題:在機器學習的項目中,特征是如何被找出來的

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    生成式AI賦能工程挖掘非結構化數據價值

    您是否知道,生成式 AI(GenAI)可以幫助工程師在幾秒鐘內診斷汽車故障,甚至在設備出現問題之前預測潛在失效?GenAI 正在通過加速數據分析和算法開發,讓這些場景從設想走向現實,使工程師能夠充分發揮專業知識,
    的頭像 發表于 02-28 10:24 ?419次閱讀

    少走三年彎路!頂尖硬件工程師分享的“實戰錦囊”!

    /測試、信號完整性、可靠性、結構設計、項目管理等多個關鍵領域。通過互動式、實戰導向的學習模式,我們賦能工程師提升實踐能力,高效解決實際工作中的技術難題,從而顯著提升
    的頭像 發表于 02-26 15:54 ?77次閱讀
    少走三年彎路!頂尖硬件<b class='flag-5'>工程</b>師分享的“<b class='flag-5'>實戰</b>錦囊”!

    機器學習特征工程:分類變量的數值化處理方法

    編碼是機器學習流程里最容易被低估的環節之一,模型沒辦法直接處理文本形式的分類數據,尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發表于 02-10 15:58 ?338次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:分類變量的數值化處理方法

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    高清錄屏演示 進度梯度設計:前3章(視覺篇)聚焦傳統算法,第6章起逐步引入深度學習,避免知識斷層 2)實戰項目拆解教學 以\"雙CCD光學分選案例\"為例,采用\"硬件連接
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    高清錄屏演示 進度梯度設計:前3章(視覺篇)聚焦傳統算法,第6章起逐步引入深度學習,避免知識斷層 2)實戰項目拆解教學 以\"雙CCD光學分選案例\"為例,采用\"硬件連接
    發表于 12-03 13:50

    京東商品詳情接口實戰解析:從調用優化到商業價值挖掘(附避坑代碼)

    本文深入解析京東商品詳情接口jd.union.open.goods.detail.query,涵蓋核心特性、權限限制、關鍵參數及調用避坑指南。通過實戰代碼演示數據采集、促銷解析與商業分析,助力開發者高效獲取價格、庫存、評價等全維度數據
    的頭像 發表于 10-10 09:28 ?844次閱讀
    京東商品詳情接口<b class='flag-5'>實戰</b>解析:從調用優化到商業價值<b class='flag-5'>挖掘</b>(附避坑代碼)

    XKCON祥控輸煤皮帶智能機器人巡檢系統對監測數據進行挖掘分析

    XKCON祥控輸煤皮帶智能機器人巡檢系統通過智能機器人在皮帶運行過程中對皮帶的運行狀態和環境狀況進行實時檢測,在應用過程中,不但提升了巡視周期頻次,還通過大數據分析和深度學習算法,對監
    的頭像 發表于 09-15 11:22 ?624次閱讀
    XKCON祥控輸煤皮帶智能<b class='flag-5'>機器</b>人巡檢系統對監測<b class='flag-5'>數據</b>進行<b class='flag-5'>挖掘</b>分析

    項目實戰】基于STM32F103的智能小車(遠程控制、超聲波避障、循跡、紅外遙控)有教程代碼

    在嵌入式開發學習中,實戰項目是將理論轉化為能力的最佳載體——本次【項目實戰】聚焦基于STM32的智能小車,不僅整合了紅外遙控、微信小程序遠程
    的頭像 發表于 09-08 16:06 ?1505次閱讀
    【<b class='flag-5'>項目</b><b class='flag-5'>實戰</b>】基于STM32F103的智能小車(遠程控制、超聲波避障、循跡、紅外遙控)有教程代碼

    如何解決開發機器學習程序時Keil項目只能在調試模式下運行,但無法正常執行的問題?

    如何解決開發機器學習程序時Keil項目只能在調試模式下運行,但無法正常執行的問題
    發表于 08-28 07:28

    【「Yocto項目實戰教程:高效定制嵌入式Linux系統」閱讀體驗】+基礎概念學習理解

    系統的基礎知識,及yocto的基礎知識。這部分內容對于我這樣有一定 Linux 基礎的讀者來說,起到了很好的復習和鞏固作用,同時也為后續學習 Yocto 項目奠定了堅實的理論基礎。 元數據
    發表于 08-04 22:29

    Ansible代碼上線項目實戰案例

    在DevOps浪潮中,自動化部署已經成為每個運維工程師的必備技能。今天我將分享一個完整的Ansible代碼上線項目實戰案例,讓你的部署效率提升10倍!
    的頭像 發表于 07-24 14:03 ?581次閱讀

    任正非說 AI已經確定是第四次工業革命 那么如何從容地加入進來呢?

    實踐。 為開源項目貢獻代碼或者文檔。比如,幫助完善一個機器學習數據集的加載模塊的代碼,或者撰寫某個AI算法的使用說明文檔。這不僅可以提升自己的技術能力,還能在AI社區中建立自己的聲譽。
    發表于 07-08 17:44

    【書籍評測活動NO.61】Yocto項目實戰教程:高效定制嵌入式Linux系統

    Yocto 項目,快速掌握 Yocto 項目的基礎知識與實戰技巧。 本書作者 本書作者孫杰是資深嵌入式軟件工程師 。長期深耕 Yocto 項目
    發表于 05-21 10:00

    學電路設計分享學習心得、技術疑問及實戰成果

    活動介紹:隨著物聯網、智能硬件等領域的快速發展,硬件開發與電路設計技能成為電子工程師和創客的核心競爭力。為幫助剛入行的電子小白、高校大學生高效掌握從基礎理論到實戰應用的能力,電子發燒友平臺推出學習
    的頭像 發表于 05-20 08:07 ?619次閱讀
    學電路設計分享<b class='flag-5'>學習</b>心得、技術疑問及<b class='flag-5'>實戰</b>成果

    樹莓派5 + Hailo AI加速器:工業級數值數據處理實戰,打通SQLite與機器學習全鏈路

    本文討論了在工業自動化背景下,開發者利用樹莓派5和HailoAI加速器進行工業級數值數據處理實戰,打通SQLite與機器學習全鏈路時遇到的問題及解決方案。關鍵要點包括:1.開發者需求:
    的頭像 發表于 03-25 09:22 ?1225次閱讀
    樹莓派5 + Hailo AI加速器:工業級數值<b class='flag-5'>數據</b>處理<b class='flag-5'>實戰</b>,打通SQLite與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>全鏈路