国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

提供全域數據與服務的畫像標簽體系

數據分析與開發 ? 來源:一個數據人的自留地 ? 作者:一個數據人的自留 ? 2021-04-01 09:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿里

為打破數據孤島,創造更大的數據價值,阿里設計了OneEntity來提供全域數據與服務。OneEntity體系主要包含統一實體、全域標簽、全域關系、全域行為4大類。

894b45a6-9247-11eb-8b86-12bb97331649.png

01

標簽分類

其中GProfile全域標簽的分類,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:

人的核心屬性,可分為自然屬性、社會屬性。

-自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會因人為因素發生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。

-社會屬性:指人在實踐活動基礎上產生的一切社會關系的總和。人一旦進入社會就會產生社會屬性。例如經濟狀況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等。

人的向往與需求,可分為興趣偏好、行為消費偏好。

-興趣偏好:是人堆非物化對象的內在心理向往與外在行為表達,是一種法子內心的本能喜好,與物質無必然關系。例如渴望愛情、需要安全感、討厭臟亂環境等。

-行為消費偏好:是人對物化對象的需求與外在行為表達,涉及各行業,與物質世界存在千絲萬縷的聯系。例如母嬰行業偏好、美妝行業偏好、洗護行業偏好、家裝行業偏好等。

在以上四大類的基礎上,我們又嘗試根據不同的業務形態進一步細分二級、三級分類。

02

標簽萃取

標簽的萃取工作包含:數據采集;清洗,去噪聲并統一;反復試用并確定最佳算法及模型;為模型選擇計算因子并對模型中的每一個計算因子調配權重;產出標簽質量評估報告以輔助驗收。

我們隨機抽查了若干個在用的標簽,預估工作量和工作周期,一個有價值的標簽的萃取,平均耗時2周。

慢的主要原因,一是由于萃取流程復雜,每個標簽萃取都依賴底層的基礎數據,而較少依賴上一層匯總的數據中間層數據;二是大量重復的人力,對應的標簽萃取邏輯時可以復用的,包含算法的選擇、模型訓練和計算因子的加權等,但由于不同人來做,造成了很多重復工作。

標簽萃取過程復雜,那有什么可以參考的流程呢?

89b4ccf6-9247-11eb-8b86-12bb97331649.png

首先,數據源層面:建設一套完整的數據源,以OneEntity體系為核心,將OneEntity相關實體及其行為全部串聯起來,與存量的標簽一起作為數據源。

其次,標簽計算層面:將標簽萃取邏輯沉淀為2種,分別對應到偏好類標簽和分類預測類標簽的工具型產品的生產過程中,包含計算因子、權重等業務規則、數據樣本選擇、模型與算法選擇等。

最后,標簽監測層面:沉淀質量評估報告和生產監測、上線等管理流程。

當一整套工具型產品上線之后,批量生產十幾個同類型標簽只需要2天左右,這是因為在補足數據源、確定業務規則、選擇數據樣本、選擇算法與模型的過程中,減少了大量的代碼開發與模型訓練的工作。

在這個過程中,參與的角色也發生了變化,從原本的以數據產品經理、數倉工程師、數據科學家為主導,轉變為對業務更為熟悉的業務人員、數據分析師為主導。

2

網易

網易大數據融合用戶娛樂、電商購物、教育、新聞資訊、通訊等多行業10+產品線,構建起全域用戶畫像數據,目前總標簽1000+,ID量URS、phone、idfa、IMEI、oaid等均達到憶級。

01

標簽分類

1.基礎標簽:

性別、年齡、教育背景、生活習慣(早起晚起)、地理位置(POI信息)、職業狀況、經濟情況(有車有房)、設備信息(手機、運營商等)、會員信息(會員等級)、衍生信息。

其中衍生標簽,如評估是否已婚,在原由標簽體系下沒有此類標簽,但可通過多個標簽進行組合生成新的標簽,包含是否有小孩、30歲等條件組合。

89c4214c-9247-11eb-8b86-12bb97331649.jpg

2. 行為標簽

包含地域、廣告、搜過、播放、點擊、評論、關注、收藏、購買等維度。

3. 偏好標簽

包含出行購物、手機數碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財、游戲競技、動漫影視、明星藝人等維度

4. 預測標簽

包含利用算法進行預測生成的標簽,包含是否出行、是否買車等標簽。

注意:

1. 標簽的枚舉值十分重要,業務分析過程中很容易出現枚舉值的偏差,不符合實際業務邏輯

2. 注意標簽之間的沖突,如年齡15歲,學歷卻是博士或者有小孩

02

標簽計算

預測類標簽案例:性別,主要包含三種方案:

1. 標簽傳播:根據用戶在各個業務場景,如母嬰商品點擊行為,進行item標記,構建user-item的興趣網絡進行 Graph Embedding,最后進行分類,預測用戶的性別。

2. 語義分析:利用NLP算法對用戶昵稱進行語義分析

3. 自行填寫:利用業務屬性自行填寫的內容進行判斷,此處需對數據質量進行過濾,排除如生日為1990-01-01的參數異常值信息。

89d8dccc-9247-11eb-8b86-12bb97331649.jpg

基于上述三類算法特征結果集,對模型進行融合,然后對用戶的性別進行預測,其準確率在0.6以上。

注意:需要突破的地方在于特征的稀疏性,因為ID-mapping打通后,數據覆蓋率僅20%左右,嚴重影響了模型的整體效果。

3

汽車之家

用戶畫像的構建就是把用戶標簽分列到不同的類里面,這些類都是什么,彼此之間的聯系,就構成了標簽體系。

01

按用途分類

1.人口屬性:用戶自然屬性、用戶會員、用戶所屬年代、用戶價值登記、是否增換購用戶、用戶分群、UVN-B用戶分群、用戶分層、用戶流失預警

89e2b422-9247-11eb-8b86-12bb97331649.png

2.網絡屬性:用戶APP設備信息、用戶PC設備信息、用戶活躍時段、用戶平臺偏好、用戶活躍類型

3.內容興趣偏好:業務類型偏好、內容分類標簽、用戶關注作者偏好、用戶產品偏好、用戶顯式負反饋、用戶論壇偏好、車友圈偏好、用戶興趣欄目

4.車興趣偏好 :用戶短期興趣車偏好、用戶興趣車偏好、配置偏好、用戶顏色偏好、用戶購車目的、用戶置換偏好、用戶推薦有車、二手車用戶偏好、用戶購車意向、用戶新舊偏好、用戶購車階段、用戶有車標簽、用戶興趣集中度、用戶能源偏好、用戶生產方式偏好

5.金融畫像:分期購車意向度、用戶購買力、二手車用戶購買力、用戶汽車價格偏好、用戶經濟屬性、增換購用戶預測線索

6.場景畫像:用戶地理位置

02

按統計方式分類

1.統計類標簽

統計類標簽,通過業務規則,將業務問題轉化為數據口徑實現。如收藏列表、 搜索關鍵詞、保險到期時間、是否下過線索、30天內訪問xx次等。

2.興趣類標簽

興趣類標簽,基于興趣遷移模型構建用戶標簽。綜合考慮特征、特征權重、距今時間、行為次數等因素,用戶興趣標簽構建公式如下:

用戶興趣標簽=行為類型權重*時間衰減*行為次數

-特征:需要結合業務選擇,如瀏覽、搜索、線索、對比、互動、點擊、有車等行為。

-權重:用戶在平臺上發生的行為具體到用戶標簽層面有著不同的行為權重,一般而言,行為發生的成本越高,權重越大??梢杂蓸I務人員確定,也可以采用TF-IDF技術分析得出。

-時間衰減:用戶行為收時間的影響不斷衰減,距離現在越遠,對用戶興趣的影響越低,這里采用牛頓冷卻定律的思想擬合衰減系數,衰減周期結合業務制定。

-行為次數:在固定時間周期內行為發生的次數越多,興趣傾向越重。

3.模型類標簽

基于機器學習方法進行數據建模預測用戶的標簽,這類標簽在標簽體系中占比較少,其實現難度高,開發成本高。

例如:

-是否有車:基于RF+LR模型實現

-常駐地:基于GPS聚類獲取,采用DBSCAN

-購車轉化:GBDT

-用戶分群:KMENAS聚類產生

03

按時效分類

從數據時效上,可分為離線畫像和實時畫像。離線與實時采用的構建思想相同,不同之處在于:

-離線畫像:描述用戶長期的習慣;

-實時畫像:描述用戶當下的興趣,會隨時間的改變而發生變更;

總結

各大公司的標簽分類不同,現市面上有三種常用的標簽分類方式,按用途分類,可分為基礎信息、用戶行為、業務偏好、場景標簽;按統計方式分類,可分為事實類標簽、規則類標簽、預測類標簽;按時效分類,可分為靜態標簽、動態標簽。

原文標題:干貨:阿里/網易/汽車之家畫像標簽體系

文章出處:【微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94777
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136956

原文標題:干貨:阿里/網易/汽車之家畫像標簽體系

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    零碳園區多源數據融合體系的未來發展方向

    協同深度不足、智能決策能力薄弱、安全與共享失衡等瓶頸。隨著AI大模型、數字孿生、區塊鏈等技術的成熟,以及零碳標準體系的完善,多源數據融合體系將朝著“智能驅動、全域協同、可信可控、價值深
    的頭像 發表于 02-03 10:08 ?81次閱讀

    操作系統體系結構

    操作系統的體系結構是一個開放的問題。正如上文所述,操作系統在核心態為應用程序提供公共的服務,那么操作系統在核心態應該提供什么服務、怎樣
    發表于 01-15 08:19

    【瑞薩RA6E2地奇星開發板試用】基于RA6E2+ESP8266在STA模式下數據透傳到Python服務器整體系統演示總結

    基于RA6E2+ESP8266在STA模式下數據透傳到Python服務器整體系統演示總結 1. 需求描述 1.1. 系統實現概述 使用RA6E2驅動 esp8266 WiFi模塊, 用串口調試助手
    發表于 12-28 20:16

    深度解析ISO27017云服務信息安全管理體系認證咨詢代辦機構推薦排名TOP5

    隨著企業數字化轉型的加速,云計算已成為承載核心業務和敏感數據的基礎設施。然而,云服務的普及也帶來了新的信息安全挑戰。如何確保云環境下的數據保密性、完整性和可用性,成為云服務
    的頭像 發表于 11-28 11:24 ?437次閱讀

    發布元服務配置應用分類、標簽和資質信息(僅分發手表設備)

    配置應用分類和標簽 登錄AppGallery Connect,點擊“APP與元服務”。 選擇要發布的元服務。 左側導航選擇“應用上架 > 應用信息”。 進入“應用分類標簽”區域
    發表于 10-30 17:47

    發布元服務配置應用分類、標簽和資質信息

    用戶會通過應用市場上的類別來發現他們想要的元服務,設置的類別將影響到元服務的曝光度。同時,按照法律法規要求,元服務上架需要提供相應的資質材料,資質材料不規范將影響您發布的進度。 分發非
    發表于 10-29 16:47

    京東:調用用戶畫像API實現千人千面推薦,提升轉化率

    ? ?引言 在電商領域,個性化推薦已成為提升用戶粘性和轉化率的核心引擎。京東通過深度整合用戶畫像API,實現了"千人千面"的精準推薦系統。本文將解析其技術邏輯與業務價值,揭示如何通過數據驅動提升
    的頭像 發表于 09-12 15:08 ?944次閱讀
    京東:調用用戶<b class='flag-5'>畫像</b>API實現千人千面推薦,提升轉化率

    用小紅書電商 API 實現小紅書店鋪商品用戶畫像精準構建

    ? 在當今社交電商時代,小紅書作為領先的內容電商平臺,擁有海量用戶數據和商品信息。店鋪通過構建精準用戶畫像,能實現個性化推薦、提升轉化率和用戶粘性。利用小紅書電商 API,開發者可以自動化獲取數據
    的頭像 發表于 08-28 15:57 ?652次閱讀
    用小紅書電商 API 實現小紅書店鋪商品用戶<b class='flag-5'>畫像</b>精準構建

    還在憑感覺做畫像?GWI 利用大數據精準繪制核心客戶群

    當前企業構建客戶畫像常受限于滯后的人口統計數據和模糊標簽(如“都市年輕人”),導致營銷精準度不足。GWI 消費者洞察工具通過整合全球實時行為數據與AI分析能力(Spark),以四步法構
    的頭像 發表于 07-29 13:28 ?739次閱讀
    還在憑感覺做<b class='flag-5'>畫像</b>?GWI 利用大<b class='flag-5'>數據</b>精準繪制核心客戶群

    有方科技打造全域感知、全數融通的“智慧廬山”

    ”項目。“智慧廬山”是首個通過政府專項債資金建設城市物聯感知體系的項目,通過構建統一的數字基座、城市運營管理平臺及運行管理中心,實現廬山市的城市治理現代化與產業數字化協同發展,推動城市全域數字化轉型。
    的頭像 發表于 07-08 17:08 ?993次閱讀

    軟通動力攜手懿文匯推出全域級元服務平臺“發現蚌埠”

    華為開發者大會 2025期間,軟通動力聯合戰略合作伙伴蚌埠文旅投資集團旗下懿文匯數字科技(安徽)有限公司(簡稱“懿文匯”)發布全域級元服務平臺“發現蚌埠”,其通過數智文旅模塊切入本地生活,成為地域綜合服務平臺,更成為軟通動力在H
    的頭像 發表于 06-26 14:19 ?834次閱讀

    ??低暼绾未蛟熘腔弁\?b class='flag-5'>服務

    從一個道閘出發,海康威視智慧停車服務十余年創新深耕,一路進化為全域智慧停車生態體系
    的頭像 發表于 06-19 15:50 ?1159次閱讀

    華為攜手國家信息中心推進智慧城市全域數字化轉型

    第八屆數字中國建設峰會期間,華為與國家信息中心舉行“城市一張網:可信數據空間聯接底座” 聯合研究項目簽約儀式,旨在通過研究城市可信數據空間聯接的目標架構、運營機制、生態體系等,加速數據
    的頭像 發表于 05-28 15:05 ?946次閱讀

    NXP eIQ Time Series Studio 工具使用攻略(九)-數據標簽

    其中"Data Labeling",數據標簽工具使用戶能夠通過可視化界面將相應的數據標簽(如電弧或無電?。糜诋斍?b class='flag-5'>數據圖形的不同部分,從而
    的頭像 發表于 05-22 09:51 ?1577次閱讀
    NXP eIQ Time Series Studio 工具使用攻略(九)-<b class='flag-5'>數據</b><b class='flag-5'>標簽</b>

    廣汽集團發布星靈安全守護體系

    近日,2025廣汽科技日暨昊鉑HL上市發布會在廣州舉行。廣汽集團聚焦“安全”主題,首次公開“廣汽星靈安全守護體系”,在智能化時代以全鏈路的安全研發體系、全域安全技術和全時安全保障,樹立智能汽車安全新標桿。
    的頭像 發表于 04-14 16:00 ?847次閱讀