国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于無監督學習和圖學習的大數據挖掘

1ujk_Tencent_TE ? 來源:騰訊技術工程官方號 ? 2019-12-08 10:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在IJCAI-2019期間舉辦的騰訊TAIC晚宴和Booth Talk中,來自TEG數據平臺的張長旺向大家介紹了自己所在用戶畫像組的前沿科研結果:

1. 非監督短文本層級分類;

2. 大規模復雜網絡挖掘和圖表示學習。

其所在團隊積極與學術界科研合作,并希望有夢想、愛學習的實力派加入,共同研究和應用半監督/弱監督/無監督學習、小樣本學習、大規模復雜網絡挖掘和圖表示學習等做大數據挖掘。

科研結果1:非監督短文本層級分類

首先以下用戶和AI算法的對話,顯示了現實業務中使用現有監督文本分類算法的遇到的一些困境和問題:

算法需要海量訓練數據

算法模型用戶不可控

算法不能很好的適應類目的變化

我們分析現有監督算法的主要問題在于沒有真正的知識, 沒有對于文本和類目的真正的理解。現有算法只是在學習大量人工標注訓練樣本里面的模式。為了解決這個問題,我們啟動了一個叫做: 基于關鍵詞知識與類目知識的非監督短文本層級分類的探索項目。

項目的主要思想是引入關鍵詞和類目兩種知識來幫助算法理解關鍵詞和類目的含義。然后基于知識進行文本的分類和標注。關鍵詞知識主要來自3個方面包括:關鍵詞的網絡搜索上下文、關鍵詞的百科上下文、關鍵詞到類目詞的后驗關聯概率。我們提出類目語義表達式來支持用戶表達豐富的類目本身和類目之間的關系的語義。這兩樣知識的引入幫助算法擺脫了對于大量人工標注訓練樣本的依賴,同時算法分類的過程做到了人工可理解,人工可控制。

pIYBAF3sZiCAD0NcAAGXC_cWyhc920.jpg

基于關鍵詞和類目知識的無監督文本層級分類算法流程如下:

對文本提取關鍵詞

根據關鍵詞知識計算關鍵詞到類目詞的相關度詞向量

根據關鍵詞的相關度詞向量計算文本的相關度詞向量

根據文本的相關度詞向量和類目語義表達式計算文本與每個類目的匹配度

每個文本被分為與之匹配度最高的類目

pIYBAF3sZiCAc4I1AAFF-PRpshM196.jpg

通過在兩個文本分類數據集合上面的實驗,我們發現,我們自研的算法能夠在沒有訓練樣本的情況下提供質量可用的結果,其一級類目準確率能夠達到80%,并且明顯高于現有其他非監督算法。

pIYBAF3sZiCAPnfmAAGamuFnOPU555.jpg

科研結果2:大規模復雜網絡挖掘和圖表示學習

Network Representation Learning 或者說 Graph Embedding 是復雜網絡最新的研究課題,意在通過神經網絡模型,把圖結構向量化,為節點分類、鏈路預測、社團發現等挖掘任務提供方便有效的特征,以克服圖結構難以應用到機器學習算法中的難題。

本次我們在IJCAI發表的學術論文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”創新性提出結合邊屬性的圖卷積神經網絡模型,彌補了現有算法無法利用邊屬性為節點分類提供更多信息的不足。

pIYBAF3sZiCAf4jWAADyry40GSc801.jpg

現有的圖學習算法,絕大部分都忽視了邊上信息的價值。在這里我們提出了一種可以把邊的信息傳輸到節點表示結果的改進的GCN算法。算法主要思路是在做GCN里面周邊鄰居節點向量的聚合計算之前,把每個節點連接邊的Embedding向量拼接在對應鄰居節點的Embedding向量后面。實驗顯示,我們的算法對于金融分類問題具有更優的結果。我們團隊正在進一步優化模型,正在研發利用時序的GCN模型,以可以利用邊的時序交互信息,從而更好的表示動態網絡。

pIYBAF3sZiGAcZ4XAAGfvV5Mbk0987.jpg

pIYBAF3sZiGAVDl_AAEtrHfo7Kk905.jpg

同時,數平數據中心研發的Angel參數服務器平臺,針對關系型數據結構,在計算性能上對圖算法做了優化,極大加速了PageRank等算法的計算速度,比如計算用戶中心度的Closeness算法,性能比基于Spark GraphX的算法提升了6.7倍。下圖顯示對于大型圖的計算,我們Angle框架的速度具有明顯的優勢。

pIYBAF3sZiGANHYUAAEl0_C2wBk224.jpg

pIYBAF3sZiGAXUHmAAEim4GgRxY047.jpg

我們所在團隊積極與學術界科研合作,并希望有夢想、愛學習的實力派加入,共同研究和應用半監督/弱監督/無監督學習、小樣本學習、復雜網絡挖掘和圖表示學習做大數據挖掘。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98088
  • 大數據
    +關注

    關注

    64

    文章

    9065

    瀏覽量

    143776

原文標題:IJCAI2019報告:基于無監督學習和圖學習的大數據挖掘

文章出處:【微信號:Tencent_TEG,微信公眾號:騰訊技術工程官方號】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    :自動化任務(如數據預處理、模型訓練調度)。Git版本控制:團隊協作開發(如分支管理、代碼合并)。 機器學習監督學習:線性回歸、邏輯回歸、決策樹、SVM等。
    發表于 02-27 10:53

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監督學習不同,監督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴你,而是把環境、動作和結果連起來,讓機器自己探索哪個行為長期看起來更有利
    的頭像 發表于 01-31 09:34 ?653次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    自動駕駛中常提的模仿學習是什么?

    當談及自動駕駛模型學習時,經常會提到模仿學習的概念。所謂模仿學習,就是模型先看別人怎么做,然后學著去做。自動駕駛中的模仿學習,就是把人類司機在各種路況下的行為做成范例,記錄下看到了什么
    的頭像 發表于 01-16 16:41 ?2001次閱讀

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注數據、模型架構
    的頭像 發表于 01-07 15:37 ?204次閱讀
    機器<b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    強化 監督學習應用:無需NG樣本的缺陷檢測方案,解決工業數據標注難題 多模態融合技術:PaddleOCR+YOLOv8聯動方案,實現\"文字識別+缺陷定位\"一體化 團購課程大綱
    發表于 12-04 09:28

    自動駕駛數據標注是所有信息都要標注嗎?

    本身只是像素和點云。標注的工作就是人為地給這些信號貼上語義標簽,告訴模型這是一輛車、這是行人、這是車道線、這個區域不能通行之類的明確信息。沒有這些標簽,監督學習、驗證和評估都無法進行,模型不知道哪些輸入與哪些輸出應該
    的頭像 發表于 12-04 09:05 ?881次閱讀
    自動駕駛<b class='flag-5'>數據</b>標注是所有信息都要標注嗎?

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    強化 監督學習應用:無需NG樣本的缺陷檢測方案,解決工業數據標注難題 多模態融合技術:PaddleOCR+YOLOv8聯動方案,實現\"文字識別+缺陷定位\"一體化 團購課程大綱
    發表于 12-03 13:50

    自動駕駛中常提的“強化學習”是個啥?

    下,就是一個智能體在環境里行動,它能觀察到環境的一些信息,并做出一個動作,然后環境會給出一個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監督學習不同,強化學習沒有一一對應的“正確答案”給它看,而是靠與環境交互、自我探索來發現
    的頭像 發表于 10-23 09:00 ?690次閱讀
    自動駕駛中常提的“強化<b class='flag-5'>學習</b>”是個啥?

    學習物聯網可以做什么工作?

    健康、智能制造等領域。以下是一些常見的職業方向: 物聯網工程師:從事物聯網系統的設計、開發、測試、維護和升級等工作,包括傳感器、無線通信、云計算、大數據等技術的應用。   嵌入式軟件工程師:負責開發
    發表于 10-11 16:40

    XKCON祥控輸煤皮帶智能機器人巡檢系統對監測數據進行挖掘分析

    XKCON祥控輸煤皮帶智能機器人巡檢系統通過智能機器人在皮帶運行過程中對皮帶的運行狀態和環境狀況進行實時檢測,在應用過程中,不但提升了巡視周期頻次,還通過大數據分析和深度學習算法,對監測數據進行
    的頭像 發表于 09-15 11:22 ?630次閱讀
    XKCON祥控輸煤皮帶智能機器人巡檢系統對監測<b class='flag-5'>數據</b>進行<b class='flag-5'>挖掘</b>分析

    任正非說 AI已經確定是第四次工業革命 那么如何從容地加入進來呢?

    的基本理論。了解監督學習監督學習和強化學習的基本原理。例如,在監督學習中,理解如何通過標注數據
    發表于 07-08 17:44

    機器學習異常檢測實戰:用Isolation Forest快速構建標簽異常檢測系統

    本文轉自:DeepHubIMBA監督異常檢測作為機器學習領域的重要分支,專門用于在缺乏標記數據的環境中識別異常事件。本文深入探討異常檢測技術的理論基礎與實踐應用,通過Isolatio
    的頭像 發表于 06-24 11:40 ?1420次閱讀
    機器<b class='flag-5'>學習</b>異常檢測實戰:用Isolation Forest快速構建<b class='flag-5'>無</b>標簽異常檢測系統

    DeepSeeK學習資料

    104頁DeepSeeK學習資料(清華)
    發表于 06-08 09:57 ?2次下載

    使用MATLAB進行監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。監督學習旨在識別
    的頭像 發表于 05-16 14:48 ?1455次閱讀
    使用MATLAB進行<b class='flag-5'>無</b><b class='flag-5'>監督學習</b>

    硬件原理學習筆記

    這一個星期認真學習了硬件原理的知識,做了一些筆記,方便以后查找。硬件原理分為三類1.管腳類(gpio)和門電路類輸入輸出引腳,上拉電阻,三極管與門,或門,非門上拉電阻:正向標志作用,給懸空的引腳
    的頭像 發表于 04-30 18:40 ?1463次閱讀
    硬件原理<b class='flag-5'>圖</b><b class='flag-5'>學習</b>筆記