国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據挖掘,數據結構化首當其沖

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-06-11 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

現實中的大數據常常表示為一種非結構化,交叉和動態變化的文本數據。如何從大規模文本數據中抽取結構化知識是一個非常值得研究的任務。很多研究工作依賴于勞動密集型的數據標注,用有監督的方法去抽取知識。但是,這些方法不具有普適性,難以擴展,進而難以處理具有動態性或領域限定性的文本數據。我們認為大規模的文本數據其自身蘊含著大量的模式、結構或知識。通過將無領域限制的大規模文本數據和具有領域限制的知識庫結合,我們可以充分發揮大規模文本數據的優勢去處理非結構化數據轉換為結構化數據的難題。

——韓家煒

2018中國人工智能大會(CCAI2018)將于7月28日至29日在深圳舉行,韓家煒教授屆時將在會上分享他關于大規模文本數據挖掘的最新研究,發表題為《基于海量文本數據的結構化知識抽取:數據挖掘、機器學習和自然語言處理的融合技術》的主題演講,探討如何借助大規模文本數據自身的力量去做大規模的知識提取。

適逢盛會,心向往之。會前,我們整理了韓教授以往關于大數據挖掘的相關觀點,方便大家一睹為快。

韓家煒現為美國伊利諾伊大學香檳分校計算機系教授,ACM會士和IEEE會士,被稱為“數據挖掘第一人”。他在數據挖掘領域有重要的學術影響力,發表論文600余篇,出版多部專著。曾擔任國際知名會議KDD、SDM和ICDM程序委員會主席,創辦了學術期刊ACM TKDD并擔任主編。曾榮獲2004 ACM SIGKDD創新獎、2005 IEEE計算機分會技術成就獎、2009 IEEE計算機協會的M. Wallace McDowell獎。他的專著Data Mining: Concepts and Techniques被公認為數據挖掘領域的經典教材。

大數據挖掘,數據結構化首當其沖

大數據(Big data或Megadata),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模十分巨大,以至于無法在合理時間內通過人工截取、管理、處理、并整理成為人類所能解讀的信息。在總數據量相同的情況下,與個別分析獨立的小型數據集(data set)相比,將各個小型數據集合并后進行分析可得出許多額外的信息和數據關系性,可用來察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因。

我們這個時代,由于互聯網的發展,產生了大量數據。這些數據中絕大部分(超過 80%)都是以文本等無結構或半結構的方式存儲。所以,挖掘大數據首先就是要系統地研究如何挖掘無結構的文本數據,也就是說,要實現從Big Data 到Actionable Knowledge的轉變。

韓家煒認為,要將無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。他提出兩種結構化數據的形式,一種是異質網絡(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結構化數據生成 Knowledge 已經證明是很強大的,但是如何將原始無結構的數據變成有結構的數據(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果,現在仍在不斷求索中。

數據挖掘三部曲

韓家煒認為,數據挖掘的研究工作可以總結為三部曲:

(1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來

(2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知識。最后一步才是挖掘。

此外,在研究的推進過程中,他們也曾遇到了很多困難。

一是領域限制。用一般語料獲得的實體標注在特定領域、動態領域或者新興的領域無法很好的工作。

二是名稱的歧義性。多個實體可能共享同一個表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊名等)。

三是上下文稀疏。對同一個關系可能有許多種表示方法(想想中文有多少中表示體育比賽結果的方法)。

雖然數據挖掘已經有了成型的結構,但仍有重重困難需要克服。韓教授曾說:“在這條路上,我們現在只是找到了幾個口子可以往前走。現在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來我們就可以從大量的無結構的文本,變成大量的有用的知識。”

在即將到來的盛夏,韓家煒教授作為中國人工智能大會的特邀嘉賓,將會介紹他最近的研究:如何借助大規模文本數據自身的力量去做大規模的知識抽取?主要包括關鍵短語抽取,基于遠監督的實體識別和關系分類,基于模式的信息提取方法,多元分類的自動發現以及多維文本數據集的構建等方法。在CCAI2018的報告中,韓家煒教授將證明數據挖掘、機器學習和自然語言處理三個技術進行融合是一個“非常重要且極有前途”的方向。

在CCAI2018,跟隨開路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50103

    瀏覽量

    265527
  • 數據挖掘
    +關注

    關注

    1

    文章

    406

    瀏覽量

    25086
  • 大數據
    +關注

    關注

    64

    文章

    9065

    瀏覽量

    143778

原文標題:CCAI2018 | 韓家煒:大規模文本數據挖掘的新方向

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    生成式AI賦能工程師挖掘結構化數據價值

    您是否知道,生成式 AI(GenAI)可以幫助工程師在幾秒鐘內診斷汽車故障,甚至在設備出現問題之前預測潛在失效?GenAI 正在通過加速數據分析和算法開發,讓這些場景從設想走向現實,使工程師能夠充分發揮專業知識,挖掘可執行的洞察。
    的頭像 發表于 02-28 10:24 ?440次閱讀

    物聯網數據中臺的功能應用有哪些

    源,包括數據庫、文件系統、云存儲、物聯網設備、社交媒體等,將分散在不同系統中的結構化、半結構化和非結構化數據采集到
    的頭像 發表于 02-26 14:35 ?65次閱讀

    技術分享|道路數據編輯與格式適配解析

    結構化道路的加工,工作流程通常依賴于明確的數據基礎和后續的可視化處理。在進入UnrealEngine或Blender等工具進行地圖外觀加工之前,具備完整、準確的
    的頭像 發表于 02-13 16:01 ?101次閱讀
    技術分享|道路<b class='flag-5'>數據</b>編輯與格式適配解析

    數字的基礎是什么

    、用戶交互等渠道持續收集結構化(如數據庫記錄)和非結構化數據(如文本、圖像、視頻)。 數據存儲與管理 :依賴
    的頭像 發表于 02-04 17:53 ?1122次閱讀

    結構化布線中使用電纜標簽的4個主要優勢

    在現代通信和網絡基礎設施建設中,結構化布線系統扮演著至關重要的角色。它不僅確保了網絡的高效傳輸和穩定運行,還為未來的擴展和維護提供了便利。而在結構化布線中,電纜標簽的使用雖看似是一個小小的細節,卻能
    的頭像 發表于 11-24 10:34 ?336次閱讀

    芯盾時代SDP替代VPN重塑遠程辦公體系

    國資委79號文明確要求,2027年前,網絡安全設備必須“全面替代”。VPN作為央國企遠程辦公的標配,是通往企業內網的“咽喉要道”,自然首當其沖
    的頭像 發表于 11-13 13:45 ?808次閱讀
    芯盾時代SDP替代VPN重塑遠程辦公體系

    組態大數據平臺是什么?有什么功能?

    組態大數據平臺是融合 組態技術 與 大數據處理能力 的綜合性平臺,通過圖形、可配置的方式實現數據采集、存儲、分析、可視及遠程控制,適用于
    的頭像 發表于 10-30 11:29 ?233次閱讀
    組態<b class='flag-5'>大數據</b>平臺是什么?有什么功能?

    【HZ-T536開發板免費體驗】6、使用protoc-gen-gorm生成標準數據結構

    在設計espnow協議的時候,考慮到我需要在esp32,Linux設備,web上使用相同的數據結構,那就需要考慮一下,是否使用一個通用的跨平臺序列數據結構。這時候我想起了protobuf,這個就是
    發表于 08-26 00:32

    智能體AI面臨非結構化數據難題:IBM推出解決方案

    ,同時提供一個開放的混合數據基礎架構和企業級的結構化和非結構化數據管理。 智能體AI面臨非結構化數據
    的頭像 發表于 07-02 09:40 ?530次閱讀

    微軟下月初計劃再裁員數 千人銷售部門首當其沖

    行業芯事行業資訊
    電子發燒友網官方
    發布于 :2025年06月19日 13:44:15

    DDN攜手NVIDIA釋放非結構化數據的AI價值

    DDN 通過與 NVIDIA AI 數據平臺的合作,推出聯合解決方案,簡化了企業對非結構化數據的存儲、訪問和激活方式,助力客戶釋放生成式 AI 的巨大商業潛能。DDN 全球合作伙伴負責人
    的頭像 發表于 06-10 10:31 ?965次閱讀

    MySQL數據庫是什么

    MySQL數據庫是一種 開源的關系型數據庫管理系統(RDBMS) ,由瑞典MySQL AB公司開發,后被Oracle公司收購。它通過結構化查詢語言(SQL)進行數據存儲、管理和操作,廣
    的頭像 發表于 05-23 09:18 ?1227次閱讀

    程序設計與數據結構

    《程序設計與數據結構》重點闡述了三大方向內容: 1. C語言學習中的痛點:針對當前工程師在C語言學習中的痛點,如指針函數與函數指針,如何靈活應用結構體等。從變量的三要素(變量的類型,變量的值和變量
    發表于 05-13 16:45

    結構可視:利用數據編輯器剖析數據內在架構?

    結構可視聚焦于展示數據的內部結構和各部分之間的關系,使企業能夠深入理解數據的組織方式和層次體系,從而更好地進行
    的頭像 發表于 05-07 18:42 ?687次閱讀

    從零到一:如何利用非結構化數據中臺快速部署AI解決方案

    在企業數字轉型的浪潮中,AI已從概念走向落地應用。然而,真正能高效、安全地部署AI解決方案的企業仍屬少數,瓶頸往往出在“數據”——尤其是非結構化數據的管理與應用上。文件、音頻、視頻、
    的頭像 發表于 04-14 13:50 ?773次閱讀