国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據處理的難點在哪里?

lhl545545 ? 來源:真格基金 ? 作者:真格基金 ? 2020-06-10 14:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

「真格老友記」是真格基金全新推出的對話系列欄目,邀請真格從天使輪開始陪伴成長的“老朋友”分享他們的創業故事。

在「真格老友記」中,你將看到投資人與創業者的對話實錄,聽他們復盤從0到1的創業之路,探討獨到的行業見解,分享經歷過的試煉與挑戰。

作為一家早期投資機構,真格基金一直在尋找優秀的創業團隊,在這個過程中,我們參與并見證了許多初創項目的成長和發展。故事千千萬,雖然形式不斷變化,底層邏輯和方法論卻多有互通。我們需要探索的遠遠超出了我們的所見所聞。希望你能從對話中,找到自己的靈感繆斯。

毫無疑問,數據是這個時代的新能源

數據提高預測的精準度,決定了推薦機制,成為每個企業升級或調整戰略的基礎依據。

日常數據可分為由程序生成的結構化數據,與視頻圖像文字等非結構化數據。其中,非結構化數據占九成企業全部數據量的 55% 以上,如何管理和使用好這些數據是所有企業面臨的挑戰。

結構化數據與非結構化數據

這里存在一個引人深思的“倒掛”現象,人工智能工程師將近 90% 的時間和精力并不是在做真正的產品化業務,而是在做基本的數據挖掘、清洗標注和管理工作。就像原油需要提煉和加工才能進入工業生產流程,數據同樣需要一系列處理才能進入人工智能生產流程。

Google Paper: Hidden Technical Debt in Machine Learning Systems

這正是 Graviti 想解決的問題。作為一家 AI 數據 SaaS 提供商,Graviti 希望實現以數據管理為核心,服務于數據獲取、加工和使用的全數據旅程,通過提供更加高效、便捷和安全的軟件產品,幫助 AI 開發者和 AI 應用公司更加專注于 AI 本身。公司成立后便獲得真格基金參與的種子輪投資。

創始人崔運凱曾任 Uber 無人駕駛部門的 Tech Lead Manager,是該部門最早期一批員工。對科技的熱忱讓他相信,人工智能基礎軟件是構建人工智能生態中,不可或缺的那一部分。

本期對話欄目中,真格基金投資總監尹樂和 Graviti 創始人崔運凱將討論以下話題:

- Uber 的工作經歷,對創業有什么影響?從工程師到創業者,思考方式有哪些區別?

- 數據處理的難點在哪里?

- SaaS 服務和數據標注的主要區別是什么?

- 如何讓 AI 變得觸手可及?

01

“Uber的工作經歷

讓我提前5年看到AI落地痛點”

Uber 的文化強調要做規則挑戰者、顛覆者,從里面走出了不少優秀的創業者。

作為 Uber 無人駕駛部門的早期員工,崔運凱接觸了大量復雜的非結構化數據處理問題。決定創業時,他很快地選擇了投身數據 SaaS 軟件行業。

為什么是數據 SaaS 軟件行業?從工程師到組織者,Uber 的經歷對崔運凱的創業有什么影響?

Graviti創始人 崔運凱

尹樂:你最早在Uber負責的是無人駕駛業務,為什么決定從數據基礎軟件切入創業?

崔運凱:我在 Uber 時主要做無人駕駛技術的研發,需要處理大量數據。在Uber,灌滿 100PB(1PB=1024TB)的數據池可能只需要幾個月的時間,這是硅谷其他以處理結構化數據為主的公司不可能遇到的。所以相當于提前 5-6 年看到了 AI 落地面臨的問題,這個認知是遠超其他企業的。

當時,Uber 除了在印度有很大的數據生產團隊外,還將部分數據的需求外包給位于西雅圖的一家創業公司。除了要承受昂貴的價格(當時的定價是 1 張圖片 5 美金),冗長的等待時間(5000 張圖片大概需要做 4 個月),還要解決數據的對接、跨境分發、檢索、整理及真值數據的保存和使用等一系列難題。

但無人駕駛訓練至少要億級圖片,相當于把之前要解決的問題難度又放大了數萬倍。

2018 年我離開 Uber 回國,加入了一家做高精度地圖的公司,為了高精度地圖的研發需要收集海量的數據和訓練大量的模型。為了管理和使用這些數據,我們聊了七八家國內知名的云服務商,沒有一家可以提供滿足我們需求的軟件平臺。

為了獲取真值,我們找了 12 家數據標注公司,只有 2 家說可以滿足我們的需求,最便宜的也要 12 元一張圖片,結果做出來一張能用的圖片都沒有。

這時我們就意識到,無論是國內還是國外,人工智能的整個工具鏈都非常早期和不完善,仍然是大片的市場空白。如果我們再做一家人工智能公司,還會遇到同樣的工具問題,還是得花很大代價把這些問題再解決一遍。與其這樣,我們不如專門做一家解決開發者痛點的公司,讓開發者能更好地把時間集中在解決業務問題上。

尹樂:剛剛你提到在 Uber 的工作經歷, Uber 的文化強調要做規則挑戰者、顛覆者,里面也走出了不少優秀的創業者。除了幫助你發現行業機會,Uber 對你這次創業還有其他影響嗎?

崔運凱:還有兩個比較大的影響:

第一是怎么做一個由文化驅動快速迭代的組織。

Uber 把文化深入到了組織架構和激勵機制當中。Graviti 在這點上和 Uber 很接近,我們特別希望把文化做成一種烙印。招聘時,Graviti 對于文化和技術的考察各占 50%,就是希望找到最契合的一群人共同成長。

我認為對于早期創業者,盡早確立公司文化,并以此為基礎花足夠的時間在招聘上是非常重要的。我們寧愿緩慢地擴張,去招到最有潛力、最合適的人,這樣的團隊在跑起來后才沒有人會掉隊,不會出問題。

第二是讓我從一個 Engineer 變成了 Engineering Manager。

Uber 對新晉升的管理人員提供了很多培訓項目,讓第一次做管理者的人可以快速成長為相應領域的領袖。當真正決定創辦一家公司的時候,容易產生對未知的恐懼,而管理者的思維方式和訓練幫助我很好地適應了角色的轉變。

這也是創業早期很關鍵的一點,不只盯著自己擅長的部分,而是要從全盤考慮認清自己的不足,根據不足去找最合適的人補齊短板。像我在銷售和產品上有知識性缺失,我就一定要找到最優秀的產品負責人、銷售負責人,所有人長板的集合才決定著公司發展的上限。

02

人工智能的核心是數據

由于人工智能應用開發需要的數據體量龐大,這種對于系統設計的挑戰是前所未有的,如何高效調度大量的算力和存儲,利用大規模分布式并行化技術,將是支撐人工智能進一步落地的核心。

很多人對 Graviti 的產品和業務模式有誤解。實際上,數據標注只是 Graviti 數據核心戰略的一部分。數據的痛點是連貫的,從獲取、管理、加工到使用的完整數據旅程需要突破性的創新方案來支撐,所以行業真正需要的是一站式的解決方案。

Graviti 對此是如何應對的?疫情之下,公司的行業布局和戰略計劃有何調整?

尹樂:數據對于 AI 來講是一個非常核心的訓練來源。大眾可能不太了解,數據的處理難度到底有多大?到底是難在哪里?

崔運凱:最近我們內部在講,設計產品的時候要有并行化思維的意識。

舉個例子,我們經常處理的 Excel 表格大概為 100KB,你可以在你的個人電腦上打開處理。

但人工智能要處理的問題是什么樣的?人工智能就是剛剛我說的問題乘以 100 萬倍,甚至是 10 億倍。100KB 的數據乘以 100 萬大概是 95GB,現在任何個人電腦都無法打開 95GB 的文件,因為一般電腦的運行內存只有 8GB-16GB。

人工智能處理的實際上是億萬量級的生活問題,走到這個數量級別上,許多問題都變得極具挑戰性。

比如像上面的問題,在一個機器上解決不了,怎樣才能用分布式的方法解決?你用 1000 臺機器去解決一個問題,機器一多,不同的機器就容易出現死機、斷電等不同的問題,怎么能讓軟件強大到可以處理這些不確定性還可以流暢地把問題解決掉?這是我們需要突破的難點,也是我們提供服務的價值所在。

尹樂:沒錯,人工智能解決的是高數量級的問題,再小的差異也會被極度放大,這就更考驗系統設計架構的合理性。現在很多人提到 Graviti,可能下意識會覺得是一家數據標注公司,對于這種說法你怎么看?SaaS 服務和數據標注的主要區別是什么?

崔運凱:我能理解為什么別人容易把我們定義成標注公司,因為我們做的是非結構化數據的基礎軟件,標注是其中很重要又最容易理解的一個環節。但數據的痛點是連貫的,不僅僅是標注問題,所以我們提供的是一站式的解決方案。

Graviti 的產品分為兩大部分,第一個部分是面向開發者和人工智能工程師的 SaaS 工具。

大家猜一猜,支持一個 10 人算法團隊高效運轉需要多少資源?

至少要三個軟件工程師提供工具開發和運維服務,百萬元左右的深度學習訓練機器,百人左右的標注團隊,和上百 TB 到 PB 級的共享存儲空間。這些加起來往往需要企業千萬級的前置成本和百萬級的維護費用。即便這些都具備了,算法工程師還是需要將大量的時間花在找數據,清洗數據,管理權限和可視化上。

而我們的 SaaS 工具就是通過軟件和云來解決這些痛點:從幫助獲取和管理數據,到最后輸出模型,以及過程中團隊的協作。可以讓公司 0 前置成本啟動人工智能應用開發,費用跟隨團隊的擴張而增加、收縮而減少,還可以節省大量的算法工程師的時間,讓他們真正專注在重要的事情上。

我們發現整個人工智能開發的過程就是數據流轉的過程,非結構化是其中的一個關鍵痛點,所以我們也提供標注服務去解決非結構化數據的問題。

和其他標注公司不一樣的是,我們的數據標注服務是一鍵式的。國內的標注公司通常是先聯系 BPO(商務流程外包Business Process Outsourcing),在線下的微信群里對接需求,發數據文檔,他再去聯系標注員,而很多標注員可能是第一次接觸這樣的任務,也沒有特別適用的工具。

但是在我們的體系里,所有對接都是在軟件中交互完成,分發程序有一套算法,會自動找到最合適的標注員,通過發現任務、自主登錄、接受培訓考試去完成這樣的工作。整個過程都是自動化的,效率和準確率都有很大的提升。

尹樂:所以 Graviti 提供的數據軟件是真正切中開發者痛點的。說到這里,現在 Graviti 內部開始實施項目、人員、數據全面自動化的管理,為什么?自動化管理是 AI 行業里的普遍現象嗎?

崔運凱:肯定不是普遍現象,其實是困擾大家很久的問題。自動化過程涉及到各個任務節點的處理,并不是業界都有這樣的經驗或者業務需求。這對整個系統設計、架構設計有很高的要求和挑戰,我們見過和了解這樣的系統,所以知道如何設計與使用是最好的。

Graviti 的特別之處在于,我們從一開始就用了大量的全自動化工具,來實現輔助工作流程的進行。

我們會利用開源工具進行個性化改造,也會設計工作工具,通過不斷求最優解優化工作效率。正是因為這套工具,疫情對我們的工作效率幾乎沒有影響,因為一切都是在系統中進行,溝通和協調成本是非常低的。

這個事情業界能做的人不多,所以我們也會逐步開源我們自己的工具,幫助更多的人。

尹樂:疫情有影響我們的行業布局和戰略調整嗎?我知道你們的業務領域最近從汽?拓展到了互聯?視頻、新零售、醫療健康、智能制造等,未來在布局上還會有什么嘗試?

崔運凱:疫情驗證了一些趨勢,讓我們看到物理世界的數字化和線上化,看到靈活用工、云服務的可接受度和現實效益,也看到了更多領域增長的機會。

確實,我們原來的一些工作計劃被打亂了,比如我們接觸比較多的汽車行業,客戶受到影響,預算肯定也會受到影響。但這反向也讓我們思考如何及時做出調整、適應整個大方向的發展,在行業布局上我們已經從汽車拓展到了很多其他的領域,包括視頻、零售、醫療。

Graviti 本身的技術能力就可以服務不同種類的客戶。我們會針對客戶的業務情況做咨詢,很多客戶是做不到明確架構需求的,這時候就需要有人來從專業角度做梳理和設計,這也是我們服務的獨特性所在。

03

如何讓AI觸手可及?

任何技術都需要普及化才能造福大眾。人工智能新生態的形成同樣需要各個成員的參與,才能服務到每一個人。

尹樂:隨著人工智能行業的逐漸成熟,Graviti 的成長與發展會越來越快。Graviti 的 slogan 是叫做“讓 AI 觸手可及”,你怎么理解這句話?在實際操作過程中,怎么去落地這句話呢?

崔運凱:“讓 AI 觸手可及”是我們公司的愿景。希望通過我們提供的服務,讓開發者更快地完成AI應用的開發。

只有更多的人進入到這個領域,去解決不同的問題,有更多的活躍度,我們才能建立一個更好的社區,社區中的人都可以去做新的嘗試和應用,然后幫助其他人。那時候, AI 就可以服務到每一個人。

在未來, AI 的各個工具一定是會對外開放的,我們也會在一定的時間點考慮開源部分我們的產品或去做開放平臺,通過 API 讓更多的人參與到產品的開發。我們是一個非常開放的心態,希望和合作伙伴朋友們一起去營造新生態。

尹樂:沒錯,我也會覺得開源已經成為了一個新的趨勢,在未來帶來的益處肯定是無可估量的,也能更快地讓技術大眾化、普及化。最后請運凱再分享下你眼中人工智能行業的未來會是什么樣的?

崔運凱:實際上我一直認為人工智能分為兩個部分。

第一個部分是對人類知識的積累,這是一個結構化的過程,讓更多人把自己的知識體現出來。Graviti 是堅信知識積累過程的一家企業,所以在做系統架構的時候,也會充分考慮到主動學習、遷移學習的價值,讓我們的系統變得越來越聰明。

第二個部分是用這些知識去解決一些實際的問題,比如怎么更好地組織知識,甚至以一些我們不理解的方式去學習這些知識,再把這些抽象的概念給解釋表達出來。

我相信人工智能永遠是個工具,而工具是要解決實際問題的,所以不能本末倒置。
責任編輯:pj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據處理
    +關注

    關注

    0

    文章

    649

    瀏覽量

    29990
  • 無人駕駛
    +關注

    關注

    100

    文章

    4297

    瀏覽量

    126847
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    貼片都在哪里做的?

    你們貼片都在哪里做的?
    發表于 02-26 18:02

    自動駕駛如何確保數據處理的實時性?

    [首發于智駕最前沿微信公眾號]在自動駕駛系統里,數據處理的實時性并不是一個抽象的技術指標,而是直接決定車輛“來不來得及反應”的關鍵能力。道路環境變化極快,前車急剎、行人突然橫穿、旁車并線等情況
    的頭像 發表于 02-21 09:48 ?5226次閱讀
    自動駕駛如何確保<b class='flag-5'>數據處理</b>的實時性?

    請問在哪里可以找到 VisionFive 2 上的 VPU?

    /building_starfive_debian_image, VPU驅動程序是要建造的。但是,它不應該帶有相應的物理硬件嗎? 在這個VisionFive 2 規范,沒有任何地方提到VPU,但只有一個JH7110 處理器 + 想象力GPU. 誰能在黑板上突出顯示,在哪里
    發表于 02-11 08:17

    DPU數據處理器的核心功能和應用領域

    DPU,全稱數據處理器(Data Processing Unit),是一種專門用于處理數據中心中數據流動與基礎設施任務的專用處理器。它既不像
    的頭像 發表于 02-02 13:52 ?594次閱讀
    DPU<b class='flag-5'>數據處理</b>器的核心功能和應用領域

    海光3350便攜機主板:大數據處理利器

    隨著企業數字化轉型加速,大數據處理需求從固定機房向移動場景延伸。無論是金融機構外出調研、科研團隊野外數據采集,還是個人創作者處理海量素材,便攜設備的性能成為關鍵。海光便攜機主板憑借獨特的技術優勢,正成為大
    的頭像 發表于 12-26 11:15 ?503次閱讀

    SmartBug2.0 用戶指南:硬件連接、功能使用與數據處理全解析

    SmartBug2.0 用戶指南:硬件連接、功能使用與數據處理全解析 在電子設備的開發與應用中,傳感器模塊的功能和使用方式至關重要。SmartBug2.0 作為一款功能強大的模塊,為我們在多領域
    的頭像 發表于 12-26 09:15 ?433次閱讀

    MCU數據采集模塊的數據處理和分析能力如何?

    MCU數據采集模塊的數據處理和分析能力如何?在現代化結構物安全監測領域,MCU數據采集模塊扮演著至關重要的角色。它不僅僅是數據的“搬運工”,更是具備初步
    的頭像 發表于 12-02 16:03 ?446次閱讀
    MCU<b class='flag-5'>數據</b>采集模塊的<b class='flag-5'>數據處理</b>和分析能力如何?

    在山區實現自動駕駛的難點在哪里

    在城市道路實現自動駕駛或許不難,但想把自動駕駛車應用到山區道路,其難度會比想象的大得多。城市里路標、車道、紅綠燈比較多,車流也比較規則;而很多山路卻沒有清晰車道、路面起伏大、天氣變化快,還有隨時掉落的石頭或橫穿的牲畜的風險。山里的這些“突發性”和“不規則性”會把很多在城市已經足夠好的技術逼到極限,甚至露出短板。想在山區實現自動駕駛是否現實?
    的頭像 發表于 11-08 14:57 ?2961次閱讀

    發提問貼在哪里輸入標簽

    發提問貼在哪里可以輸入標簽呀
    發表于 09-14 11:30

    實現環境計算真正的瓶頸究竟在哪里

    20世紀90年代初,計算機科學家Mark Weiser提出了“泛在計算”的理念,其核心思想是讓技術融入日常生活環境中[1]。盡管智能家居組件、傳感器網絡和智能設備取得了進展,但環境計算這一概念依然難以實現。如今,我們已經擁有了硬件基礎和連接能力。那么,真正的瓶頸究竟在哪里
    的頭像 發表于 09-10 16:21 ?824次閱讀

    華大九天Empyrean GoldMask平臺重構掩模版數據處理方案

    對芯片產業鏈上的光罩廠、設計公司而言,掩模版數據處理環節的效率與精度,直接決定著產品能否如期上市、良率能否達標、成本能否可控。當芯片工藝向更先進節點跨越,掩模版數據處理已成為制約生產效率與良率提升
    的頭像 發表于 08-26 15:03 ?2544次閱讀
    華大九天Empyrean GoldMask平臺重構掩模版<b class='flag-5'>數據處理</b>方案

    如何利用 AI 算法優化碳化硅襯底 TTV 厚度測量數據處理

    摘要 本文聚焦碳化硅襯底 TTV 厚度測量數據處理環節,針對傳統方法的局限性,探討 AI 算法在數據降噪、誤差校正、特征提取等方面的應用,為提升數據處理效率與測量準確性提供新的技術思路。 引言 在
    的頭像 發表于 08-25 14:06 ?660次閱讀
    如何利用 AI 算法優化碳化硅襯底 TTV 厚度測量<b class='flag-5'>數據處理</b>

    二進制數據處理方法分享

    隨著不斷增長的測試需求、更加復雜的系統集成和更多的數據處理,程序控制在示波器的應用中越來越多。在程序控制中很重要的一部分就是如何把數據從示波器中傳輸到我們的上位機上,并且當數據傳輸到我們的上位機上
    的頭像 發表于 07-30 15:41 ?2424次閱讀
    二進制<b class='flag-5'>數據處理</b>方法分享

    電商API的實時數據處理

    ? 在現代電商平臺中,API(應用程序接口)扮演著核心角色,它連接用戶、商家和后臺系統,實現數據的高效交換。隨著電商業務規模的擴大,實時數據處理變得至關重要——它要求系統在毫秒級內響應API請求
    的頭像 發表于 07-23 15:39 ?581次閱讀
    電商API的實時<b class='flag-5'>數據處理</b>

    抖音電商 API 接口和傳統電商接口,直播數據處理誰更快?

    ? 在直播電商蓬勃發展的今天,數據處理速度成為平臺競爭力的關鍵。抖音電商作為新興力量,其API接口針對直播場景進行了優化,而傳統電商接口則基于通用模型設計。本文將逐步分析兩者的數據處理速度差異,幫助
    的頭像 發表于 07-09 15:39 ?688次閱讀
    抖音電商 API 接口和傳統電商接口,直播<b class='flag-5'>數據處理</b>誰更快?