国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據科學家Maarten Grootendorst向我們介紹了9種距離度量方法

新機器視覺 ? 來源:人工智能愛好者社區 ? 作者:人工智能愛好者社 ? 2021-03-29 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在數據挖掘中,我們經常需要計算樣本之間的相似度,通常的做法是計算樣本之間的距離。在本文中,數據科學家 Maarten Grootendorst 向我們介紹了 9 種距離度量方法,其中包括歐氏距離、余弦相似度等,并探討如何以及何時以最佳的方式使用它們。此外 Maarten Grootendorst 還對它們的缺點進行了介紹,以及如何規避不足。歐氏距離(Euclidean Distance)

6f6bc4e6-8e94-11eb-8b86-12bb97331649.png

歐式距離。 我們從最常見的歐式距離開始,歐式距離可解釋為連接兩個點的線段的長度。歐式距離公式非常簡單,使用勾股定理從這些點的笛卡爾坐標計算距離。

6f86ca52-8e94-11eb-8b86-12bb97331649.png

缺點:盡管這是一種常用的距離度量,但歐式距離并不是尺度不變的,這意味著所計算的距離可能會根據特征的單位發生傾斜。通常,在使用歐式距離度量之前,需要對數據進行歸一化處理。 此外,隨著數據維數的增加,歐氏距離的作用也就越小。這與維數災難(curse of dimensionality)有關。 用例:當你擁有低維數據且向量的大小非常重要時,歐式距離的效果非常好。如果在低維數據上使用歐式距離,則如 k-NN 和 HDBSCAN 之類的方法可達到開箱即用的效果。 余弦相似度(Cosine Similarity)

6fce2820-8e94-11eb-8b86-12bb97331649.png

余弦相似度。 余弦相似度經常被用作抵消高維歐式距離問題。余弦相似度是指兩個向量夾角的余弦。如果將向量歸一化為長度均為 1 的向量,則向量的點積也相同。 兩個方向完全相同的向量的余弦相似度為 1,而兩個彼此相對的向量的余弦相似度為 - 1。注意,它們的大小并不重要,因為這是在方向上的度量。

703e5b0e-8e94-11eb-8b86-12bb97331649.png

缺點:余弦相似度的一個主要缺點是沒有考慮向量的大小,而只考慮它們的方向。以推薦系統為例,余弦相似度就沒有考慮到不同用戶之間評分尺度的差異。 用例:當我們對高維數據向量的大小不關注時,可以使用余弦相似度。對于文本分析,當數據以單詞計數表示時,經常使用此度量。例如,當一個單詞在一個文檔中比另一個單詞更頻繁出現時,這并不一定意味著文檔與該單詞更相關。可能是文件長度不均勻或者計數的重要性不太重要。我們最好使用忽略幅度的余弦相似度。 漢明距離(Hamming Distance)

708c32e8-8e94-11eb-8b86-12bb97331649.png

漢明距離。 漢明距離是兩個向量之間不同值的個數。它通常用于比較兩個相同長度的二進制字符串。它還可以用于字符串,通過計算不同字符的數量來比較它們之間的相似程度。 缺點:當兩個向量長度不相等時,漢明距離使用起來很麻煩。當幅度是重要指標時,建議不要使用此距離指標。 用例:典型的用例包括數據通過計算機網絡傳輸時的錯誤糾正 / 檢測。它可以用來確定二進制字中失真的數目,作為估計誤差的一種方法。此外,你還可以使用漢明距離來度量分類變量之間的距離。 曼哈頓距離(Manhattan Distance)

70e00c60-8e94-11eb-8b86-12bb97331649.png

曼哈頓距離。 曼哈頓距離通常稱為出租車距離或城市街區距離,用來計算實值向量之間的距離。想象一下均勻網格棋盤上的物體,如果它們只能移動直角,曼哈頓距離是指兩個向量之間的距離,在計算距離時不涉及對角線移動。

712adcc2-8e94-11eb-8b86-12bb97331649.png

缺點:盡管曼哈頓距離在高維數據中似乎可以工作,但它比歐式距離直觀性差,尤其是在高維數據中使用時。此外,由于它可能不是最短路徑,有可能比歐氏距離給出一個更高的距離值。 用例:當數據集具有離散或二進制屬性時,曼哈頓距離似乎工作得很好,因為它考慮了在這些屬性的值中實際可以采用的路徑。以歐式距離為例,它會在兩個向量之間形成一條直線,但實際上這是不可能的。 切比雪夫距離(Chebyshev Distance)

715ac446-8e94-11eb-8b86-12bb97331649.png

切比雪夫距離。 切比雪夫距離定義為兩個向量在任意坐標維度上的最大差值。換句話說,它就是沿著一個軸的最大距離。切比雪夫距離通常被稱為棋盤距離,因為國際象棋的國王從一個方格到另一個方格的最小步數等于切比雪夫距離。

71c6ed56-8e94-11eb-8b86-12bb97331649.png

缺點:切比雪夫距離通常用于特定的用例,這使得它很難像歐氏距離或余弦相似度那樣作為通用的距離度量。因此,在確定適合用例時才使用它。 用例:切比雪夫距離用于提取從一個方塊移動到另一個方塊所需的最小移動次數。此外,在允許無限制八向移動的游戲中,這可能是有用的方法。在實踐中,切比雪夫距離經常用于倉庫物流,因為它非常類似于起重機移動一個物體的時間。 閔氏距離(Minkowski)

71d2029a-8e94-11eb-8b86-12bb97331649.png

閔氏距離。 閔氏距離比大多數距離度量更復雜。它是在范數向量空間(n 維實數空間)中使用的度量,這意味著它可以在一個空間中使用,在這個空間中,距離可以用一個有長度的向量來表示。 閔氏距離公式如下:

7253d90a-8e94-11eb-8b86-12bb97331649.png

最有趣的一點是,我們可以使用參數 p 來操縱距離度量,使其與其他度量非常相似。常見的 p 值有:

p=1:曼哈頓距離

p=2:歐氏距離

p=∞:切比雪夫距離

缺點:閔氏距離與它們所代表的距離度量有相同的缺點,因此,對哈頓距離、歐幾里得距離和切比雪夫距離等度量標準有個好的理解非常重要。此外,參數 p 的使用可能很麻煩,因為根據用例,查找正確的 p 值在計算上效率低。 用例:p 的積極一面是可迭代,并找到最適合用例的距離度量。它允許在距離度量上有很大的靈活性,如果你非常熟悉 p 和許多距離度量,將會獲益多多。 雅卡爾指數(Jaccard Index)

728742b8-8e94-11eb-8b86-12bb97331649.png

雅卡爾指數。 雅卡爾指數(交并比)是用于比較樣本集相似性與多樣性的統計量。雅卡爾系數能夠量度有限樣本集合的相似度,其定義為兩個集合交集大小與并集大小之間的比例。 例如,如果兩個集合有 1 個共同的實體,而有 5 個不同的實體,那么雅卡爾指數為 1/5 = 0.2。要計算雅卡爾距離,我們只需從 1 中減去雅卡爾指數:

72bd3724-8e94-11eb-8b86-12bb97331649.png

缺點:雅卡爾指數的一個主要缺點是它受數據大小的影響很大。大數據集對指數有很大影響,因為它可以顯著增加并集,同時保持交集相似。 用例:雅卡爾指數通常用于使用二進制或二進制數據的應用程序中。當你有一個深度學習模型來預測圖像分割時,比如一輛汽車,雅卡爾指數可以用來計算給定真實標簽的預測分割的準確度。 類似地,它可以用于文本相似性分析,以測量文檔之間有多少詞語重疊。因此,它可以用來比較模式集合。 半正矢(Haversine)

7318aa82-8e94-11eb-8b86-12bb97331649.png

半正矢距離。 半正矢距離是指球面上的兩點在給定經緯度條件下的距離。它與歐幾里得距離非常相似,因為它可以計算兩點之間的最短連線。主要區別在于半正矢距離不可能有直線,因為這里的假設是兩個點都在一個球面上。

736087f8-8e94-11eb-8b86-12bb97331649.png

缺點:這種距離測量的一個缺點是,假定這些點位于一個球體上。實際上,這種情況很少出現,例如,地球不是完美的圓形,在某些情況下可能使計算變得困難。相反,如果假定是橢球,使用 Vincenty 距離比較好。 用例:半正矢距離通常用于導航。例如,你可以使用它來計算兩個國家之間的飛行距離。請注意,如果距離本身不那么大,則不太適合。 S?rensen-Dice 系數

73cd45a0-8e94-11eb-8b86-12bb97331649.png

S?rensen-Dice 系數。 S?rensen-Dice 系數與雅卡爾指數非常相似,都是度量樣本集的相似性和多樣性。盡管它們的計算方法相似,但是 S?rensen-Dice 系數更直觀一些,因為它可以被視為兩個集合之間重疊的百分比,這個值在 0 到 1 之間:

741769e6-8e94-11eb-8b86-12bb97331649.png

缺點:正如雅卡爾指數,S?rensen-Dice 系數也夸大了很少或沒有真值的集合的重要性,因此,它可以控制多集合的平均得分,還可以控制多組平均得分并按相關集合的大小成反比地加權每個項目,而不是平等對待它們。 用例:用例與雅卡爾指數相似,它通常用于圖像分割任務或文本相似性分析。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94780
  • 系數
    +關注

    關注

    0

    文章

    15

    瀏覽量

    8401
  • 度量
    +關注

    關注

    0

    文章

    8

    瀏覽量

    2821

原文標題:一文讀懂常見的9種距離度量方法

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    思必馳首席科學家俞凱教授當選2026年度IEEE Fellow

    日前,全球最大的專業技術組織國際電氣電子工程師協會(The Institute of Electrical and Electronics Engineers, IEEE)公布2026年度IEEE Fellow(會士)名單,上海交通大學特聘教授、思必馳聯合創始人、首席科學家
    的頭像 發表于 12-12 11:36 ?818次閱讀

    中興通訊崔麗受邀出席2025騰沖科學家論壇

    近日,“2025騰沖科學家論壇”在云南啟幕。本屆論壇以“科學·AI改變世界”為主題,匯聚包括諾貝爾獎、圖靈獎、菲爾茲獎得主在內的國際頂尖科學家,以及百余位兩院院士、高校校長、科技精英與產業領袖,共話
    的頭像 發表于 12-09 11:36 ?602次閱讀

    昊衡科技:第四屆飛行器健康管理技術國際高端論壇暨青年科學家論壇圓滿落幕

    2025年11月21日,第四屆飛行器健康管理技術國際高端論壇暨青年科學家論壇在廈門國際會展酒店(會展二路199號)圓滿落下帷幕。深度交流本屆論壇上,國產光學測量與傳感儀器制造商——武漢昊衡科技,展示
    的頭像 發表于 11-21 17:59 ?463次閱讀
    昊衡科技:第四屆飛行器健康管理技術國際高端論壇暨青年<b class='flag-5'>科學家</b>論壇圓滿落幕

    技術感知世界!昊衡科技在第四屆飛行器健康管理技術國際高端論壇暨青年科學家論壇等您!

    今日是第四屆飛行器健康管理技術國際高端論壇暨青年科學家論壇在廈門國際會展酒店(會展二路199號)的會議日,現場學術氛圍持續高漲。武漢昊衡科技作為國產先進光學測量與傳感測量儀器制造商,此次攜兩款創新
    的頭像 發表于 11-20 17:15 ?1704次閱讀
    技術感知世界!昊衡科技在第四屆飛行器健康管理技術國際高端論壇暨青年<b class='flag-5'>科學家</b>論壇等您!

    科學家利用微波激光照射鉆石,制造出時間準晶體

    科學家利用微波激光照射鉆石,制造出時間準晶體。 美國華盛頓大學、麻省理工學院和哈佛大學科學家攜手,成功在鉆石上“雕刻”出一全新的物質形態:時間準晶體。這項突破有望為量子計算、精確計時等領域帶來
    的頭像 發表于 11-19 07:35 ?196次閱讀
    <b class='flag-5'>科學家</b>利用微波激光照射鉆石,制造出時間準晶體

    第四屆飛行器健康管理技術國際高端論壇暨青年科學家論壇:昊衡科技,歡迎您來!

    大會介紹第四屆飛行器健康管理技術國際高端論壇暨青年科學家論壇將于2025年11月19-21日在中國廈門舉行。會議由廈門大學和江南大學聯合主辦,圍繞飛行器健康管理與智能運維,以“數字時代、智領運維
    的頭像 發表于 11-14 17:36 ?3064次閱讀
    第四屆飛行器健康管理技術國際高端論壇暨青年<b class='flag-5'>科學家</b>論壇:昊衡科技,歡迎您來!

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護科學

    損壞的風險(所有浸入水中的技術設備都是如此),這意味著數據可能會在不知不覺中丟失,而基線數據集的后續缺口可能會妨礙科學家得出具有統計意義的可靠結論。 在邊緣部署深度學習模型可以規避自主記錄器
    發表于 10-27 09:18

    國際類腦計算科學家Yulia Sandamirskaya教授加盟時識科技

    近日,國際類腦計算與神經形態機器人領域知名科學家Yulia Sandamirskaya 教授,作為科學家顧問正式加入時識科技(SynSense)。
    的頭像 發表于 10-13 13:50 ?746次閱讀

    科技感拉滿!鯨啟智能機器人與無人機聯動,閃耀服務世界青年科學家論壇

    9 月 20 日,以 “青年,世界科學的未來” 為主題的世界青年科學家論壇(南京)在江北新區啟幕。20 余位諾貝爾獎得主、海內外院士,超百位國際國內青年科學家及產業代表齊聚,圍繞前沿科
    的頭像 發表于 10-11 16:54 ?280次閱讀

    喜報|ZYNALOG徴格半導體首席模擬設計科學家喬納森·史卓德被授予2025年度“錢江友誼使者”稱號

    9月28日上午,2025杭州國際人才交流與項目合作大會在杭州國際博覽中心隆重開幕。在開幕式上,徴格半導體(杭州)有限公司的首席模擬設計科學家喬納森·史卓德被授予2025杭州市外國專家"錢江
    的頭像 發表于 09-30 14:06 ?1018次閱讀
    喜報|ZYNALOG徴格半導體首席模擬設計<b class='flag-5'>科學家</b>喬納森·史卓德被授予2025年度“錢江友誼使者”稱號

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予人的智能,科學家們希望在沒有人類的引導下,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅動科學被認為是科學發現的第五個范
    發表于 09-17 11:45

    復星醫藥使用亞馬遜云科技生成式AI技術賦能醫療撰寫場景 助力科學家效率躍升

    進程。通過“臨床試驗報告一致性檢查”和“研發文獻翻譯”兩大功能,復星醫藥可解放科學家生產力,使其專注于創新藥研發的核心工作。在亞馬遜云科技的加持下,“臨床試驗報告一致性檢查”可覆蓋研究人員90%的撰寫場景,工作效率提升70%;而在“研發文
    發表于 07-14 14:16 ?1129次閱讀

    數字信號處理,科學家與工程師指南(664頁)

    數字信號處理入門書籍,非常全面,清晰易懂 獲取完整文檔資料可下載附件哦!!!! 如果內容有幫助可以關注、點贊、評論支持一下哦~
    發表于 07-11 14:59

    地物光譜儀如何幫助科學家研究植被和土壤?

    在遙感、生態、農業等研究領域,科學家們常常會提到一個工具: 地物光譜儀 。它看起來像一臺“測光的槍”,卻能揭示土壤和植被的“隱藏信息”。那么,地物光譜儀到底是怎么工作的?它又是如何在科學研究中
    的頭像 發表于 05-20 15:46 ?625次閱讀
    地物光譜儀如何幫助<b class='flag-5'>科學家</b>研究植被和土壤?

    云天勵飛董事長陳寧當選深圳市青年科學家協會第十屆會長

    ? 2025年3月29日,深圳市青年科學家協會十屆一次會員大會在深圳市青少年活動中心南廳隆重舉行。百余位青年才俊齊聚一堂,共同見證協會換屆選舉,共話科技創新未來。共青團深圳市委員會書記胡火明出席
    的頭像 發表于 03-31 19:15 ?1249次閱讀
    云天勵飛董事長陳寧當選深圳市青年<b class='flag-5'>科學家</b>協會第十屆會長