国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據庫索引使用策略及優化

C語言編程學習基地 ? 來源:C語言編程學習基地 ? 作者:C語言編程學習基地 ? 2021-11-02 15:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

索引使用策略及優化

MySQL的優化主要分為結構優化(Scheme optimization)和查詢優化(Query optimization)。本章討論的高性能索引策略主要屬于結構優化范疇。本章的內容完全基于上文的理論基礎,實際上一旦理解了索引背后的機制,那么選擇高性能的策略就變成了純粹的推理,并且可以理解這些策略背后的邏輯。

示例數據庫

為了討論索引策略,需要一個數據量不算小的數據庫作為示例。本文選用MySQL官方文檔中提供的示例數據庫之一:employees。這個數據庫關系復雜度適中,且數據量較大。下圖是這個數據庫的E-R關系圖(引用自MySQL官方手冊)

MySQL官方文檔中關于此數據庫的頁面為http://dev.mysql.com/doc/employee/en/employee.html。里面詳細介紹了此數據庫,并提供了下載地址和導入方法,如果有興趣導入此數據庫到自己的MySQL可以參考文中內容。

最左前綴原理與相關優化

高效使用索引的首要條件是知道什么樣的查詢會使用到索引,這個問題和B+Tree中的“最左前綴原理”有關,下面通過例子說明最左前綴原理。

這里先說一下聯合索引的概念。在上文中,我們都是假設索引只引用了單個的列,實際上,MySQL中的索引可以以一定順序引用多個列,這種索引叫做聯合索引,一般的,一個聯合索引是一個有序元組《a1, a2, …, an》,其中各個元素均為數據表的一列,實際上要嚴格定義索引需要用到關系代數,但是這里我不想討論太多關系代數的話題,因為那樣會顯得很枯燥,所以這里就不再做嚴格定義。另外,單列索引可以看成聯合索引元素數為1的特例。

以employees.titles表為例,下面先查看其上都有哪些索引:

33cd2c5a-38ac-11ec-82a8-dac502259ad0.png

從結果中可以到titles表的主索引為《emp_no, title, from_date》,還有一個輔助索引《emp_no》。為了避免多個索引使事情變復雜(MySQL的SQL優化器在多索引時行為比較復雜),這里我們將輔助索引drop掉:

3464b124-38ac-11ec-82a8-dac502259ad0.png

這樣就可以專心分析索引PRIMARY的行為了。

情況一:全列匹配。

34bbe688-38ac-11ec-82a8-dac502259ad0.png

很明顯,當按照索引中所有列進行精確匹配(這里精確匹配指“=”或“IN”匹配)時,索引可以被用到。這里有一點需要注意,理論上索引對順序是敏感的,但是由于MySQL的查詢優化器會自動調整where子句的條件順序以使用適合的索引,例如我們將where中的條件順序顛倒:

35360828-38ac-11ec-82a8-dac502259ad0.png

效果是一樣的。

情況二:最左前綴匹配。

35bc4276-38ac-11ec-82a8-dac502259ad0.png

當查詢條件精確匹配索引的左邊連續一個或幾個列時,如《emp_no》或《emp_no, title》,所以可以被用到,但是只能用到一部分,即條件所組成的最左前綴。上面的查詢從分析結果看用到了PRIMARY索引,但是key_len為4,說明只用到了索引的第一列前綴。

情況三:查詢條件用到了索引中列的精確匹配,但是中間某個條件未提供。

3614f344-38ac-11ec-82a8-dac502259ad0.png

此時索引使用情況和情況二相同,因為title未提供,所以查詢只用到了索引的第一列,而后面的from_date雖然也在索引中,但是由于title不存在而無法和左前綴連接,因此需要對結果進行掃描過濾from_date(這里由于emp_no唯一,所以不存在掃描)。如果想讓from_date也使用索引而不是where過濾,可以增加一個輔助索引《emp_no, from_date》,此時上面的查詢會使用這個索引。除此之外,還可以使用一種稱之為“隔離列”的優化方法,將emp_no與from_date之間的“坑”填上。

首先我們看下title一共有幾種不同的值:

36a100fa-38ac-11ec-82a8-dac502259ad0.png

只有7種。在這種成為“坑”的列值比較少的情況下,可以考慮用“IN”來填補這個“坑”從而形成最左前綴:

370dbbe6-38ac-11ec-82a8-dac502259ad0.png

這次key_len為59,說明索引被用全了,但是從type和rows看出IN實際上執行了一個range查詢,這里檢查了7個key。看下兩種查詢的性能比較:

378b3a80-38ac-11ec-82a8-dac502259ad0.png

“填坑”后性能提升了一點。如果經過emp_no篩選后余下很多數據,則后者性能優勢會更加明顯。當然,如果title的值很多,用填坑就不合適了,必須建立輔助索引。

情況四:查詢條件沒有指定索引第一列。

38088d32-38ac-11ec-82a8-dac502259ad0.png

由于不是最左前綴,索引這樣的查詢顯然用不到索引。

情況五:匹配某列的前綴字符串。

387ac6ae-38ac-11ec-82a8-dac502259ad0.png

此時可以用到索引,但是如果通配符不是只出現在末尾,則無法使用索引。(原文表述有誤,如果通配符%不出現在開頭,則可以用到索引,但根據具體情況不同可能只會用其中一個前綴)

情況六:范圍查詢。

38de2d70-38ac-11ec-82a8-dac502259ad0.png

范圍列可以用到索引(必須是最左前綴),但是范圍列后面的列無法用到索引。同時,索引最多用于一個范圍列,因此如果查詢條件中有兩個范圍列則無法全用到索引。

39582058-38ac-11ec-82a8-dac502259ad0.png

可以看到索引對第二個范圍索引無能為力。這里特別要說明MySQL一個有意思的地方,那就是僅用explain可能無法區分范圍索引和多值匹配,因為在type中這兩者都顯示為range。同時,用了“between”并不意味著就是范圍查詢,例如下面的查詢:

39d63678-38ac-11ec-82a8-dac502259ad0.png

看起來是用了兩個范圍查詢,但作用于emp_no上的“BETWEEN”實際上相當于“IN”,也就是說emp_no實際是多值精確匹配。可以看到這個查詢用到了索引全部三個列。因此在MySQL中要謹慎地區分多值匹配和范圍匹配,否則會對MySQL的行為產生困惑。

情況七:查詢條件中含有函數或表達式。

很不幸,如果查詢條件中含有函數或表達式,則MySQL不會為這列使用索引(雖然某些在數學意義上可以使用)。例如:

3a533844-38ac-11ec-82a8-dac502259ad0.png

雖然這個查詢和情況五中功能相同,但是由于使用了函數left,則無法為title列應用索引,而情況五中用LIKE則可以。再如:

3ae3a2b2-38ac-11ec-82a8-dac502259ad0.png

顯然這個查詢等價于查詢emp_no為10001的函數,但是由于查詢條件是一個表達式,MySQL無法為其使用索引。看來MySQL還沒有智能到自動優化常量表達式的程度,因此在寫查詢語句時盡量避免表達式出現在查詢中,而是先手工私下代數運算,轉換為無表達式的查詢語句。

索引選擇性與前綴索引

既然索引可以加快查詢速度,那么是不是只要是查詢語句需要,就建上索引?答案是否定的。因為索引雖然加快了查詢速度,但索引也是有代價的:索引文件本身要消耗存儲空間,同時索引會加重插入、刪除和修改記錄時的負擔,另外,MySQL在運行時也要消耗資源維護索引,因此索引并不是越多越好。一般兩種情況下不建議建索引。

第一種情況是表記錄比較少,例如一兩千條甚至只有幾百條記錄的表,沒必要建索引,讓查詢做全表掃描就好了。至于多少條記錄才算多,這個個人有個人的看法,我個人的經驗是以2000作為分界線,記錄數不超過 2000可以考慮不建索引,超過2000條可以酌情考慮索引。

另一種不建議建索引的情況是索引的選擇性較低。所謂索引的選擇性(Selectivity),是指不重復的索引值(也叫基數,Cardinality)與表記錄數(#T)的比值:

Index Selectivity = Cardinality / #T

顯然選擇性的取值范圍為(0, 1],選擇性越高的索引價值越大,這是由B+Tree的性質決定的。例如,上文用到的employees.titles表,如果title字段經常被單獨查詢,是否需要建索引,我們看一下它的選擇性:

3b79c1e8-38ac-11ec-82a8-dac502259ad0.png

title的選擇性不足0.0001(精確值為0.00001579),所以實在沒有什么必要為其單獨建索引。

有一種與索引選擇性有關的索引優化策略叫做前綴索引,就是用列的前綴代替整個列作為索引key,當前綴長度合適時,可以做到既使得前綴索引的選擇性接近全列索引,同時因為索引key變短而減少了索引文件的大小和維護開銷。下面以employees.employees表為例介紹前綴索引的選擇和使用。

從圖12可以看到employees表只有一個索引《emp_no》,那么如果我們想按名字搜索一個人,就只能全表掃描了:

3bfe4c56-38ac-11ec-82a8-dac502259ad0.png

如果頻繁按名字搜索員工,這樣顯然效率很低,因此我們可以考慮建索引。有兩種選擇,建《first_name》或《first_name, last_name》,看下兩個索引的選擇性:

3c89b5c0-38ac-11ec-82a8-dac502259ad0.png

《first_name》顯然選擇性太低,《first_name, last_name》選擇性很好,但是first_name和last_name加起來長度為30,有沒有兼顧長度和選擇性的辦法?可以考慮用first_name和last_name的前幾個字符建立索引,例如《first_name, left(last_name, 3)》,看看其選擇性:

3d0cf958-38ac-11ec-82a8-dac502259ad0.png

選擇性還不錯,但離0.9313還是有點距離,那么把last_name前綴加到4:

3d9ea646-38ac-11ec-82a8-dac502259ad0.png

這時選擇性已經很理想了,而這個索引的長度只有18,比《first_name, last_name》短了接近一半,我們把這個前綴索引 建上:

3e27458c-38ac-11ec-82a8-dac502259ad0.png

此時再執行一遍按名字查詢,比較分析一下與建索引前的結果:

3e908c2c-38ac-11ec-82a8-dac502259ad0.png

性能的提升是顯著的,查詢速度提高了120多倍。

前綴索引兼顧索引大小和查詢速度,但是其缺點是不能用于ORDER BY和GROUP BY操作,也不能用于Covering index(即當索引本身包含查詢所需全部數據時,不再訪問數據文件本身)。

InnoDB的主鍵選擇與插入優化

在使用InnoDB存儲引擎時,如果沒有特別的需要,請永遠使用一個與業務無關的自增字段作為主鍵。

經常看到有帖子或博客討論主鍵選擇問題,有人建議使用業務無關的自增主鍵,有人覺得沒有必要,完全可以使用如學號或身份證號這種唯一字段作為主鍵。不論支持哪種論點,大多數論據都是業務層面的。如果從數據庫索引優化角度看,使用InnoDB引擎而不使用自增主鍵絕對是一個糟糕的主意。

上文討論過InnoDB的索引實現,InnoDB使用聚集索引,數據記錄本身被存于主索引(一顆B+Tree)的葉子節點上。這就要求同一個葉子節點內(大小為一個內存頁或磁盤頁)的各條數據記錄按主鍵順序存放,因此每當有一條新的記錄插入時,MySQL會根據其主鍵將其插入適當的節點和位置,如果頁面達到裝載因子(InnoDB默認為15/16),則開辟一個新的頁(節點)。

如果表使用自增主鍵,那么每次插入新的記錄,記錄就會順序添加到當前索引節點的后續位置,當一頁寫滿,就會自動開辟一個新的頁。如下圖所示:

這樣就會形成一個緊湊的索引結構,近似順序填滿。由于每次插入時也不需要移動已有數據,因此效率很高,也不會增加很多開銷在維護索引上。

如果使用非自增主鍵(如果身份證號或學號等),由于每次插入主鍵的值近似于隨機,因此每次新紀錄都要被插到現有索引頁得中間某個位置:

此時MySQL不得不為了將新記錄插到合適位置而移動數據,甚至目標頁面可能已經被回寫到磁盤上而從緩存中清掉,此時又要從磁盤上讀回來,這增加了很多開銷,同時頻繁的移動、分頁操作造成了大量的碎片,得到了不夠緊湊的索引結構,后續不得不通過OPTIMIZE TABLE來重建表并優化填充頁面。

因此,只要可以,請盡量在InnoDB上采用自增字段做主鍵。

后記

這篇文章斷斷續續寫了半個月,主要內容就是上面這些了。不可否認,這篇文章在一定程度上有紙上談兵之嫌,因為我本人對MySQL的使用屬于菜鳥級別,更沒有太多數據庫調優的經驗,在這里大談數據庫索引調優有點大言不慚。就當是我個人的一篇學習筆記了。

其實數據庫索引調優是一項技術活,不能僅僅靠理論,因為實際情況千變萬化,而且MySQL本身存在很復雜的機制,如查詢優化策略和各種引擎的實現差異等都會使情況變得更加復雜。但同時這些理論是索引調優的基礎,只有在明白理論的基礎上,才能對調優策略進行合理推斷并了解其背后的機制,然后結合實踐中不斷的實驗和摸索,從而真正達到高效使用MySQL索引的目的。

另外,MySQL索引及其優化涵蓋范圍非常廣,本文只是涉及到其中一部分。如與排序(ORDER BY)相關的索引優化及覆蓋索引(Covering index)的話題本文并未涉及,同時除B-Tree索引外MySQL還根據不同引擎支持的哈希索引、全文索引等等本文也并未涉及。如果有機會,希望再對本文未涉及的部分進行補充吧。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據庫
    +關注

    關注

    7

    文章

    4019

    瀏覽量

    68340
  • C++
    C++
    +關注

    關注

    22

    文章

    2124

    瀏覽量

    77112

原文標題:C++基礎語法梳理:數據庫丨索引使用和優化

文章出處:【微信號:cyuyanxuexi,微信公眾號:C語言編程學習基地】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    深度解讀MySQL數據庫備份恢復策略

    數據是企業的核心資產,數據庫備份是保障數據安全的最后一道防線。某天上午10點,運營人員誤執行了一條DELETE語句,刪除了訂單表中近一個月的數據,影響了數萬筆訂單。如果沒有完善的備份
    的頭像 發表于 01-26 17:40 ?630次閱讀

    國產數據庫的AI戰事

    國產數據庫硝煙再起,Vastbase V100構筑企業智能基座
    的頭像 發表于 10-24 20:45 ?4019次閱讀
    國產<b class='flag-5'>數據庫</b>的AI戰事

    華納云香港服務器數據庫索引優化策略

    )實施有效的索引優化策略。無論您是IT管理員還是開發人員,了解這些技巧都能幫助您優化數據庫效率,確保業務高效運轉。下面,華納云(hnclou
    的頭像 發表于 10-16 17:06 ?518次閱讀

    數據庫慢查詢分析與SQL優化實戰技巧

    今天,我將分享我在處理數千次數據庫性能問題中積累的實戰經驗,幫助你系統掌握慢查詢分析與SQL優化的核心技巧。無論你是剛入門的運維新手,還是有一定經驗的工程師,這篇文章都將為你提供實用的解決方案。
    的頭像 發表于 09-08 09:34 ?981次閱讀

    數據庫性能瓶頸分析與SQL優化實戰案例

    作為一名在一線摸爬滾打8年的運維工程師,我見過太多因為數據庫性能問題而半夜被叫醒的場景。今天分享幾個真實的優化案例,希望能幫你避開這些坑。
    的頭像 發表于 08-27 14:31 ?587次閱讀

    數據庫性能優化指南

    作為一名在大廠摸爬滾打多年的運維老兵,我見過太多因為數據庫性能問題導致的生產事故。今天分享一套完整的數據庫優化方法論,從SQL層面到硬件配置,幫你徹底解決性能瓶頸!
    的頭像 發表于 08-18 11:21 ?744次閱讀

    數據庫數據恢復—服務器異常斷電導致Oracle數據庫故障的數據恢復案例

    Oracle數據庫故障: 某公司一臺服務器上部署Oracle數據庫。服務器意外斷電導致數據庫報錯,報錯內容為“system01.dbf需要更多的恢復來保持一致性”。該Oracle數據庫
    的頭像 發表于 07-24 11:12 ?637次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—服務器異常斷電導致Oracle<b class='flag-5'>數據庫</b>故障的<b class='flag-5'>數據</b>恢復案例

    三款主流國產數據庫的技術特點

    隨著數字經濟的快速發展和數據安全要求的提升,國產數據庫正迎來前所未有的發展機遇。在信創浪潮推動下,達夢數據庫、TiDB、華為高斯數據庫等國產數據庫
    的頭像 發表于 07-14 11:08 ?1147次閱讀

    企業級MySQL數據庫管理指南

    在當今數字化時代,MySQL作為全球最受歡迎的開源關系型數據庫,承載著企業核心業務數據的存儲與處理。作為數據庫管理員(DBA),掌握MySQL的企業級部署、優化、維護技能至關重要。本文
    的頭像 發表于 07-09 09:50 ?718次閱讀

    數據庫數據恢復—MongoDB數據庫文件丟失的數據恢復案例

    MongoDB數據庫數據恢復環境: 一臺操作系統為Windows Server的虛擬機上部署MongoDB數據庫。 MongoDB數據庫故障: 工作人員在MongoDB服務仍
    的頭像 發表于 07-01 11:13 ?638次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—MongoDB<b class='flag-5'>數據庫</b>文件丟失的<b class='flag-5'>數據</b>恢復案例

    數據庫數據恢復—SQL Server數據庫被加密如何恢復數據

    SQL Server數據庫故障: SQL Server數據庫被加密,無法使用。 數據庫MDF、LDF、log日志文件名字被篡改。
    的頭像 發表于 06-25 13:54 ?672次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—SQL Server<b class='flag-5'>數據庫</b>被加密如何恢復<b class='flag-5'>數據</b>?

    oracle數據恢復—oracle數據庫誤執行錯誤truncate命令如何恢復數據

    oracle數據庫誤執行truncate命令導致數據丟失是一種常見情況。通常情況下,oracle數據庫誤操作刪除數據只需要通過備份恢復數據
    的頭像 發表于 06-05 16:01 ?1068次閱讀
    oracle<b class='flag-5'>數據</b>恢復—oracle<b class='flag-5'>數據庫</b>誤執行錯誤truncate命令如何恢復<b class='flag-5'>數據</b>?

    SQLSERVER數據庫是什么

    SQL Server 是由微軟公司開發的一款 關系型數據庫管理系統(RDBMS) ,用于存儲、管理和檢索結構化數據。它是企業級應用中廣泛使用的數據庫解決方案之一,尤其適用于Windows平臺,但也
    的頭像 發表于 05-26 09:19 ?1169次閱讀

    MySQL數據庫是什么

    MySQL數據庫是一種 開源的關系型數據庫管理系統(RDBMS) ,由瑞典MySQL AB公司開發,后被Oracle公司收購。它通過結構化查詢語言(SQL)進行數據存儲、管理和操作,廣泛應用于Web
    的頭像 發表于 05-23 09:18 ?1206次閱讀

    數據庫數據恢復——MongoDB數據庫文件拷貝后服務無法啟動的數據恢復

    MongoDB數據庫數據恢復環境: 一臺Windows Server操作系統虛擬機上部署MongoDB數據庫。 MongoDB數據庫故障: 管理員在未關閉MongoDB服務的
    的頭像 發表于 04-09 11:34 ?864次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復——MongoDB<b class='flag-5'>數據庫</b>文件拷貝后服務無法啟動的<b class='flag-5'>數據</b>恢復