引言
像IIC、LED、KEY等都屬于字符設備,這些設備的驅動是所有驅動類型中最為簡單的。塊設備是另外一種不同于字符設備的類型,這兩類設備在linux的驅動結構中有很大差異。總體來說,塊設備驅動比字符設備驅動復雜的多,在IO操作上也表現出很大的不同。緩沖、IO的調度、請求隊列等都是和塊設備驅動相關的概念。
本章從驅動小白(指本人)的切身實際出發,先不去了解那些深奧的XXX,只從一個最簡單的例子開始,對塊設備驅動的結構有一個大體的了解。路漫漫其修遠兮,驅動是一個大坑,夠你用10年來填。慢慢學吧。
1. 塊設備結構
塊設備就是指磁盤、CD-ROM等硬件存儲介質,塊設備驅動連接了塊設備和用戶空間,實現用戶空間對磁盤的大塊數據訪問。整個子系統如下圖所示,包含虛擬文件系統,塊IO調度層,塊設備驅動以及具體的塊設備。塊設備不同于字符設備,它是以塊為單位接收輸入和返回輸出,而字符設備是以字節為單位。塊設備支持隨機訪問,而且其讀寫速度都快于字符設備,因此驅動的表現也至關重要。這也是為什么塊設備驅動的結構和字符設備的驅動結構被分開來寫。塊是最小的讀寫單位,不同的文件系統有不同大小的塊尺寸,但是它必須是2的指數,同時不能超過頁大小。通常使用的大小有512字節,1K字節,4K字節等。
虛擬文件系統(VFS):隱藏了各種硬件的具體細節,為用戶操作不同的硬件提供了一個統一的接口。其基于不同的文件系統格式,比如EXT,FAT等。用戶程序對設備的操作都通過VFS來完成,在VFS上面就是諸如open、close、write和read的函數API。
映射層(mapping layer):這一層主要用于確定文件系統的block size,然后計算所請求的數據包含多少個block。同時調用具體文件系統函數來訪問文件的inode,確定所請求的數據在磁盤上面的邏輯地址。
IO調度器:這部分是linux塊系統中非常關鍵的部分,其涉及到如何接收用戶請求并能最高效去訪問硬件磁盤中的數據。
Block driver:完成和塊設備的具體交互。

2. 驅動程序詳解
通過編寫一個vmem_disk驅動來了解block驅動的結構,vmem_disk是一種模擬磁盤,其數據實際上存儲在RAM中。它通過vmalloc()分配出來的內存空間來模擬出一個磁盤,以塊設備方式來訪問這片內存。現在來看其主要結構。
2.1 block_device_operations
Block_device_operations類似于字符設備驅動中的file_operations結構,它是對塊設備各種操作的集合,定義代碼如下:
struct block_device_operations {
int (*open) (struct block_device *, fmode_t);
int (*release) (struct gendisk *, fmode_t);
int (*locked_ioctl) (struct block_device *, fmode_t, unsigned, unsigned long);
int (*ioctl) (struct block_device *, fmode_t, unsigned, unsigned long);
int (*compat_ioctl) (struct block_device *, fmode_t, unsigned, unsigned long);
int (*direct_access) (struct block_device *, sector_t,void **, unsigned long *);
int (*media_changed) (struct gendisk *);
int (*revalidate_disk) (struct gendisk *);
int (*getgeo)(struct block_device *, struct hd_geometry *);
struct module *owner;
};
1) 打開和釋放
int (*open)(struct inode *inode ,struct file *filp); int (*release)(struct inode *inode ,struct file *filp);
這個和字符設備驅動類似,當設備被打開和關閉時將調用它們。
2) IO控制
int (*ioctl)(struct inode *inode,struct file *filp uusignwd intcmd,unsigned long arg)
這個和字符設備驅動中的ioctrl類似,也是用于系統調用。塊設備包含大量的標準請求,這些標準請求由linux通用塊設備層處理,因此大部分ioctrl函數相當短。
3) 介質改變
int (*check_media_change) (kdev_t); int (*revalidate) (kdev_t);
像磁盤、CD-ROM等塊設備是可插拔的,因此需要有個函數來檢測設備是否存在。當介質發生改變,使用revalidate_disk來響應,給驅動一個機會進行必要的工作來使介質準備好。
4) 獲得驅動信息
int (*getgeo)(struct block_device *,struct hd_geometry *);
該函數根據驅動器的幾何信息填充一個hd_geometry結構體,hd_geometry包含磁頭、扇區、柱面等信息。
所以我們要填充這個結構體信息,并定義其對應函數。填充如下:
static struct block_device_operations vmem_fops={
.owner=THIS_MODULE,
.getgeo=vmem_getgeo,
.ioctl=vmem_ioctl,
.open=vmem_open,
.release=vmem_release,
};
我們只定義了open、release、ioctrl、getgeo函數。為了簡化這個驅動,我們把open、release、ioctrl函數的具體內容也都省略了,只是給出一個定義,沒有任何有效內容。但是hd_geometry的信息需要填充,所以getgeo函數定義如下:
static int vmem_getgeo(struct block_device *bdev, struct hd_geometry *geo)
{
geo->cylinders=1;
geo->heads=1;
geo->sectors=BLK_SIZE/SECTOR_SIZE;
return 0;
}
定義了使用的塊設備的柱面、磁頭和扇區個數。
2.2 gendisk結構體
在linux內核中,用gendisk結構體來表示一個獨立的磁盤設備。就像字符設備驅動中使用cdev結構體一樣,它也包含主次設備號,需要分配內存,釋放結構體和初始化操作。
1) 分配gendisk
分配函數為:
struct gendisk *alloc_disk(int minors);
2) 增加gendisk
這個是用于注冊磁盤設備,函數為:
void add_disk(struct gendisk *gd);
3) 釋放gendisk
當不再需要使用磁盤時候,需要釋放這個結構體,也即釋放其分配的內存。
void del_gendisk(struct gendisk *gd);
以上這些函數在快設備初始化和關閉驅動中調用。
2.3 請求處理
每個塊設備驅動的核心是它的請求函數,實際的工作,至少如設備的啟動,都是在這個函數里完成的。塊設備驅動程序的request函數有以下原型:
void request(request_queue_t *queue);
當內核需要驅動程序處理讀取、寫入以及其它對設備的操作時,就會調用該函數。在其返回前,request函數不必完成所有隊列中的請求。事實上,對大多數真實設備而言,它可能沒有完成任何請求。
每個設備都有一個請求隊列,這是因為對磁盤數據實際傳入和傳出發生的時間,與內核請求的時間相差很大,因此內核需要有一定靈活性,以安排在適當時刻(比如把影響相鄰磁盤扇區的請求分成一組)進行傳輸。
我們用一個簡單的request函數:
static void vmem_request(struct request_queue *q){
struct request *req;
uint64_t pos=0;
ssize_t size=0;
struct bio_vec bvec;
int rv=0;
struct req_iterator iter;
void *kaddr=NULL;
while((req=blk_fetch_request(q)) != NULL){
spin_unlock_irq(q->queue_lock);
pos=blk_rq_pos(req)*SECTOR_SIZE;
size=blk_rq_bytes(req);
if(pos+size>vdev->size){
printk(KERN_WARNING "beyond addr/n");
rv=-EIO;
goto skip;
}
rq_for_each_segment(bvec, req, iter){
kaddr=kmap(bvec.bv_page);
rv=vmem_transfer(vdev, pos, bvec.bv_len, kaddr+bvec.bv_offset, rq_data_dir(req));
if(rv<0)
goto skip;
pos+=bvec.bv_len;
kunmap(bvec.bv_page);
}
skip:
blk_end_request_all(req, rv);
spin_lock_irq(q->queue_lock);
}
}
Blk_fetch_request從請求隊列中獲取一個請求,當沒有請求需要時,返回NULL。然后while中的程序開始處理這個請求。當請求隊列創建的時候,request函數綁定了它,并且提供了一個自旋鎖。當調用request函數時,該鎖由內核控制。因此request函數是一個原子上下文中運行的。因此在獲得request時,需要通過spin_unlock_irq函數來解鎖。
然后通過blk_rq_pos和blk_rq_bytes來獲得請求中的位置和大小。rq_for_each_segment是一個宏定義,其遍歷一個請求中的所有bio。這里插入一下對bio的介紹:
從本質上講,一個request結構是作為一個bio結構的鏈表實現的。Bio結構是在底層對部分塊設備IO請求的描述。Bio結構體定義如下:
struct bio {
sector_t bi_sector;//該bio結構所要傳輸的第一個(512字節)扇區:磁盤的位置
struct bio *bi_next; //請求鏈表
struct block_device *bi_bdev;//相關的塊設備
unsigned long bi_flags//狀態和命令標志
unsigned long bi_rw; //讀寫
unsigned short bi_vcnt;//bio_vesc偏移的個數
unsigned short bi_idx; //bi_io_vec的當前索引
unsigned short bi_phys_segments;//結合后的片段數目
unsigned short bi_hw_segments;//重映射后的片段數目
unsigned int bi_size; //I/O計數
unsigned int bi_hw_front_size;//第一個可合并的段大小;
unsigned int bi_hw_back_size;//最后一個可合并的段大小
unsigned int bi_max_vecs; //bio_vecs數目上限
struct bio_vec *bi_io_vec; //bio_vec鏈表:內存的位置
bio_end_io_t *bi_end_io;//I/O完成方法
atomic_t bi_cnt; //使用計數
void *bi_private; //擁有者的私有方法
bio_destructor_t *bi_destructor; //銷毀方法
};
與bio對應的數據每次存放的內存不一定是連續的,bio_vec結構體用于描述與這個bio對應的所有內存,它并不總是在一個頁面里,因此需要一個向量。IO調度算法將連續的bio合并成一個request,然后可以改善讀寫磁盤的性能。

遍歷bio的時候,就可以定義一個transfer函數來完成bio的數據轉移了。Rq_data_dir獲得從request中得到數據傳輸方向,返回值0表示從設備讀數據,非0表示寫數據。Transfer中就可以通過簡單的memcpy來完成數據拷貝:
static int vmem_transfer(struct vmem_device *vdev, uint64_t pos, ssize_t size, void *buffer, int write)
{
if(write)
memcpy(vdev->buf+pos, buffer, size);
else
memcpy(buffer, vdev->buf+pos, size);
return 0;
}
如果一個請求不是文件系統請求,就將請求傳遞給end_request。當處理非文件系統請求時,傳遞0表示不能成功完成該請求。
2.4 設備初始化
在塊設備初始化階段,與字符設備類似。基本過程如下:
1) 注冊塊設備
vmem_major=register_blkdev(0, "VMEM");
第一個參數0表示由內核自動分配主設備號,如果成功注冊就返回這個主設備號,如果注冊失敗就返回負值。
2) 定義設備結構體
這個設備結構體是自己定義的,一般包含gendisk、設備號、請求隊列等。
struct vmem_device {
struct gendisk *disk;
struct request_queue *que;
void *buf;
spinlock_t lock;
ssize_t size;
};
3) vmem_dev結構體分配和buf分配
vdev=kzalloc(sizeof(struct vmem_device), GFP_KERNEL);
if(!vdev){
printk(KERN_WARNING "vmem_device: unable to allocate mem/n");
goto out;
}
vdev->size=BLK_SIZE;
vdev->buf=vmalloc(vdev->size);
if(vdev->buf==NULL){
printk(KERN_WARNING "failed to vmalloc vdev->buf/n");
goto out_dev;
}
Buf就是一個虛擬的磁盤。
4) 初始化請求隊列
vdev->que=blk_init_queue(vmem_request, &vdev->lock);
5) 分配磁盤
disk=alloc_disk(1);
6) 填充vmem_dev結構體中的信息。
vdev->disk=disk;
disk->major=vmem_major;
disk->first_minor=1;
disk->fops=&vmem_fops;
disk->queue=vdev->que;
disk->private_data=vdev;
sprintf(disk->disk_name, "VMEM");
7)注冊磁盤
set_capacity(disk, BLK_SIZE/SECTOR_SIZE);
add_disk(disk);
3.實驗
我們注冊驅動,并看到在dev下面有VMEM設備,這個就是我們的虛擬磁盤設備文件。
然后將其格式化為ext2文件系統:
接下來我們就可以將其掛載并創建文件了。
總結
最后總結一下linux中block驅動的編寫過程:
1) 填充request函數,這個函數在請求隊列初始化中將喝隊列綁定;
2) 定義vdev結構體,其中包含gendisk、request_queue等結構;
3) 定義設備初始化函數,并完成對disk的分配,注冊,請求隊列初始化工作;
4) 填充block_device_operations結構體;
5) 定義設備退出函數,主要是釋放結構體;
編輯:hfy
-
Linux
+關注
關注
88文章
11758瀏覽量
219009 -
驅動程序
+關注
關注
19文章
869瀏覽量
50457 -
Block
+關注
關注
0文章
26瀏覽量
15154
發布評論請先 登錄
Rockchip CIF驅動深度解析:從架構設計到電源計數補丁修復
深度解析ES8389/ES8390/音頻芯片Linux驅動(Linux6.1內核)
Linux驅動開發的必備知識
【迅為工業RK3568穩定可靠】itop-3568開發板Linux驅動開發實戰:RK3568內核模塊符號導出詳解
【免費送書】成為硬核Linux開發者:《Linux 設備驅動開發(第 2 版)》
【書籍評測活動NO.67】成為硬核Linux開發者:《Linux 設備驅動開發(第 2 版)》
Linux基礎命令which詳解
Linux系統中網絡配置詳解
itop-3568開發板驅動開發指南-實驗程序的編寫
Linux環境再升級:PLIN驅動程序正式發布
linux中block驅動的編寫詳解
評論