http://blog.csdn.net/mfcing/article/details/43734445
2015.02
文件太大,沒法一次讀取到內(nèi)存進行操作?Windows提供了內(nèi)存映射API來讀取大文件,與普通文件讀取相比,內(nèi)存映射效率比較高。
從代碼層面上看,從硬盤上將文件讀入內(nèi)存,都要經(jīng)過文件系統(tǒng)進行數(shù)據(jù)拷貝,并且數(shù)據(jù)拷貝操作是由文件系統(tǒng)和硬件驅(qū)動實現(xiàn)的,理論上來說,拷貝數(shù)據(jù)的效率是一樣的。但是通過內(nèi)存映射的方法訪問硬盤上的文件,效率要比read和write系統(tǒng)調(diào)用高,這是為什么呢?原因是read()是系統(tǒng)調(diào)用,其中進行了數(shù)據(jù)拷貝,它首先將文件內(nèi)容從硬盤拷貝到內(nèi)核空間的一個緩沖區(qū),如圖2中過程1,然后再將這些數(shù)據(jù)拷貝到用戶空間,如圖2中過程2,在這個過程中,實際上完成了 兩次數(shù)據(jù)拷貝 ;而mmap()也是系統(tǒng)調(diào)用,如前所述,mmap()中沒有進行數(shù)據(jù)拷貝,真正的數(shù)據(jù)拷貝是在缺頁中斷處理時進行的,由于mmap()將文件直接映射到用戶空間,所以中斷處理函數(shù)根據(jù)這個映射關(guān)系,直接將文件從硬盤拷貝到用戶空間,只進行了 一次數(shù)據(jù)拷貝 。因此,內(nèi)存映射的效率要比read/write效率高。(引用自http://blog.csdn.net/mg0832058/article/details/5890688)
本文主要以代碼的方式演示讀取大文件的API使用,順帶測試了緩沖區(qū)大小與寫文件速度的關(guān)系,以及繪制文件寫入速率圖。
- HANDLE hFile = NULL;
- HANDLE hFileMap = NULL;
- LARGE_INTEGER liResult;
- hFile = CreateFile(L"e:\\1.zip", GENERIC_READ|GENERIC_WRITE, 0, 0, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
- if ( INVALID_HANDLE_VALUE == hFile )
- {
- goto __TestEnd;
- }
- //創(chuàng)建文件映射
- hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL);
- if ( NULL == hFileMap )
- {
- goto __TestEnd;
- }
- //得到系統(tǒng)分配粒度
- SYSTEM_INFO si;
- GetSystemInfo(&si);
- DWORD dwSysGran = si.dwAllocationGranularity;
- //得到文件大小
- LARGE_INTEGER lFileSize;
- GetFileSizeEx(hFile, &lFileSize);
- CloseHandle(hFile);
- hFile = INVALID_HANDLE_VALUE;
- //性能方面,都知道容器大小了就先初始化大小,免得用vector自己的擴容機制浪費CPU
- vecTime.resize(200, 0);
- char szPath[MAX_PATH] = {0};
- for ( int i=1; i<=200; ++i )
- {
- __int64 qwFileOffset = 0;
- __int64 qwFileSize = lFileSize.QuadPart;
- DWORD dwDataLen = 0;
- FILE* fp = NULL;
- DWORD dwBlockBytes = i*dwSysGran;
- if ( lFileSize.QuadPart<dwBlockBytes )
- dwBlockBytes = lFileSize.QuadPart;
- sprintf(szPath, "d:\\test\\%d.zip", i);
- //DeleteFileA(pFile);
- {
- //PERFOR_TEST("復(fù)制文件測試4KB_1");
- CPerforTest test(&liResult);
- fp = fopen(szPath, "ab+");
- while( qwFileSize>0 )
- {
- dwDataLen = qwFileSize<dwBlockBytes? qwFileSize : dwBlockBytes;
- LPBYTE lpData = (LPBYTE)MapViewOfFile(hFileMap, FILE_MAP_READ|FILE_MAP_WRITE, (DWORD)(qwFileOffset>>32),
- (DWORD)(qwFileOffset&0xffffffff), dwDataLen);
- if ( NULL == lpData )
- break;
- //把文件復(fù)制到另一個目錄下,寫文件操作
- //fp = fopen(szPath, "ab+");//追加方式寫入文件,不存在則創(chuàng)建
- fwrite(lpData, dwDataLen, 1, fp);
- //fclose(fp);
- UnmapViewOfFile(lpData);
- qwFileOffset += dwDataLen;
- qwFileSize -= dwDataLen;
- }
- fclose(fp);
- }
- vecTime[i-1] = liResult.LowPart/300;
- Sleep(100);
- }
- __TestEnd:
- DWORD dwError = GetLastError();
- //內(nèi)核句柄清理工作
- if ( hFile != INVALID_HANDLE_VALUE )
- {
- CloseHandle(hFile);
- hFile = INVALID_HANDLE_VALUE;
- }
- if ( hFileMap )
- {
- CloseHandle(hFileMap);
- hFileMap = NULL;
- }
值得注意的是,內(nèi)存映射大小必須是系統(tǒng)分配大小基數(shù)的倍數(shù)。每次讀完一段,我們就把這個文件指針位置qwFileOffset
后移一段直到讀完。還有就是,必須是有多少讀多少,最后一次往往其空間比正常分配的小,我們需要計算分配空間:dwDataLen = qwFileSize<dwBlockBytes? qwFileSize : dwBlockBytes;不然的話,分配空間大于文件剩余大小,MapViewOfFile就會失敗。統(tǒng)計繪制效率:
- //一次冒泡排序找到最小的那個數(shù)及其索引,索引很重要,我們可以知道每次寫入多大時效率最高
- DWORD dwMinTime = vecTime[0];
- size_t nIndex = 0;
- for ( size_t i=1; i<vecTime.size(); ++i )
- {
- if ( vecTime[i]<dwMinTime )
- {
- dwMinTime = vecTime[i];
- nIndex = i;
- }
- }
- g_dwMinTime = dwMinTime;
- g_nBuffSize = (nIndex+1)*dwSysGran/1024;//換算成KB
- //通知窗口刷新繪制
- g_bInit = true;
- InvalidateRect(hWnd, NULL, TRUE);
- BringWindowToTop(hWnd);
- return 0;
繪制效率圖:
- case WM_SIZE:
- {
- g_bSizeChange = true;
- break;
- }
- case WM_PAINT:
- {
- hdc = BeginPaint(hWnd, &ps);
- // TODO: 在此添加任意繪圖代碼...
- RECT rcClient;
- GetClientRect(hWnd, &rcClient);
- if ( g_bSizeChange )
- {//窗口大小改變了,需要我們重新創(chuàng)建對應(yīng)大小的緩沖DC
- if ( g_hMemDC )
- {
- DeleteDC(g_hMemDC);
- DeleteObject(g_hMemBmp);
- }
- g_hMemDC = CreateCompatibleDC(hdc);
- g_hMemBmp= CreateCompatibleBitmap(hdc, rcClient.right-rcClient.left, \
- rcClient.bottom-rcClient.top);
- SelectObject(g_hMemDC, g_hMemBmp);
- g_bSizeChange = false;
- }
- if ( g_bInit )
- {
- HPEN hOldPen = (HPEN)SelectObject(g_hMemDC, g_hPen);
- POINT pt;
- MoveToEx(g_hMemDC, 0, 0, &pt);
- for ( size_t i=0; i<vecTime.size(); ++i )
- {
- LineTo(g_hMemDC, (i+1)*5, rcClient.bottom-vecTime[i]);
- }
- ::SelectObject(g_hMemDC, hOldPen);
- wchar_t szText[100] = {0};
- swprintf(szText, L"緩沖區(qū)為:%u KB時,寫入文件用時最短:%u", g_nBuffSize, g_dwMinTime);
- SetTextColor(g_hMemDC, RGB(255,0,0));
- SetBkMode(g_hMemDC, TRANSPARENT);
- RECT rcText = {10,0,600,40};
- DrawText(g_hMemDC, szText, wcslen(szText), &rcText, DT_LEFT|DT_VCENTER|DT_SINGLELINE);
- }
- ::BitBlt(hdc, 0, 0, rcClient.right, rcClient.bottom, g_hMemDC, 0, 0, SRCCOPY);
- EndPaint(hWnd, &ps);
- }
- break;
由于循環(huán)執(zhí)行200次,I/O操作相對耗時,為了防止把電腦卡死了,就在每次寫完Sleep(100);繪制部分的視圖大小有限有的區(qū)域無法繪制出來就會出現(xiàn)斷線,繪制結(jié)果圖:
我的測試文件是一個大小為15M左右的文件,緩沖區(qū)變化范圍:1×63KB----200×63KB,這里最優(yōu)的竟然是每次寫入大約1.7M數(shù)據(jù)時。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。