内存映射文件是一种将文件内容直接映射到进程地址空间的高效io机制,其优点包括1.减少系统调用次数2.利用页面缓存自动同步数据3.支持随机访问适合处理大文件。windows下使用步骤为:1.createfile打开文件2.createfilemapping创建映射对象3.mapviewoffile映射到进程空间。linux下则通过1.open打开文件2.fstat获取大小3.mmap进行映射。适用场景有:1.只读访问大文件如日志分析2.随机访问文件内容3.多进程共享通信4.io密集型任务提升性能。不建议用于频繁写入需立即落盘或内存受限的嵌入式环境。
在处理大文件时,传统的文件读写方式效率往往不高,尤其是频繁的系统调用和数据拷贝会带来较大的性能损耗。而c++中使用内存映射文件(Memory-Mapped File)是一种非常高效的IO方案,它通过将文件直接映射到进程的地址空间,让程序像访问内存一样操作文件内容。
什么是内存映射文件?
内存映射文件是操作系统提供的一种机制,它将一个文件或一部分文件的内容映射到进程的虚拟地址空间中。这样一来,程序就可以像访问普通内存一样读写文件内容,无需调用 read() 或 write() 等函数。
这种方式的优点包括:
立即学习“C++免费学习笔记(深入)”;
- 减少系统调用次数
- 利用操作系统的页面缓存机制,自动管理磁盘与内存的数据同步
- 支持随机访问,特别适合处理大文件
如何在windows下使用内存映射文件?
Windows 提供了一套API来支持内存映射文件,主要涉及以下几个步骤:
- 使用 CreateFile() 打开目标文件
- 使用 CreateFileMapping() 创建文件映射对象
- 使用 MapViewOfFile() 将文件映射到当前进程的地址空间
示例代码如下:
HANDLE hFile = CreateFile(L"largefile.bin", GENERIC_READ, 0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL); HANDLE hMapFile = CreateFileMapping(hFile, NULL, PAGE_READONLY, 0, 0, NULL); LPVOID pData = MapViewOfFile(hMapFile, FILE_MAP_READ, 0, 0, 0); // 此时pData指向的就是整个文件的内容,可以像指针一样访问 char* buffer = static_cast<char*>(pData); for (size_t i = 0; i < fileSize; ++i) { // 处理buffer[i] } // 最后记得释放资源 UnmapViewOfFile(pData); CloseHandle(hMapFile); CloseHandle(hFile);
需要注意的是:
- 如果要修改文件内容,需要以可写权限创建映射对象
- 映射完成后不要忘记调用 UnmapViewOfFile 和关闭句柄,避免资源泄漏
linux下如何实现内存映射文件?
Linux 下使用的是 POSIX 的 mmap 接口,流程更简洁一些:
- 打开文件:open()
- 获取文件大小:lseek() 或 fstat()
- 调用 mmap() 进行映射
示例代码如下:
int fd = open("largefile.bin", O_RDONLY); struct stat sb; fstat(fd, &sb); char* addr = static_cast<char*>(mmap(NULL, sb.st_size, PROT_READ, MAP_PRIVATE, fd, 0)); // 使用addr访问文件内容 for (size_t i = 0; i < sb.st_size; ++i) { // 处理addr[i] } // 释放资源 munmap(addr, sb.st_size); close(fd);
几个关键点:
- PROT_READ 表示只读,如果要写入则改为 PROT_READ | PROT_WRITE
- MAP_PRIVATE 表示私有映射,不会影响原始文件;若想写回文件,可以用 MAP_SHAred
- 记得最后调用 munmap 来解除映射
内存映射适用于哪些场景?
内存映射并不是万能的,但它在以下几种场景中表现非常出色:
- 只读访问大文件:比如日志分析、索引构建等
- 随机访问文件内容:不需要顺序读取整个文件
- 多个进程共享文件内容:通过共享映射实现高效通信
- 提升性能瓶颈明显的IO密集型任务
但不建议用于:
- 文件频繁修改且要求立即落盘的场景
- 需要严格控制内存使用的嵌入式环境
基本上就这些。内存映射文件是一个很实用的技术,尤其在处理大文件时,可以显著减少IO开销,提高程序响应速度。虽然不同平台的实现略有差异,但逻辑大致相同,掌握之后很容易复用。