【考纲内容】
【知识框架】
【复习提示】
堆排序、快速排序和归并排序是本章的重难点。读者应深入掌握 各种排序算法的思想、排序过程(能动手模拟)和特征(初态的影响、复杂度、稳定性、适用性等),通常以选择题的形式考查不同算法之间的对比。 此外,对于一些常用排序算法的关键代码,要达到熟练编写的程度;看到某特定序列,读者应具有选择最优排序算法(根据排序算法特征)的能力。
排序,就是重新排列表中的元素,使表中的元素满足按关键字有序的过程。为了查找方便,通常希望计算机中的表是按关键字有序的。排序的确切定义如下:
算法的稳定性。若待排序表中有两个元素
注意:对于不稳定的排序算法,只需举出一组关键字的实例,说明它的不稳定性即可
在排序过程中,根据数据元素是否完全在内存中,可将排序算法分为两类:
一般情况下,内部排序算法在执行过程中都要进行两种操作:比较和移动。通过比较两个关键字的大小,确定对应元素的前后关系,然后通过移动元素以达到有序。当然,并非所有的内部排序算法都要基于比较操作,事实上,基数排序就不基于比较。
每种排序算法都有各自的优缺点,适合在不同的环境下使用,就其全面性能而言,很难提出一种被认为是最好的算法。 通常可以将排序算法分为插入排序、交换排序、选择排序、归并排序和基数排序五大类,之后会分别进行详细介绍。 内部排序算法的性能取决于算法的时间复杂度和空间复杂度,而时间复杂度一般是由比较和移动的次数决定的。
注意:大多数的内部排序算法只适用于顺序存储的线性表。
插入排序是一种简单直观的排序方法,其基本思想是每次将一个待排序的记录按其关键字大小插入前面已排好序的子序列,直到全部记录插入完成。由插入排序的思想可以引申出三个重要的排序算法:直接插入排序、折半插入排序和希尔排序。
根据上面的插入排序思想,不难得出一种最简单也最直观的直接插入排序算法。假设在排序过程中,待排序表 L[1...n]
在某次排序过程中的某一时刻状态如下:
要将元素 L(i)
插入已有序的子序列 L[1...i - 1]
,需要执行以下操作(为避免混淆,下面用 L[]
表示-个表,而用 L()
表示一个元素):
L(i)
在 L[1...i - 1]
中的插入位置 k
L[k...i - 1]
中的所有元素依次后移一个位置L(i)
复制到 L(k)
。为了实现对 L[1...n]
的排序,可以将 L(2) ~ L(n)
依次插入前面已排好序的子序列,初始 L[1]
可以视为是一个已排好序的子序列。上述操作执行 n - 1 次就能得到一个有序的表。插入排序在实现上通常采用就地排序(空间复杂度为
下面是直接插入排序的代码,其中再次用到了我们前面提到的“哨兵”(作用相同):
xxxxxxxxxx
void InsertSort(ElemType A[], int len) { // A[0] 是"哨兵", A[1] ~ A[len] 才是数组的真正内容
int i, j;
for(i = 2; i <= len; i++) { // 依次将 A[2] ~ A[n] 插入前面已排序序列
if(A[i] < A[i - 1]) { // 若 A[i] 关键码小于其前驱,将 A[i] 插入有序表
A[0] = A[i]; // 复制为哨兵,A[0] 不存放元素
for(j = i - 1; A[0] < A[j]; j--) // 从后往前查找待插入位置
A[j + 1] = A[j]; // 向后挪位
A[j + 1] = A[0]; // 复制到插入位置
}
}
}
假定初始序列为
直接插入排序算法的性能分析如下:
空间效率:仅使用了常数个辅助单元,因而空间复杂度为
时间效率:在排序过程中,向有序子表中逐个地插入元素的操作进行了 n-1 趟,每趟操作都分为比较关键字和移动元素,而比较次数和移动次数取决于待排序表的初始状态。
因此,直接插入排序算法的时间复杂度为
稳定性:由于每次插入元素时总是从后向前先比较再移动,所以不会出现相同元素相对位置发生变化的情况,即直接插入排序是一个稳定的排序方法
适用性:直接插入排序算法适用于顺序存储和链式存储的线性表。为链式存储时,可以从前往后查找指定元素的位置。
从直接插入排序算法中,不难看出每趟插入的过程中都进行了两项工作:
注意到在该算法中,总是边比较边移动元素。下面将比较和移动操作分离,即先折半查找出元素的待插入位置,然后统一地移动待插入位置之后的所有元素。当排序表为顺序表时,可以对直接插入排序算法做如下改进:由于是顺序存储的线性表,所以查找有序子表时可以用折半查找来实现。确定待插入位置后,就可统一地向后移动元素。算法代码如下:
xxxxxxxxxx
void InsertSort(ElemType A[], int len) {
int i, j, low, high, mid;
for(i = 2; i <= n; i++) { // 依次将 A[2]~A[n]插入前面的已排序序列
A[0] = A[i]; // 将 A[i] 暂存到 A[0]
low = 1; high = i - 1; // 设置折半查找的范围
while(low <= high) { // 折半查找(默认递增有序)
mid = (low + high) / 2; // 取中间点
if(A[mid] > A[0])
high = mid - 1; // 查找左半子表
else
low = mid + 1; // 查找右半子表
}
for(j = i - 1; j >= high + 1; j--)
A[j + 1] = A[j]; // 统一后移元素,空出插入位置
A[high + 1] = A[0]; // 插入操作
}
}
从上述算法中,不难看出折半插入排序仅减少了比较元素的次数,约为
从前面的分析可知,直接插入排序算法的时间复杂度为
希尔排序的基本思想是:先将待排序表分割成若干形如
希尔排序的过程如下:先取一个小于 n 的步长
具有较好的局部有序性,故可以很快得到最终结果。到目前为止,尚未求得一个最好的增量序列。仍以 8.2.1 节的关键字为例,假定第一趟取增量
希尔排序算法的代码如下:
xxxxxxxxxx
void ShellSort(ElemType A[], int len) {
// A[0] 只是暂存单元,不是哨兵,当 j <=0 时,插入位置已到
int dk, i, j;
for(dk = n / 2; dk >= 1; dk = dk / 2) { // 增量变化(无统一规定)
for(i = dk + 1; i <= n; i++) {
if(A[i] < A[i - dk]) { // 需将 A[i] 插入有序增量子表
A[0] = A[i]; // 暂存在 A[0]
for(j = i - dk; j > 0 && A[0] < A[j]; j -= dk)
A[j + dk] = A[j]; // 记录后移,查找插入的位置
A[j + dk] = A[0]; // 插入
}
}
}
}
希尔排序算法的性能分析如下:
所谓交换,是指根据序列中两个元素关键字的比较结果来对换这两个记录在序列中的位置。基于交换的排序算法很多,本书主要介绍冒泡排序和快速排序,其中冒泡排序算法比较简单,一般不会单独考查,通常会重点考查快速排序算法的相关内容。
冒泡排序的基本思想是:从后往前(或从前往后)两两比较相邻元素的值,若为逆序(即 A[i - 1] > A[i]
),则交换它们,直到序列比较完。我们称它为第一趟冒泡,结果是将最小的元素交换到待排序列的第一个位置(或将最大的元素交换到待排序列的最后一个位置),关键字最小的元素如气泡一般逐渐往上"漂浮”直至“水面”(或关键字最大的元素如石头一般下沉至水底)。下一趟冒泡时,前一趟确定的最小元素不再参与比较,每趟冒泡的结果是把序列中的最小元素(或最大元素)放到了序列的最终位置……这样最多做 n - 1 趟冒泡就能把所有元素排好序。
图 8.3 所示为冒泡排序的过程,
第一趟冒泡时:
冒泡排序算法的代码如下:
xxxxxxxxxx
void BubbleSort(ElemType A[], int len) {
int tmp;
for(int i = 0; i < len - 1; i++) {
bool flag = false; // 表示本趟冒泡是否发生交换的标志
for(int j = n - 1; j > i; j--) { // 一趟冒泡过程
if(A[j - 1] > A[j]) { // 若为逆序
tmp = A[j - 1]; // 交换
A[j - 1] = A[j];
A[j] = tmp;
flag = true;
}
}
if(flag == false)
return; // 本趟遍历后没有发生交换,说明表已经有序
}
}
冒泡排序的性能分析如下:
空间效率:仅使用了常数个辅助单元,因而空间复杂度为
时间效率:
当初始序列有序时,显然第一趟冒泡后 flag 依然为 false(本趟没有元素交换),从而直接跳出循环,比较次数为 n - 1,移动次数为 0,从而最好情况下的时间复杂度为
从而,最坏情况下的时间复杂度为
稳定性:由于 i > j 且 A[i] == A[j]
时,不会发生交换,因此冒泡排序是一种稳定的排序方法。
注意:冒泡排序中所产生的有序子序列一定是全局有序的(不同于直接插入排序),也就是说,有序子序列中的所有元素的关键字一定小于(或大于)无序子序列中所有元素的关键字,这样每趟排序都会将一个元素放置到其最终的位置上。
快速排序的基本思想是基于分治法的:在待排序表 L[1...n]
中任取一个元素 pivot
作为枢轴(或称基准,通常取首元素),通过一趟排序将待排序表划分为独立的两部分 L[1...k - 1]
和 L[k + 1...n]
,使得 L[1..k - 1]
中的所有元素小于 pivot
,L[k + 1...n]
中的所有元素大于或等于 pivot
,则 pivot
\放在了其最终位置 L(k)
上,这个过程称为一次划分。然后分别递归地对两个子表重复上述过程,直至每部分内只有一个元素或空为止,即所有元素放在了其最终位置上。
一趟快速排序的过程是一个交替搜索和交换的过程,下面通过实例来介绍,附设两个指针 i 和 j,初值分别为 low 和 high,取第一个元素 49 为枢轴赋值到变量 pivot。
指针 j
从 high
往前搜索找到第一个小于枢轴的元素 27,将 27 交换到 i
所指位置
指针 i
从 low
往后搜索找到第一个大于枢轴的元素 65,将 65 交换到 j
所指位置
指针 j
继续往前搜索找到小于枢轴的元素 13,将 13 交换到 i
所指位置
指针 i
继续往后搜索找到大于枢轴的元素 97,将 97 交换到 j
所指位置
指针 j
继续往前搜索小于枢轴的元素,直至 i == j
此时,指针 i(==j)
之前的元素均小于 49,指针 i 之后的元素均大于或等于 49,将 49 放在 i 所指位置即其最终位置,经过一趟划分,将原序列分割成了前后两个子序列
按照同样的方法对各子序列进行快速排序,若待排序列中只有一个元素,显然已有序
对算法的最好理解方式是手动地模拟一遍这些算法。
假设划分算法已知,记为 Partition()
,返回的是上述的 k
,注意到 L(k)
已放在其最终位置,因此可以先对表进行划分,而后对两个表调用同样的排序操作。因此可以递归地调用快速排序算法进行排序,具体的程序结构如下:
xxxxxxxxxx
void QuickSort(ElemType A[], int low, int high) {
if(low < high) { // 递归跳出的条件
// Partition() 就是划分操作,将表 A[low...high] 划分为满足上述条件的两个子表
int pivotpos = Partition(A, low, high); // 划分
QuickSort(A, low, pivotpos - 1); // 依次对两个子表进行递归排序
QuckSort(A, pivotpos + 1, high);
}
}
从上面的代码不难看出快速排序算法的关键在于划分操作,同时快速排序算法的性能也主要取决于划分操作的好坏。从快速排序算法提出至今,已有许多不同的划分操作版本,但考研所考查的快速排序的划分操作基本以严蔚敏的教材《数据结构》为主。假设每次总以当前表中第一个元素作为枢轴来对表进行划分,则将表中比枢轴大的元素向右移动,将比枢轴小的元素向左移动,使得一趟 Partition()
操作后,表中的元素被枢轴一分为二。代码如下:
xxxxxxxxxx
int Partition(ElemType A[], int low, int high) { // 一趟划分
ELemType pivot = A[low]; // 将当前表中第一个元素设为枢轴,对表进行划分
while(low < high) { // 循环跳出条件
while(low < high && A[high] >= pivot) high--;
A[low] = A[high]; // 将比枢轴小的元素移动到左端
while(low < high && A[low] <= pivot) low++;
A[high] = A[low]; // 将比枢轴大的元素移动到右端
}
A[low] = pivot; // 枢轴元素存放到最终位置
return low; // 返回存放枢轴的最终位置
}
快速排序算法的性能分析如下:
空间效率:由于快速排序是递归的,需要借助一个递归工作栈来保存每层递归调用的必要信息,其容量与递归调用的最大深度一致
最好情况下为
时间效率:快速排序的运行时间与划分是否对称有关,快速排序的最坏情况发生在两个区域分别包含 n - 1 个元素和 0 个元素时,这种最大限度的不对称性若发生在每层递归上,即对应于初始排序表基本有序或基本逆序时,就得到最坏情况下的时间复杂度为
Partition()
可能做到最平衡的划分,得到的两个子问题的大小都不可能大于 n/2,在这种情况下,快速排序的运行速度将大大提升,此时,时间复杂度为 稳定性:在划分算法中,若右端区间有两个关键字相同,且均小于基准值的记录,则在交换到左端区间后,它们的相对位置会发生变化,即快速排序是一种不稳定的排序方法。例如,表 L={3, 2, 2},经过一趟排序后 L={2, 2, 3},最终排序序列也是 L={2, 2, 3},显然,2 与 2 的相对次序已发生了变化。
注意:在快速排序算法中,并不产生有序子序列,但每趟排序后会将上一趟划分的各个无序子表的枢轴(基准)元素放到其最终的位置上。
选择排序的基本思想是:每一趟(如第
根据上面选择排序的思想,可以很直观地得出简单选择排序算法的思想:假设排序表为 L[l...n]
,第 L[i...n]
中选择关键字最小的元素与 L(i)
交换,每一趟排序可以确定一个元素的最终位置,这样经过
xxxxxxxxxx
void SelectSort(ElemType A[], int n) {
for(int i = 0; i < n - 1; i++) { // 一共进行 n - 1 趟
int min = i; // 记录最小元素位置
for(int j = i + 1; j < n; j++) { // 在 A[i...n - 1]中选择最小的元素
if(A[j] < A[min])
min = j; // 更新最小元素位置
if(min != i)
swap(A[i], A[min]); // 封装的 swap() 函数共移动元素 3 次
}
}
}
简单选择排序算法的性能分析如下:
堆的定义如下,n 个关键字序列 L[1...n]
称为堆,当且仅当该序列满足:
L(i) >= L(2i) && L(i) >= L(2i + 1)
L(i) <= L(2i) && L(i) <= L(2i + 1)
可以将堆视为一棵完全二叉树 满足条件 1 的堆称为大根堆(大顶堆),大根堆的最大元素存放在根结点,且其任意一个非根结点的值小于或等于其双亲结点值 满足条件 2 的堆称为小根堆(小顶堆),小根堆的定义刚好相反,根结点是最小元素 下图所示为一个大根堆。
堆排序的思路很简单:首先将存放在 L[1...n]
中的 n 个元素建成初始堆,由于堆本身的特点(以大顶堆为例),堆顶元素就是最大值。输出堆顶元素后,通常将堆底元素送入堆顶,此时根结点已不满足大顶堆的性质,堆被破坏,将堆顶元素向下调整使其继续保持大顶堆的性质,再输出堆顶元素。如此重复,直到堆中仅剩一个元素为止。可见堆排序需要解决两个问题:
堆排序的关键是构造初始堆。n 个结点的完全二叉树,最后一个结点是第
如图 8.5 所示,
初始时调整 L(4)
子树,09 < 32,交换,交换后满足堆的定义
向前继续调整 L(3)
子树,78 < 左右孩子的较大者 87,交换,交换后满足堆的定义
向前调整 L(2)
子树,17 < 左右孩子的较大者 45,交换后满足堆的定义
向前调整至根结点 L(1)
,53 < 左右孩子的较大者 87,交换,交换后破坏了 L(3)
子树的堆,采用上述方法对 L(3)
进行调整,53 < 左右孩子的较大者 78,交换,至此该完全二叉树满足堆的定义。
输出堆顶元素后,将堆的最后一个元素与堆顶元素交换,此时堆的性质被破坏,需要向下进行筛选。
将 09 和左右孩子的较大者 78 交换,交换后破坏了 L(3)
子树的堆,继续对 L(3)
子树向下筛选,将 09 和左右孩子的较大者 65 交换,交换后得到了新堆,调整过程如图 8.6 所示。
下面是建立大根堆的算法:
xxxxxxxxxx
void BuildMaxHeap(ElemType A[], int len) {
for(int i = len / 2; i > 0; i--) // 从 i=[n/2]~1,反复调整堆
HeadAdjust(A, i, len);
}
void HeadAdjust(ElemType A[], int k, int len) {
// 函数 HeadAdjust 将元素 k 为根的子树进行调整
A[0] = A[k]; // A[0] 暂存子树的根结点
for(int i = 2 * k; i <= len; i *= 2){ // 沿 key 较大的子结点向下筛选
if(i < len && A[i] < A[i + 1])
i++; // 取 key 较大的子结点的下标
if(A[0] >= A[i]) break; // 筛选结束
else {
A[k] = A[i]; // 将 A[i] 调整到双亲结点上
k = i; // 修改 k 值,以便继续向下筛选
}
}
A[k] = A[0]; // 被筛选结点的值放入最终位置
}
调整的时间与树高有关,为
xxxxxxxxxx
void HeapSort(ElemType A[], int len) {
BuildMaxHeap(A, len); // 初始建堆
for(int i = len; i > 1; i--) { // n-1 趟的交换和建堆过程
Swap(A[i], A[1]); // 输出堆顶元素(和堆底元素交换)
HeadAdjust(A, 1, i - 1); // 调整,把剩余的 i - 1 个元素整理成堆
}
}
同时,堆也支持插入操作。对堆进行插入操作时,先将新结点放在堆的末端,再对这个新结点向上执行调整操作。大根堆的插入操作示例如图 8.7 所示。
堆排序适合关键字较多的情况。例如,在 1 亿个数中选出前 100 个最大值?首先使用一个大小为 100 的数组,读入前 100 个数,建立小顶堆,而后依次读入余下的数,若小于堆顶则舍弃,否则用该数取代堆顶并重新调整堆,待数据读取完毕,堆中 100 个数即为所求。
堆排序算法的性能分析如下:
归并排序与上述基于交换、选择等排序的思想不一样,“归并” 的含义是将两个或两个以上的有序表合并成一个新的有序表。假定待排序表含有 n 个记录,则可将其视为 n 个有序的子表,每个子表的长度为 1,然后两两归并,得到
图 8.8 所示为 2 路归并排序的一个例子,经过三趟归并后合并成了有序序列。
Merge()
的功能是将前后相邻的两个有序表归并为一个有序表。设两段有序表 A[low...mid]
、A[mid + 1...high]
存放在同一顺序表中的相邻位置,先将它们复制到辅助数组 B 中。每次从对应B中的两个段取出一个记录进行关键字的比较,将较小者放入 A 中,当数组 B 中有一段的下标超出其对应的表长(即该段的所有元素都已复制到 A 中)时,将另一段中的剩余部分直接复制到 A 中。算法如下:
xElemType *B = (ElemType *)malloc((n + 1) * sizeof(ELemType)); // 辅助数组 B
void Merge(ElemType A[], int low, int mid, int high) {
//表 A 的两段 A[low...mid] 和 A[mid + 1...high] 各自有序,将它们合并成一个有序表
int i, j, k;
for(k = low; k < high; k++)
B[k] = A[k]; // 将 A 中所有元素复制到 B 中
for(i = low, j = mid + 1, k = i; i <= mid && j <= high; k++) {
if(B[i] <= B[j]) // 比较 B 的左右两段中的元素
A[k] = B[i++]; // 将较小值复制到 A 中
else
A[k] = B[j++];
}
while(i <= mid) A[k++] = B[i++]; // 若第一个表未检测完,复制
while(j <= high) A[k++] = B[j++]; // 第二个表未检测完,复制
}
注意:上面的代码中,最后两个 while 循环只有一个会执行。
一趟归并排序的操作是,调用 merge()
,将 L[1...n]
中前后相邻且长度为 h 的有序段进行两两归并,得到前后相邻、长度为 2h 的有序段,整个归并排序需要进行
递归形式的 2 路归并排序算法是基于分治的,其过程如下。
xxxxxxxxxx
void MergeSort(ElemType A[], int low, int high) {
if(low < high) {
int mid = (low + high) / 2; // 从中间划分两个子序列
MergeSort(A, low, mid); // 对左侧子序列进行递归排序
MergeSort(A, mid + 1, high); // 对右侧子序列进行递归排序
Merge(A, low, mid, high); // 归并
}
}
2 路归并排序算法的性能分析如下:
Merge()
操作中,辅助空间刚好为 n 个单元,所以算法的空间复杂度为 Merge()
操作不会改变相同关键字记录的相对次序,所以 2 路归并排序算法是一种稳定的排序方法。注意:一般而言,对于 N 个元素进行 k 路归并排序时,排序的趟数 m 满足
;从而 ,又考虑到 m 为整数,所以 。这和前面的 2 路归并是一致的。
基数排序是一种很特别的排序方法,它不基于比较和移动进行排序,而基于关键字各位的大小进行排序。基数排序是一种借助多关键字排序的思想对单逻辑关键字进行排序的方法。
假设长度为 n 的线性表中每个结点 a 的关键字由 d 元组
为实现多关键字排序,通常有两种方法:第一种是最高位优先(MSD)法,按关键字位权重递减依次逐层划分成若干更小的子序列,最后将所有子序列依次连接成一个有序序列。第二种是最低位优先(LSD)法,按关键字位权重递增依次进行排序,最后形成一个有序序列。
下面描述以
对
分配:开始时,把
收集:把
通常采用链式基数排序,假设对如下 10 个记录进行排序:
每个关键字是 1000 以下的正整数,基数
第二趟分配用次低位子关键字
第三趟分配用最高位子关键字
基数排序算法的性能分析如下:
前面讨论的排序算法很多,对各种排序算法的比较是考研常考的内容。一般基于三个因素进行对比:时空复杂度、算法的稳定性、算法的过程特征。
从时间复杂度看:简单选择排序、直接插入排序和冒泡排序平均情况下的时间复杂度都为
从空间复杂度看:简单选择排序、插入排序、冒泡排序、希尔排序和堆排序都仅需借助常数个辅助空间。
快速排序需要借助一个递归工作栈,平均大小为
从稳定性看:插入排序、冒泡排序、归并排序和基数排序是稳定的排序方法,
而简单选择排序、快速排序、希尔排序和堆排序都是不稳定的排序方法。
平均时间复杂度为
从过程特征看:采用不同的排序算法,在一次循环或几次循环后的排序结果可能是不同的,考研题中经常出现给出一个待排序的初始序列和已经部分排序的序列,问其采用何种排序算法。这就要对各类排序算法的过程特征十分熟悉,如冒泡排序和堆排序在每趟处理后都能产生当前的最大值或最小值,而快速排序一趟处理至少能确定一个元素的最终位置等。
下表列出了各种排序算法的时空复杂度和稳定性情况,其中空间复杂度仅列举了平均情况的复杂度,由于希尔排序的时间复杂度依赖于增量函数,所以无法准确给出其时间复杂度。
算法 | 最好情况 | 平均情况 | 最坏情况 | 平均空间复杂度 | 是否稳定 |
---|---|---|---|---|---|
直接插入排序 | 是 | ||||
冒泡排序 | 是 | ||||
简单选择排序 | 否 | ||||
希尔排序 | 否 | ||||
快速排序 | 否 | ||||
堆排序 | 否 | ||||
2 路归并排序 | 是 | ||||
基数排序 | 是 |
通常情况,对排序算法的比较和应用应考虑以下情况。
选取排序方法需要考虑的因素
排序算法小结
外部排序可能会考查相关概念、方法和排序过程,外部排序的算法比较复杂,不会在算法设计上进行考查。本节的主要内容有:
前面介绍过的排序方法都是在内存中进行的(称为内部排序)。而在许多应用中,经常需要对大文件进行排序,因为文件中的记录很多,无法将整个文件复制进内存中进行排序。因此,需要将待排序的记录存储在外存上,排序时再把数据一部分一部分地调入内存进行排序,在排序过程中需要多次进行内存和外存之间的交换。这种排序方法就称为外部排序。
文件通常是按块存储在磁盘上的,操作系统也是按块对磁盘上的信息进行读写的。因为磁盘读/写的机械动作所需的时间远远超过内存运算的时间(相比而言可以忽略不计),因此在外部排序过程中的时间代价主要考虑访问磁盘的次数,即 I/O 次数。
外部排序通常采用归并排序法。它包括两个阶段:
例如,一个含有 2000 个记录的文件,每个磁盘块可容纳 125 个记录,首先通过 8 次内部排序得到 8 个初始归并段 R1~R8,每个段都含 250 个记录。然后对该文件做如图 8.13 所示的两两归并,直至得到一个有序文件。可以把内存工作区等分为 3 个缓冲区,如图 8.12 所示,其中的两个为输入缓冲区,一个为输出缓冲区。首先,从两个输入归并段 R1 和 R2 中分别读入一个块,放在输入缓冲区 1 和输入缓冲区 2 中。然后,在内存中进行 2 路归并,归并后的对象顺序存放在输出缓冲区中。若输出缓冲区中对象存满,则将其顺序写到输出归并段(R1')中,再清空输出缓冲区,继续存放归并后的对象。若某个输入缓冲区中的对象取空,则从对应的输入归并段中再读取下一块,继续参加归并。如此继续,直到两个输入归并段中的对象全部读入内存并都归并完成为止。当 R1 和 R2 归并完后,再归并 R3 和 R4、R5 和 R6、最后归并 R7 和 R8,这是一趟归并。再把上趟的结果 R1' 和 R2'、R3'和 R4' 两两归并,这又是一趟归并。最后把 R1"和 R2" 两个归并段归并,结果得到最终的有序文件,一共进行了 3 趟归并。
在外部排序中实现两两归并时,由于不可能将两个有序段及归并结果段同时存放在内存中,因此需要不停地将数据读出、写入磁盘,而这会耗费大量的时间。一般情况下:
外部排序的总时间 = 内部排序所需的时间 + 外存信息读写的时间 + 内部归并所需的时间
显然,外存信息读写的时间远大于内部排序和内部归并的时间,因此应着力减少 1/O 次数。由于外存信息的读/写是以“磁盘块”为单位的,可知每一趟归并需进行 16 次“读”和 16 次“写”,3 趟归并加上内部排序时所需进行的读/写,使得总共需进行 32 × 3 + 32 = 128 次读写。
若改用 4 路归并排序,则只需 2 趟归并,外部排序时的总读/写次数便减至 32 × 2 + 32 = 96。因此,增大归并路数,可减少归并趟数,进而减少总的磁盘 I/O 次数,如图 8.14 所示。
一般地,对 r 个初始归并段,做 k 路平衡归并,归并树可用严格 k 叉树(即只有度为 k 与度为 0 的结点的 k 叉树)来表示。第一趟可将 r 个初始归并有序文件段归并为
上节讨论过,增加归并路数 k 能减少归并趟数 S,进而减少 I/O 次数。然而,增加归并路数 k 时,内部归并的时间将增加。做内部归并时,在 k 个元素中选择关键字最小的记录需要比较 k - 1 次。每趟归并 n 个元素需要做
式中,
为了使内部归并不受 k 的增大的影响,引入了败者树。败者树是树形选择排序的一种变体,可视为一棵完全二叉树。k 个叶结点分别存放 k 个归并段在归并过程中当前参加比较的记录,内部结点用来记忆左右子树中的"失败者”,而让胜者往上继续进行比较,一直到根结点。若比较两个数,大的为失败者、小的为胜利者,则根结点指向的数为最小数。
如图 8.15(a) 所示,b3 与 b4 比较,b4 是败者,将段号 4 写入父结点 ls[4]。b1 与 b2 比较,
b2 是败者,将段号 2 写入 ls[3]。b3 与 b4 的胜者 b3 与 b0 比较,b0 是败者,将段号 0 写入 ls[2]。最后两个胜者 b3 与 b1 比较,b1 是败者,将段号 1 写入 ls[1]。而将胜者 b3 的段号 3 写入 ls[0]。此时,根结点 ls[0] 所指的段的关键字最小。b3 中的 6 输出后,将下一关键字填入 b3,继续比较。
因为 k 路归并的败者树深度为
可见,使用败者树后,内部归并的比较次数与 k 无关了。因此,只要内存空间允许,增大归并路数 k 将有效地减少归并树的高度,从而减少 I/O 次数,提高外部排序的速度。
值得说明的是,归并路数 k 并不是越大越好。归并路数 k 增大时,相应地需要增加输入缓冲区的个数。若可供使用的内存空间不变,势必要减少每个输入缓冲区的容量,使得内存、外存交换数据的次数增大。当左值过大时,虽然归并趟数会减少,但读写外存的次数仍会增加
从 0x01 节的讨论可知,减少初始归并段个数 r 也可以减少归并趟数 S。若总的记录个数为 n,每个归并段的长度为
设初始待排文件为 FI,初始归并段输出文件为 FO,内存工作区为 WA,FO 和 WA 的初始状态为空,WA 可容纳 w 个记录。置换-选择算法的步骤如下:
设待排文件 FI={17, 21, 05, 44, 10, 12, 56, 32, 29},WA 容量为 3。排序过程如表 8.2 所示。
上述算法,在 WA 中选择 MINIMAX 记录的过程需利用败者树来实现。
文件经过置换-选择排序后,得到的是长度不等的初始归并段。下面讨论如何组织长度不等的初始归并段的归并顺序,使得 I/O 次数最少?假设由置换-选择得到 9 个初始归并段,其长度(记录数)依次为 9, 30, 12, 18, 3, 17, 2, 6, 24。现做 3 路平衡归并,其归并树如图 8.16 所示。
在图 8.16 中,各叶结点表示一个初始归并段,上面的权值表示该归并段的长度,叶结点到根的路径长度表示其参加归并的趟数,各非叶结点代表归并成的新归并段,根结点表示最终生成的归并段。树的带权路径长度 WPL 为归并过程中的总读记录数,故 I/O 次数=2 x WPL=484。
显然,归并方案不同,所得归并树亦不同,树的带权路径长度(I/O 次数)亦不同。为了优化归并树的 WPL,可以将哈夫曼树的思想推广到 m 叉树的情形,在归并树中,让记录数少的初始归并段最先归并,记录数多的初始归并段最晚归并,就可以建立总的 I/O 次数最少的最佳归并树。上述 9 个初始归并段可构造成一棵如图 8.17 所示的归并树,按此树进行归并,仅需对外存进行 446 次读/写,这棵归并树便称为最佳归并树。
图 8.17 中的哈夫曼树是一棵严格 3 叉树,即树中只有度为 3 或 0 的结点。若只有 8 个初始归并段,如上例中少了一个长度为 30 的归并段。若在设计归并方案时,缺额的归并段留在最后,即除最后一次做 2 路归并外,其他各次归并仍是 3 路归并,此归并方案的外存读/写次数为 386。显然,这不是最佳方案。
正确的做法是:若初始归并段不足以构成一棵严格 k 叉树时,需添加长度为 0 的“虚段”,按照哈夫曼树的原则,权为 0 的叶子应离树根最远。因此,最佳归并树应如图 8.18 所示。
如何判定添加虚段的数目?
设度为 0 的结点有
以图 8.18 为例,用 8 个归并段构成 3 叉树,