Oracle 高级查询之over(partition by..)-数据库-优客志

为了方便学习和测试，所有的例子都是在Oracle自带用户Scott下建立的。

create table EMP (  
  empno    NUMBER(4) not null,  
  ename    VARCHAR2(10),  
  job      VARCHAR2(9),  
  mgr      NUMBER(4),  
  hiredate DATE,  
  sal      NUMBER(7,2),  
  comm     NUMBER(7,2),  
  deptno   NUMBER(2)  
)  
alter table EMP  
  add constraint PK_EMP primary key (EMPNO);  
  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7369, 'SMITH', 'CLERK', 7902, to_date('17-12-1980', 'dd-mm-yyyy'), 800, null, 20);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7499, 'ALLEN', 'SALESMAN', 7698, to_date('20-02-1981', 'dd-mm-yyyy'), 1600, 300, 30);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7521, 'WARD', 'SALESMAN', 7698, to_date('22-02-1981', 'dd-mm-yyyy'), 1250, 500, 30);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7566, 'JONES', 'MANAGER', 7839, to_date('02-04-1981', 'dd-mm-yyyy'), 2975, null, 20);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7654, 'MARTIN', 'SALESMAN', 7698, to_date('28-09-1981', 'dd-mm-yyyy'), 1250, 1400, 30);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7698, 'BLAKE', 'MANAGER', 7839, to_date('01-05-1981', 'dd-mm-yyyy'), 2850, null, 30);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7782, 'CLARK', 'MANAGER', 7839, to_date('09-06-1981', 'dd-mm-yyyy'), 2450, null, 10);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7788, 'SCOTT', 'ANALYST', 7566, to_date('19-04-1987', 'dd-mm-yyyy'), 3000, null, 20);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7839, 'KING', 'PRESIDENT', null, to_date('17-11-1981', 'dd-mm-yyyy'), 5000, null, 10);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7844, 'TURNER', 'SALESMAN', 7698, to_date('08-09-1981', 'dd-mm-yyyy'), 1500, 0, 30);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7876, 'ADAMS', 'CLERK', 7788, to_date('23-05-1987', 'dd-mm-yyyy'), 1100, null, 20);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7900, 'JAMES', 'CLERK', 7698, to_date('03-12-1981', 'dd-mm-yyyy'), 950, null, 30);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7902, 'FORD', 'ANALYST', 7566, to_date('03-12-1981', 'dd-mm-yyyy'), 3000, null, 20);  
insert into EMP (empno, ename, job, mgr, hiredate, sal, comm, deptno)   
       values (7934, 'MILLER', 'CLERK', 7782, to_date('23-01-1982', 'dd-mm-yyyy'), 1300, null, 10);

注：标题中的红色order by是说明在使用该方法的时候必须要带上order by

一、rank()/dense_rank() over(partition by ...order by ...)

现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句：

select * from (select ename, job, hiredate, e.sal, e.deptno  
          from emp e,  
               (select deptno, max(sal) sal from emp group by deptno) t  
         where e.deptno = t.deptno  
           and e.sal = t.sal)  
 order by deptno;  
          
select * from (select ename 姓名, job 职业, hiredate 入职日期, e.sal 工资, e.deptno 部门  
          from emp e,  
               (select deptno, max(sal) sal from emp group by deptno) t  
         where e.deptno = t.deptno  
           and e.sal = t.sal)  
 order by 部门;

在满足客户需求的同时，大家应该习惯性的思考一下是否还有别的方法。这个是肯定的，就是使用本小节标题中rank() over(partition by...)或dense_rank() over(partition by...)语法，SQL分别如下：

select empno, ename, job, hiredate, sal, deptno  
  from (select empno, ename, job, hiredate, sal, deptno, rank() over(partition by deptno order by sal desc) r from emp)  
 where r = 1;  
   
select empno, ename, job, hiredate, sal, deptno  
  from (select empno, ename, job, hiredate, sal, deptno, dense_rank() over(partition by deptno order by sal desc) r from emp)  
 where r = 1

为什么会得出跟上面的语句一样的结果呢？这里补充讲解一下rank()/dense_rank() over(partition by e.deptno order by e.sal desc)语法。

over：在什么条件之上。

partition by e.deptno：按部门编号划分（分区）。

order by e.sal desc：按工资从高到低排序（使用rank()/dense_rank() 时，必须要带order by否则非法）

rank()/dense_rank()：分级

整个语句的意思就是：在按部门划分的基础上，按工资从高到低对雇员进行分级，“级别”由从小到大的数字表示（最小值一定为1）。

那么rank()和dense_rank()有什么区别呢？

rank()：跳跃排序，如果有两个第一级时，接下来就是第三级。

dense_rank()：连续排序，如果有两个第一级时，接下来仍然是第二级。

小作业：查询部门最低工资的雇员信息。

二、min()/max() over(partition by ...)

现在我们已经查询得到了部门最高/最低工资，客户需求又来了，查询雇员信息的同时算出雇员工资与部门最高/最低工资的差额。这个还是比较简单，在第一节的groupby语句的基础上进行修改如下：

-- 查询每位雇员信息的同时算出雇员工资与所属部门最高/最低员工工资的差额

select ename 姓名, job 职业, hiredate 入职日期, e.deptno 部门, e.sal 工资, e.sal-me.min_sal 最低差额, me.max_sal-e.sal 最高差额  
  from emp e, (select deptno, min(sal) min_sal, max(sal) max_sal from emp group by deptno) me    
 where e.deptno = me.deptno order by e.deptno, e.sal;

上面我们用到了min()和max()，前者求最小值，后者求最大值。如果这两个方法配合over(partition by ...)使用会是什么效果呢？大家看看下面的SQL语句：

select ename 姓名, job 职业, hiredate 入职日期, deptno 部门,   
     min(sal) over(partition by deptno) 部门最低工资,   
     max(sal) over(partition by deptno) 部门最高工资   
  from emp order by deptno, sal;    
  
select ename 姓名, job 职业, hiredate 入职日期, deptno 部门,   
     nvl(sal - min(sal) over(partition by deptno), 0) 部门最低工资差额,   
     nvl(max(sal) over(partition by deptno) - sal, 0) 部门最高工资差额  
  from emp order by deptno, sal;

这两个语句的查询结果是一样的，大家可以看到min()和max()实际上求的还是最小值和最大值，只不过是在partition by分区基础上的。

小作业：如果在本例中加上order by，会得到什么结果呢？

三、lead()/lag() over(partition by ... order by ...)

中国人爱攀比，好面子，闻名世界。客户更是好这一口，在和最高/最低工资比较完之后还觉得不过瘾，这次就提出了一个比较变态的需求，计算个人工资与比自己高一位/低一位工资的差额。这个需求确实让我很是为难，在groupby语句中不知道应该怎么去实现。不过。。。。现在我们有了over(partition by ...)，一切看起来是那么的简单。如下：

-- 计算个人工资与比自己高一位/低一位工资的差额

select ename 姓名, job 职业, sal 工资, deptno 部门,    
   lead(sal, 1, 0) over(partition by deptno order by sal)  比自己工资高的部门前一个,    
   lag(sal, 1, 0) over(partition by deptno order by sal)  比自己工资低的部门后一个,    
   nvl(lead(sal) over(partition by deptno order by sal) - sal, 0)  比自己工资高的部门前一个差额,     
   nvl(sal - lag(sal) over(partition by deptno order by sal), 0)   比自己工资高的部门后一个差额  
 from emp;

看了上面的语句后，大家是否也会觉得虚惊一场呢（惊出一身冷汗后突然鸡冻起来，这样容易感冒）？我们还是来讲解一下上面用到的两个新方法吧。

lead(列名,n,m): 当前记录后面第n行记录的<列名>的值，没有则默认值为m；如果不带参数n,m，则查找当前记录后面第一行的记录<列名>的值，没有则默认值为null。

lag(列名,n,m): 当前记录前面第n行记录的<列名>的值，没有则默认值为m；如果不带参数n,m，则查找当前记录前面第一行的记录<列名>的值，没有则默认值为null。

下面再列举一些常用的方法在该语法中的应用（注：带order by子句的方法说明在使用该方法的时候必须要带order by）：

select ename 姓名, job 职业, sal 工资, deptno 部门,   
    first_value(sal) over(partition by deptno) first_sal,   
    last_value(sal) over(partition by deptno) last_sal,   
    sum(sal) over(partition by deptno) 部门总工资,   
    avg(sal) over(partition by deptno) 部门平均工资,   
    count(1) over(partition by deptno) 部门总数,   
    row_number() over(partition by deptno order by sal) 序号   
 from emp;