Union и устранение дубликатов

UNION будет автоматически исключать дубликаты строк из вывода. Это нечто несвойственное для SQL, так как одиночные запросы обычно содержат DISTINCT чтобы устранять дубликаты. Например запрос, чей вывод показывается в Рисунке 20,

SELECT snum, city
FROM Customers;

snum city
London
Rome
San Jose
Berlin
London
Rome
San Jose

Рисунок 20 Одиночный запрос с дублированным выводом

имеет двойную комбинацию значений ( snum=1001, city=London ), потому что мы не указали, чтобы SQL устранил дубликаты. Однако, если мы используем UNION в комбинации этого запроса с ему подобным в таблице Продавцов, то эта избыточная комбинация будет устранена. Рисунок 21 показывает вывод следующего запроса.

SELECT snum, city
FROM Customers

UNION

SELECT snum, city
FROM Salespeople;

London
Berlin
San Jose
New York
Rome
London
Rome
Barcelona
San Jose

Рисунок 21 UNION устраняет двойной вывод

Вы можете получить нечто похожее ( в некоторых программах SQL, используя UNION ALL вместо просто UNION, наподобие этого:

SELECT snum, city
FROM Customers

UNION ALL

SELECT snum, city
FROM Salespeople;

Использование строк и выражений с union

Иногда, вы можете вставлять константы и выражения в предложения SELECT используемые с UNION. Это не следует строго указаниям ANSI, но это полезная и необычно используемая возможность. Константы и выражения которые вы используете, должны встречать совместимые стандарты которые мы выделяли ранее. Эта свойство полезно, например, чтобы устанавливать комментарии указывающие какой запрос вывел данную строку. Предположим что вы должны сделать отчет о том, какие продавцы производят наибольшие и наименьшие порядки по датам. Мы можем объединить два запроса, вставив туда текст чтобы различать вывод для каждого из них.

SELECT a.snum, sname, onum, 'Highest on', odate

FROM Salespeople a, Orders b

WHERE a.snum=b.snum

AND b.amt =

(SELECT MAX (amt)

FROM Orders c

WHERE c.odate=b.odate )

UNION

SELECT a.snum, sname,onum, 'Lowest on', odate

FROM Salespeople a, Orders b

WHERE a.snum=b.snum

AND b.amt =

(SELECT MIN (amt)

FROM Orders c

WHERE c.odate = b.odate );

Вывод из этой команды показывается в Рисунке 22.

Мы должны были добавить дополнительный пробел в строку 'Lowest on', чтобы сделать ее совпадающей по длине со строкой 'Highest on'. Обратите внимание что Peel выбран при наличии и самого высокого и самого низкого ( фактически он единственный ) порядка на 5 Октября. Так как вставляемые строки двух этих запросов различны, строки не будут устранены как дубликаты.

Peel Highest on 10/05/1990
Peel Lowest on 10/05/1990
Peel Highest on 10/06/1990
Serres Highest on 10/03/1990
Serres Lowest on 10/04/1990
Serres Lowest on 10/06/1990
Axelrod Highest on 10/04/1990
Rifkin Lowest on 10/03/1990

Рисунок 22 Выбор наивысших и наинизших порядков, определяемых с помощью строк

Использование union с order by

До сих пор, мы не оговаривали что данные многочисленных запросов будут выводиться в каком то особом порядке. Мы просто показывали вывод сначала из одного запроса а затем из другого. Конечно, вы не можете полагаться на вывод приходящий в произвольном порядке. Мы как раз сделаем так чтобы этот способ для выполнения примеров был более простым. Вы можете, использовать предложение ORDER BY чтобы упорядочить вывод из объединения, точно так же как это делается в индивидуальных запросах. Давайте пересмотрим наш последний пример чтобы упорядочить имена с помощью их порядковых номеров. Это может внести противоречие, такое как повторение имени Peel в последней команде, как вы сможете увидеть из вывода показанного в Рисунке 23.

SELECT af.snum, sname, onum, 'Highest on', odate

FROM Salespeople af, Orders bf

WHERE af.snum=bf.snum

AND bf.amt=(SELECT MAX (amt)

FROM Orders cf

WHERE cf.odate=bf.odate )

UNION

SELECT af.snum, sname, onum, 'Lowest on', odate

FROM Salespeople af, Orders bf

WHERE af.snum=bf.snum

AND bf.amt=(SELECT MIN (amt)

FROM Orders cf

WHERE cf.odate=bf.odate )

ORDER BY 3

Rifkin Lowest on 10/03/1990
Serres Highest on 10/03/1990
Serres Lowest on 10/04/1990
Peel Highest on 10/05/1990
Peel Lowest on 10/05/1990
Axelrod Highest on 10/04/1990
Serres Lowest on 10/06/1990
Peel Highest on 10/06/1990

Рисунок 23 Формирование объединения с использованием ORDER BY

Пока ORDER BY используется по умолчанию, мы не должны его указывать. Мы можем упорядочить наш вывод с помощью нескольких полей, одно внутри другого и указать ASC или DESC для каждого, точно также как мы делали это для одиночных запросов. Заметьте, что номер 3 в предложении ORDER BY указывает какой столбец из предложения SELECT будет упорядочен. Так как столбцы объединения - это столбцы вывода, они не имеют имен, и следовательно, должны определяться по номеру. Этот номер указывает на их место среди других столбцов вывода. (Смотрите Главу 7 обсуждающую столбцы вывода.)

Внешнее объединение

Операция которая бывает часто полезна - это объединение из двух запросов в котором второй запрос выбирает строки, исключенные первым. Наиболее часто, вы будете делать это, так чтобы не исключать строки которые не удовлетворили предикату при объединении таблиц. Это называется - внешним объединением. Предположим что некоторые из ваших заказчиков еще не были назначены к продавцам. Вы можете захотеть увидеть имена и города всех ваших заказчиков, с именами их продавцов, не учитывая тех кто еще не был назначен. Вы можете достичь этого, формируя объединение из двух запросов, один из которых выполняет объединение, а другой выбирает заказчиков с пустыми(NULL) значениями поля snum. Этот последний запрос должен вставлять пробелы в поля соответствующие полю sname в первом запросе. Как и раньше, вы можете вставлять текстовые строки в ваш вывод чтобы идентифицировать запрос который вывел данную строку. Использование этой методики во внешнем объединении, дает возможность использовать предикаты для классификации, а не для исключения.

Мы использовали пример нахождения продавцов с заказчиками размещенными в их городах и раньше. Однако вместо просто выбора только этих строк, вы возможно захотите чтобы ваш вывод перечислял всех продавцов, и указывал тех, кто не имел заказчиков в их городах, и кто имел. Следующий запрос, чей вывод показывается в Рисунке 24, выполнит это:

SELECT Salespeople.snum, sname, cname, comm

FROM Salespeople, Customers

WHERE Salespeople.city= Customers.city

UNION

SELECT snum, sname, 'NO MATCH', comm

FROM Salespeople

WHERE NOT city = ANY

( SELECT city

FROM Customers )

ORDER BY 2 DESC;

Serres Cisneros 0.1300
Serres Liu 0.1300
Rifkin NO MATCH 0.1500
Peel Clemens 0.1200
Peel Hoffman 0.1200
Motika Clemens 0.1100
Motika Hoffman 0.1100
Axelrod NO MATCH 0.1000

Рисунок 24 Внешнее объединение

Строка ' NO MATCH ' была дополнена пробелами, чтобы получить совпадение поля cname по длине ( это не обязательно во всех реализациях SQL ). Второй запрос выбирает даже те строки которые исключил первый. Вы можете также добавить комментарий или выражение к вашему запросу, ввиде дополнительного поля. Если вы сделаете это, вы будете должны добавить некоторый дополнительный комментарий или выражение, в той же самой позиции среди выбранных полей, для каждого запроса в операции объединения. Совместимость UNION предотвращает вас от добавления дополнительного поля для первого запроса, но не для второго. Имеется запрос который добавляет строки к выбранным полям, и указывает совпадает ли данный продавец с его заказчиком в его городе:

SELECT a.snum, sname, a.city, ' MATCHED '
FROM Salespeople a, Customers b
WHERE a.city = b.city

UNION

SELECT snum, sname, city, 'NO MATCH'
FROM Salespeople
WHERE NOT city = ANY
( SELECT city
FROM Customers )

ORDER BY 2 DESC;

Рисунок 25 показывает вывод этого запроса.

Serres an Jose MATCHED
Rifkin Barselona NO MATCH
Peel London MATCHED
Motika London MATCHED
Axelrod New York NO MATCH

Рисунок 25 Внешнее объединение с полем комментария

Это не полное внешнее объединение, так как оно включает только несовпадающие поля одной из объединяемых таблиц. Полное внешнее объединение должно включать всех заказчиков имеющих и не имеющих продавцов в их городах. Такое условие будет более полным, как вы это сможете увидеть (вывод следующего запроса показан на Рисунке 26) :

SELECT snum, city, 'SALESPERSON - MATCH'

FROM Salespeople

WHERE NOT city = ANY

(SELECT city

FROM Customers)

UNION

SELECT snum, city, 'SALESPERSON - NO MATCH'

FROM Salespeople

WHERE NOT city = ANY

(SELECT city

FROM Customers)

UNION

SELECT cnum, city, 'CUSTOMER - MATCHED'

FROM Customers

WHERE city = ANY

(SELECT city

FROM Salespeople)

UNION

SELECT cnum, city, 'CUSTOMER - NO MATCH'

FROM Customers

WHERE NOT city = ANY

(SELECT city

FROM Salespeople)

ORDER BY 2 DESC;

San Jose CUSTOMER - MATCHED
San Jose CUSTOMER - MATCHED
Rome CUSTOMER - NO MATCH
Rome CUSTOMER - NO MATCH
New York SALESPERSON - MATCHED
New York SALESPERSON - NO MATCH
London CUSTOMER - MATCHED
London CUSTOMER - MATCHED
Berlin CUSTOMER - NO MATCH
Barcelona SALESPERSON - MATCHED
Barcelona SALESPERSON - NO MATCH

Рисунок 26 полное внешнее объединение

( Понятно, что эта формула использующая ANY - эквивалентна объединению в предыдущем примере. ) Сокращенное внешнее объединение с которого мы начинали, используется чаще чем этот последний пример. Этот пример, однако, имеет другой смысл. Всякий раз, когда вы выполняете объединение более чем двух запросов, вы можете использовать круглые скобки чтобы определить порядок оценки. Другими словами, вместо просто -

query X UNION query Y UNION query Z;

вы должны указать, или

( query X UNION query Y )UNION query Z;

или

query X UNION ( query Y UNION query Z );

Это потому, что UNION и UNION ALL могут быть скомбинированы, чтобы удалять одни дубликаты, не удаляя других. Предложение -

( query X UNION ALL query Y )UNION query Z;

не обязательно воспроизведет те же результаты что предложение -

query X UNION ALL( query Y UNION query Z );

если двойные строки в нем, будут удалены.

Практическая часть

1. Напишите запрос который бы использовал оператор EXISTS для извлечения всех продавцов которые имеют заказчиков с оценкой 300.

2. Как бы вы решили предыдущую проблему используя обьединение ?

3. Напишите запрос использующий оператор EXISTS который выберет всех продавцов с заказчиками размещенными в их городах которые ими не обслуживаются.

4. Напишите запрос который извлекал бы из таблицы Заказчиков каждого заказчика назначенного к продавцу который в данный момент имеет по крайней мере еще одного заказчика (кроме заказчика которого вы выберете) с порядками в таблице Порядков ( подсказка: это может быть похоже на структуру в примере с нашим трех-уровневым подзапросом ).

5. Напишите запрос который бы выбирал всех заказчиков чьи оценки равны или больше чем любая (ANY) оценка заказчика Serres.

6. Что будет выведено вышеупомянутой командой?

7. Напишите запрос использующий ANY или ALL, который бы находил всех продавцов которые не имеют никаких заказчиков размещенных в их городе.

8. Напишите запрос который бы выбирал все порядки с суммой больше чем любая (в обычном смысле) для заказчиков в Лондоне.

9. Напишите предыдущий запрос с использованием - MAX.

10.Создайте объединение из двух запросов которое показало бы имена, города, и оценки всех заказчиков. Те из них которые имеют поле rating=200 и более, должны кроме того иметь слова - " Высокий Рейтинг ", а остальные должны иметь слова " Низкий Рейтинг ".

11.Напишите команду которая бы вывела имена и номера каждого продавц и каждого заказчика которые имеют больше чем один текущий порядок. Результат представьте в алфавитном порядке.

12.Сформируйте объединение из трех запросов. Первый выбирает поля snum всех продавцов в San Jose; второй, поля cnum всех заказчиков в San Jose; и третий поля onum всех порядков на 3 Октября. Сохраните дубликаты между последними двумя запросами, но устраните любую избыточность вывода между каждым из их и самым первым. (Примечание: в данных типовых таблицах, не содержится никакой избыточности. Это только пример. )

Контрольные вопросы:

1. Что такое внешнее объединение?

2. Использование строк и выражений с UNION?

3. Когда вы можете делать объединение между запросами?

4. Объясните как работает ANY?


Литература