PostgreSQL (21) - Spojování dotazů

PostgreSQL umí spojovat výsledky několika dotazů do jediného výsledku. Je několik variant a několik omezení. Těchto možností lze využívat například při vytváření RSS pro celý server (blog, webzine, portál).

17.5.2006 06:00 | MaReK Olšavský | přečteno 15676×

Spojování dotazů

Všechny výběry z databáze, které se zatím v seriálu objevovaly, se vešly do jediného SELECTu. Ne vždy je toto reálné. Například výše zmíněná tvorba jednoho RSS pro celé www stránky může obsahovat položky z článků, novinek, nového software, ... Pak je zapotřebí buď mít tabulku, kam se dávají data jen pro tvorbu RSS, nebo ve scriptu srovnat výsledky několika dotazů (ale to znamená výrazně vyšší režii na straně scriptovacího serveru), případně mnohem elegantněji využít možností spojení několika dotazů do jediného výsledku.

Toto spojení výběrů má jediné menší omezení. Aby bylo proveditelné, je třeba mít vybírané sloupce stejného typu (tzn. nemusí se jmenovat stejně). Textová pole můžete kombinovat s pevnou i proměnnou délkou (CHAR, VARCHAR, TEXT), číselné typy k sobě bez ohledu na jejich konkrétní typ a datumy také.

Spojení výsledků z několika dotazů na několika tabulkách do jediné množiny výsledků je možné několika způsoby, buď jsou zahrnuty všechny výsledky (UNION ALL mezi příkazy SELECT), nebo jsou vyloučeny multiplicitní hodnoty (prostý UNION), vybrání hodnot z tabulky, které nejsou v následujícím SELECTu (klauzule EXCEPT) a poslední variantou je vybrání pouze multiplicitních hodnot (spojovník INTERSECT). Názvy sloupečků, jak je uvidíte ve výběru, jsou podle prvního SELECTU v řadě, který je prováděn. Použití modifikátoru ALL má neelementárně jasná pravidla:

Protože více, než rozebírání teorie pomohou příklady, nadefinujeme nyní několik tabulek, které se mohou vyskytnout v běžném CMS (content management system), samozřejmě, že v plném systému jsou tabulky podstatně rozsáhlejší, kde jsou tabulky pro články, novinky a software ke stažení:

CREATE TABLE articles(
articles_id BIGSERIAL,
title CHARACTER VARYING(200),
perex CHARACTER VARYING(1000),
content TEXT,
add_date timestamp without time zone DEFAULT '01-01-0001 00:00:00' NOT NULL
);

CREATE TABLE news(
news_id BIGSERIAL,
title CHARACTER VARYING(200),
content CHARACTER VARYING(1000)
add_date timestamp without time zone DEFAULT '01-01-0001 00:00:00' NOT NULL
);

CREATE TABLE downloads(
downloads_id BIGSERIAL,
name CHARACTER VARYING(200),
description TEXT,
filename CHARACTER VARYING(500)
add_date timestamp without time zone DEFAULT '01-01-0001 00:00:00' NOT NULL
);

-- vlozeni hodnot, je na libovuli studenta tohoto serialu :-)

-- vyber hodnot ze vsech tabulek, s potlacenim duplicit
(SELECT title, perex FROM articles
UNION
SELECT title, content FROM news
UNION
SELECT name, description FROM downloads
) ORDER BY title;

-- vyber hodnot ze vsech tabulek, vcetne duplicit
(SELECT title, perex FROM articles
UNION ALL
SELECT title, content FROM news
UNION ALL
SELECT name, description FROM downloads
) ORDER BY title;

-- Vybrani pouze nazvu a textu/popisu z radku, ktere jsou ve vsech tabulkach
-- s potlacenim duplicitnich radku
(SELECT title, content FROM news
INTERSECT
SELECT name, description FROM downloads
) ORDER BY title;

-- Vybrani pouze nazvu a textu/popisu z radku, ktere jsou ve vsech tabulkach
-- vcetne duplicitnich radku
(SELECT title, content FROM news
INTERSECT
SELECT name, description FROM downloads
) ORDER BY title;

-- Vybrani pouze nazvu a textu/popisu z radku ktere jsou v prvni tabulce,
-- ale nejsou v druhe
(SELECT title, content FROM news
EXCEPT
SELECT name, description FROM downloads
) ORDER BY title

-- Vybrani poslednich 5 zaznamu napric tabulkami, pravdepodobne nejvhodnejsi
-- vyber pro generovani RSS
(SELECT title, perex, add_date FROM articles
UNION
SELECT title, content, add_date FROM news
UNION
SELECT name, description, add_date FROM downloads
) ORDER BY add_date ASC LIMIT 5;

Pokud jste si naplnili data rozumně (a nemáte stejné id například pro oznámení nového programu ke stažení v novinkách a v downloads), máte v tabulkách duplicity a budete vybírat i id, setkáte se s tím, že neodfiltrujete duplicitní záznamy. Aby PostgreSQL umělo duplicity vyřadit (stejný problém se bude týkat i MySQL), musí být všechny hodnoty 100% shodné.

Pokud budete tvořit výše uvedené RSS, budete kromě hodnot potřebovat i identifikovat, ze které tabuky data pochází, protože je pak zapotřebí podle tohoto dodatečného sloupce nasměrovat odkaz na správný script. Pro toto lze použít přímé vložení hodnoty do výběru, kvůli striktnosti PgSQL serveru explicitně přetypované na text a pro pořádek pojmenované podle pořeby, zde tablename:

(SELECT 'articles'::text AS tablename, articles_id AS id, title, 
perex FROM articles
UNION
SELECT 'news'::text, news_id, title, content FROM news
UNION
SELECT 'downloads'::text, downloads_id, name, description FROM downloads
) ORDER BY tablename, id;

Omezení na počet řádek a případné seřazení výsledků se zadává za poslední příkaz SELECT, klauzule WHERE. Omezující výstupní řádky je třeba umístit za jednotlivé SELECTy (vztahuje se tedy partikulárně na každý výběr, nelze jej udělat pro omezení celku). V případě, že potřebujete kombinovat více SELECTů a navíc Vám přistupují kombinace UNION (ALL), INTERSECT (ALL) a EXCEPT (ALL), je vhodné pomocí závorek vymezit priority jednotlivých kombinací, například tab1 UNION tab2 INTERSECT tab3 je bez závorek ekvivalentní zápisu tab1 UNION (tab2 INTERSECT tab3).

Závěrem

Spojováním dotazů lze výrazným způsobem odlehčit zátěži PostgreSQL serveru, potažmo aplikaci, protože jediným dotazem získáme data, která potřebujeme a jak potřebujeme, proto není nutné v aplikaci data "přerovnávat". V příštím díle se podíváme na podvýběry (SELECTy jako součást dalších dotazů a příkazů).

Online verze článku: http://www.linuxsoft.cz/article.php?id_article=1235