PostgreSQL (9) – SELECT III
V tomto díle budou ukázány funkce pro zpracování obsahu textových řetězců a funkce pro zpracování binárních řetězců.
18.4.2005 15:00 |
MaReK Olšavský
| Články autora
| přečteno 24012×
Práce s řetezci
PostgreSQL nabízí mnoho funkcí pro zpracování řetezců na straně serveru, které jsou samozřejmě řešitelné i ve scriptu, nebo programu, ale jak již bylo uvedeno jejich použití v SQL dotazech je rychlejší a lze ušetřit přenos mnoha redundantních dat. Stejně jako u matematických funkcí lze funkce zanořovat do sebe.
funkce |
typ návratové hodnoty |
popis |
příklad |
(text1)||(text2) |
text |
Spojení řetězců |
SELECT 'ahoj '||'světe' |
bit_length(text) |
integer |
Délka řetězce v bitech |
SELECT bit_lentgh('Serial pisu na Apple iBook') |
char_length(text) character_length(text) |
integer |
Počet znaků v řetězci |
SELECT char_length('Penguin') |
convert(text using conversion_name) |
text |
Převod mezi kódovými tabulkami, conversion_name je definován pomocí CREATE CONVERSION, převody, které jsou k dispozici bez předefinování jsou v další tabulce |
SELECT CONVERT('chrastění' USING iso_8859_2_to_utf_8) |
Lower(text) |
text |
Převod všechznaků v řetězci na minusky (malá písmena) |
SELECT LOWER('Volání RODU z Osady u řeky') |
octet_length(text) |
integer |
Délka řetězce v bytech |
SELECT OCTET_LENGTH('Gentoo Rules') |
overlay(text1 placing text2 from integer1 [for integer]) |
text |
Řetězec2 je vložen do řetězce1 od znaku číslo integer1 (konec je odříznut), je-li uveden parametr for, je v původním řetězci nahrazeno integer2 znaků od pozice integer1 |
SELECT OVERLAY('ekonomika' PLACING 'conomi' FROM 2 FOR 7); |
position(castextu in text) |
integer |
Pozice prvního znaku řetězce castextu v text |
SELECT POSITION('pp' IN 'apple'; |
substring(text [from integer][for integer] |
text |
Vrací část řetězce, není-li uveden parametr from, je vrácena část od 1. znaku, parametr for udává kolik znaků bude vráceno není-li uveden parametr for, budou vráceny všechny znaky do konce řetězce. |
SELECT SUBSTRING('kubuntu',2) |
substring(text from vzorek) |
text |
Vrací část řetězce, část řetězce musí odpovídat vzorku podle regulárního výrazu podle normy POSIX |
SELECT SUBSTRING('Kubuntu' FROM '^...'); |
substring(text from vzorek for escape) |
text |
Vrací část řetězce, podobné, jako předchozí případ, ale podle normy SQL |
|
trim([leading|trailing|both][znaky] from text) |
text |
Oříznutí znaků z řetězce, podle direktivy zepředu, z konce, či s obou stran řetězce |
SELECT TRIM(LEADING 'u' FROM 'ubuntu'); |
upper(text) |
text |
Převod řetězce na verzálky (velká písmena) |
SELECT UPPER('Mandrake LiNux'); |
ascii(text) |
integer |
ASCII kód prvního znaku z řetězce |
SELECT ASCII('S'); |
btrim(text1, text2) |
text |
Oboustranné oříznutí nejdelší kombinace znaků uvedené v parametru text2 z řetězce text2 |
SELECT BTRIM('acbacpepacccaacba','abc'); |
chr(integer) |
znak |
Znak, který odpovídá ascii kódu předanému v parametru |
SELECT CHR(67); |
convert(text1, zdroj_kódování, cílové_kódování) |
text |
Převod řetězce ze zdrojové do cílové znakové sady |
SELECT CONVERT('žížala','LATIN2','UNICODE'); |
decode(text, typ) |
bytea |
Převod binárních dat do řetězce, typ je jeden z base64, hex, escape |
SELECT DECODE('4e696b697461','hex') |
encode(data, typ) |
text |
Převod řetězce na binární data, inverzní funkce vůči decode, vstupní parametr je typu bytea |
SELECT ENCODE('Nikita','hex') |
initcap(text) |
text |
Zkonveruje první písmeno každého slova na verzálku |
SELECT INITCAP('Mary měla jehňátko'); |
length(text) |
integer |
Délka řetězce |
SELECT LENGTH('Řetězec ke spočítání délky'); |
lpad(text, length, text2) |
text |
Doplnění řetězce v parametru text řetězcem text2 na délku length, pokud je doplňující řetězec nestačí k doplnění na potřebnou délku, je cyklicky opakován, jestliže je součet obou řetězců delší, je doplnující řetězec oříznut. |
SELECT LPAD('Ubuntu',25,' je nejzajímavější Debian based distro...'); |
ltrim(text, text2) |
text |
Z řetězce v parametru text jsou zleva oříznuty veškeré znaky, které jsou v parametru text2 |
SELECT LTRIM('xxxuaMephisaa','xua'); |
pg_client_encoding() |
name |
Aktuální kódová stránka na straně klienta |
|
quote_ident(text) |
text |
Vrací řetězec v uvozovkách, aby byl použitelný jako SQL identifikátor. Řetězec je vložen do uvozovek jen v nutných nutných případech, vložené uvozovky jsou zdvojené |
SELECT QUOTE_IDENT('tučňákovo zákoutí'); |
quote_literal(text) |
text |
Vrací řetězec v apostrofech pro použití jako řetězec, vnořené apostrofy jsou zdvojeny |
SELECT QUOTE_LITERAL ('O\'Hara'); |
repeat(text, integer) |
text |
Zopakuje řetězec |
SELECT REPEAT('ahoj ',2); |
replace(text, text2, text3) |
text |
Nahradí v řetězci text všechny výskyty text2 řetězcem text3 |
SELECT REPLACE('Ubaktu','ak','un'); |
rpad(text, integer, text) |
text |
Ekvivalentní lpad, ale dopňuje zprava |
|
rtrim(text, text) |
text |
Ekvivalentní ltrim, ale odstraňuje zprava |
|
split_part(text, text2, integer) |
text |
Z textu text obsahujícího oddělovače text2 vrátí část, která má pořadové číslo integer |
SELECT SPLIT_PART('ovoce;kiwi;ks;3',';',4) AS jednotkovacena |
strpos(text, text2) |
integer |
Vyhledá podřetězec, ekvivalentní funkci position, ale parametry jsou obráceně |
SELECT STRPOS('LinuxFromScratch','xf'); |
substr(text, integer1, integer2) |
text |
Vrací podřetězec, ekvivalentní funkci substring |
SELECT substr('Arch Linux',1,4); |
to_ascii(text, encoding) |
text |
Převod z kódování určeného parametrem encoding do ASCII, funguje jen pro kódování LATIN1, LATIN2 a WIN1250, od verze PgSQL i LATIN9 |
SELECT TO_ASCII('Řeřicha', LATIN2); |
to_hex(integer nebo bigint) |
text |
Převod čísla do jeho hexadecimálního tvaru |
SELECT TO_HEX(678992); |
translate(text, text2, text3) |
text |
Znaky z text, které odpovídají znakům z text2, jsou nahrazeny znaky z text3 na odpovídající pozici |
SELECT TRANSLATE('aleceta','lt','bd') |
Funkce convert slouží k převodu mezi kódovými stránkami, konverzní názvy jsou v prostém seznamu bez dalšího vysvětlování. Logika tvoření těchto názvů je vychozikodovani_to_cilovekofovani. Seznam konverzních jmen: ascii_to_mic, ascii_to_utf_8, big5_to_euc_tw, big5_to_mic, big5_to_utf_8, euc_cn_to_mic, euc_cn_to_utf_8, euc_jp_to_mic, euc_jp_to_sjis, euc_jp_to_utf_8, euc_kr_to_mic, euc_kr_to_utf_8, euc_tw_to_big5, euc_tw_to_mic, euc_tw_to_utf_8, gb18030_to_utf_8, gbk_to_utf_8, iso_8859_10_to_utf_8, iso_8859_13_to_utf_8, iso_8859_14_to_utf_8, iso_8859_15_to_utf_8, iso_8859_16_to_utf_8, iso_8859_1_to_mic, iso_8859_1_to_utf_8, iso_8859_2_to_mic, iso_8859_2_to_utf_8, iso_8859_2_to_windows_1250, iso_8859_3_to_mic, iso_8859_3_to_utf_8, iso_8859_4_to_mic, iso_8859_4_to_utf_8, iso_8859_5_to_koi8_r, iso_8859_5_to_mic, iso_8859_5_to_utf_8, iso_8859_5_to_windows_1251, iso_8859_5_to_windows_866, iso_8859_6_to_utf_8, iso_8859_7_to_utf_8, iso_8859_8_to_utf_8, iso_8859_9_to_utf_8, johab_to_utf_8, koi8_r_to_iso_8859_5, koi8_r_to_mic, koi8_r_to_utf_8, koi8_r_to_windows_1251, koi8_r_to_windows_866, mic_to_ascii, mic_to_big5, mic_to_euc_cn, mic_to_euc_jp, mic_to_euc_kr, mic_to_euc_tw, mic_to_iso_8859_1, mic_to_iso_8859_2, mic_to_iso_8859_3, mic_to_iso_8859_4, mic_to_iso_8859_5, mic_to_koi8_r, mic_to_sjis, mic_to_windows_1250, mic_to_windows_1251, mic_to_windows_866, sjis_to_euc_jp, sjis_to_mic, sjis_to_utf_8, tcvn_to_utf_8, uhc_to_utf_8, utf_8_to_ascii, utf_8_to_big5, utf_8_to_euc_cn, utf_8_to_euc_jp, utf_8_to_euc_kr, utf_8_to_euc_tw, utf_8_to_gb18030, utf_8_to_gbk, utf_8_to_iso_8859_1, utf_8_to_iso_8859_10, utf_8_to_iso_8859_13, utf_8_to_iso_8859_14, utf_8_to_iso_8859_15, utf_8_to_iso_8859_16, utf_8_to_iso_8859_2, utf_8_to_iso_8859_3, utf_8_to_iso_8859_4, utf_8_to_iso_8859_5, utf_8_to_iso_8859_6, utf_8_to_iso_8859_7, utf_8_to_iso_8859_8, utf_8_to_iso_8859_9, utf_8_to_johab, utf_8_to_koi8_r, utf_8_to_sjis, utf_8_to_tcvn, utf_8_to_uhc, utf_8_to_windows_1250, utf_8_to_windows_1251, utf_8_to_windows_1256, utf_8_to_windows_866, utf_8_to_windows_874, windows_1250_to_iso_8859_2, windows_1250_to_mic, windows_1250_to_utf_8, windows_1251_to_iso_8859_5, windows_1251_to_koi8_r, windows_1251_to_mic, windows_1251_to_utf_8, windows_1251_to_windows_866, windows_1256_to_utf_8, windows_866_to_iso_8859_5, windows_866_to_koi8_r, windows_866_to_mic, windows_866_to_utf_8, windows_866_to_windows_1251, windows_874_to_utf_8.
PostgreSQL kromě standardních textových řetězců podporuje i řetězce binární, které byly popsány v úvodních dílech seriálu, kdy byly popisovány datové typy. Funkce pro práci s nimi jsou stejné jako pro práci se standardními řetězci, ale mají některé drobné odlišnosti ve vstupních datech a návratových hodnotách.
funkce |
Návratový typ |
popis |
příklad |
|| |
bytea |
spojení dvou řetězců |
SELECT ('\\\\Post'::bytea || '\\047gres\\000'::bytea); |
octet_length(text) |
integer |
počet bytů v binárním řetězci |
SELECT octet_length('cGFtcGVsablrYQ==') |
position(text in text2) |
integer |
Pozice řetězce text v text2 |
SELECT POSITION('\\000be'::bytea in 'a\\000beceda'::bytea); |
substring(text [from integer][for integer2]) |
bytea |
část řetězce text, je-li uveden parametr from, část začíná od toho znaku, není-li uvede, výběr jede od počátku, parametr for udává délku výběru, není-li uveden, bude do konce |
SELECT SUBSTRING('Uče\\007bnice jazyka java'::bytea FROM 5); |
trim([both] vzorek from text) |
bytea |
odstranění nejdelších opakování vzorku z textu. Pracuje stejně jako stejnojmenná funkce pro klasické řetězce |
SELECT TRIM('\\005'::bytea FROM '\\005\\005NVU user\\005'::bytea); |
get_byte(text, offset) |
integer |
Výběr znaku na pozici offset z textu |
SELECT GET_BYTE('\\000Nějaký řetězec'::bytea, 5); |
set_byte(text, offset, znak) |
bytea |
Nastavení byte v řetězci |
SELECT SET_BYTE('Fa\\009ntomas'::bytea,3,'_'); |
get_bit(text, offset) |
integer |
Hodnota bitu na pozici určené parametrem offset |
SELECT GET_BIT('Žrádlo\\032pro kočky',57); |
set_bit(text, offset, hodnota) |
bytea |
Nastavení bitu v textu na pozici udané offsetem na hodnotu |
SELECT SET_BIT('xxxu\\000',15,1); |
btrim(text1, text2) |
bytea |
Odstranění nejdelšího opakování vzorku text2
z řetězce text1 |
SELECT BTRIM('\\008\\008Řetězec\\008'::bytea, '\\008'::bytea); |
length(text) |
integer |
Délka binárního řetězce |
SELECT LENGTH('\\001Délka'::bytea); |
encode(text, typ) |
text |
Zakódování binárního řetězce do ASCII reprezentace, podporované typy jsou: base64, hex, escape |
SELECT ENCODE('\\005123\\000'::bytea, 'escape'); |
decode(text, typ) |
bytea |
Dekódování ASCII řetězce do binárního, typ je stejný jako v předchozím případě |
|
Funkce pro práce s řetězci pracují s typy char, character varying, char a text. Z výkonostních důvodů je vhodnější používat práci nad pevnou délkou řetězce, byť za cenu obětování prostorové kapacity disku na serveru.
Samozřejmostí je možnost používání více zpracovávajících funkcí v jednom dotazu (výběru) a tyto kombinovat případně i s funkcemi aritmetickými. Pravděpodobně nejpoužívanějšími funkcemi budou trimovací funkce a převod mezi kódováním. Výběr kódování může být řízen dynamicky z aplikace podle platformy klienta.
Závěr
Tento díl byl druhý z těch, které jsou v podstatě jen výčtem funkcí s jejich velmi hrubým popisem. Z důležitých a používaných funkcí zbývají tři rodiny funkcí, pro práci s datumem/časem, se síťovými hodnotami a s geometrickými daty. Poté přijde něco malinko složitějšího.
Verze pro tisk
|
Příspívat do diskuze mohou pouze registrovaní uživatelé.
|
|
Vyhledávání software
Vyhledávání článků
28.11.2018 23:56 /František Kučera Prosincový sraz spolku OpenAlt se koná ve středu 5.12.2018 od 16:00 na adrese Zikova 1903/4, Praha 6. Tentokrát navštívíme organizaci CESNET. Na programu jsou dvě přednášky: Distribuované úložiště Ceph (Michal Strnad) a Plně šifrovaný disk na moderním systému (Ondřej Caletka). Následně se přesuneme do některé z nedalekých restaurací, kde budeme pokračovat v diskusi.
Komentářů: 1
12.11.2018 21:28 /Redakce Linuxsoft.cz 22. listopadu 2018 se koná v Praze na Karlově náměstí již pátý ročník konference s tématem Datová centra pro business, která nabídne odpovědi na aktuální a často řešené otázky: Jaké jsou aktuální trendy v oblasti datových center a jak je optimálně využít pro vlastní prospěch? Jak si zajistit odpovídající služby datových center? Podle jakých kritérií vybírat dodavatele služeb? Jak volit vhodné součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně datové centrum spravovat? Jak co nejlépe eliminovat možná rizika? apod. Příznivci LinuxSoftu mohou při registraci uplatnit kód LIN350, který jim přinese zvýhodněné vstupné s 50% slevou.
Přidat komentář
6.11.2018 2:04 /František Kučera Říjnový pražský sraz spolku OpenAlt se koná v listopadu – již tento čtvrtek – 8. 11. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma umění a technologie, IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář
4.10.2018 21:30 /Ondřej Čečák LinuxDays 2018 již tento víkend, registrace je otevřená.
Přidat komentář
18.9.2018 23:30 /František Kučera Zářijový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 20. 9. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář
9.9.2018 14:15 /Redakce Linuxsoft.cz 20.9.2018 proběhne v pražském Kongresovém centru Vavruška konference Mobilní řešení pro business.
Návštěvníci si vyslechnou mimo jiné přednášky na témata: Nejdůležitější aktuální trendy v oblasti mobilních technologií, správa a zabezpečení mobilních zařízení ve firmách, jak mobilně přistupovat k informačnímu systému firmy, kdy se vyplatí používat odolná mobilní zařízení nebo jak zabezpečit mobilní komunikaci.
Přidat komentář
12.8.2018 16:58 /František Kučera Srpnový pražský sraz spolku OpenAlt se koná ve čtvrtek – 16. 8. 2018 od 19:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát jsou tématem srazu databáze prezentaci svého projektu si pro nás připravil Standa Dzik. Dále bude prostor, abychom probrali nápady na využití IoT a sítě The Things Network, případně další témata.
Přidat komentář
16.7.2018 1:05 /František Kučera Červencový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 7. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát bude přednáška na téma: automatizační nástroj Ansible, kterou si připravil Martin Vicián.
Přidat komentář
Více ...
Přidat zprávičku
Poslední diskuze
31.7.2023 14:13 /
Linda Graham iPhone Services
30.11.2022 9:32 /
Kyle McDermott Hosting download unavailable
13.12.2018 10:57 /
Jan Mareš Re: zavináč
2.12.2018 23:56 /
František Kučera Sraz
5.10.2018 17:12 /
Jakub Kuljovsky Re: Jaký kurz a software by jste doporučili pro začínajcího kodéra?
Více ...
|