ARCHIV |
|||||||||||||
Software (10844)
Distribuce (131)
Skripty (697)
Menu
Diskuze
Informace
|
Perl (19) - Regulární výrazy - opakování a kvantifikátoryJedním ze základních kamenů regulárních výrazů jsou kvantifikátory, které umožňují aplikovat část regulárního výrazu vícekrát. Z předchozích dílů o regulárních výrazech zatím nejsme schopni (opomineme alternaci, ta má v regulárních výrazech jiný účel) vytvořit šablonu pro řetězce různé délky. Právě toto mají na starosti kvantifikátory. Kvantifikátorem určujeme počet opakování části regulárního výrazu. To znamená, že určitý počet znaků za sebou můžeme porovnat s jednou množinou znaků (šablonou pro 1 znak). Dosud jsme takto porovnávali vždy pouze 1 znak. Kvantifikátor se vždy uvádí za množinu znaků, jejíž četnost specifikuje. Množinou může opět být jak výčet znaků pomocí hranatých závorek, předdefinovaná množina tak i samotný znak. Libovolný počet opakováníUvedením hvězdičky dáváme najevo, že množina znaků před ní se může opakovat libovolněkrát. Regulárnímu výrazu x* (x je množina znaků, * je počet opakování) potom vyhovuje libovolný řetězec, skládající se z písmen x nebo prázdný řetězec. V prázdném řetězci je 0 písmen x, což hvězdička též zahrnuje. Jak bude vypadat podmínka, která určuje, zda bylo zadáno číslo?
print "Zadejte číslo:"; Problémem je, že regulárnímu výrazu vyhoví i prázdný řetězec. Tomu se dá zamezit například přidáním další číselné množiny před výraz. Potom musí být 1. znak číslem a další, pokud jsou, také:
/^[0-9][0-9]*$/
Nejméně 1 výskytAsi nejlepším řešením posledního problému by bylo použití znaku +, který provádí opakování minimálně jednou, a prázdný řetězec tudíž nevyhoví. Tyto zápisy mají stejný význam:
/^[0-9][0-9]*$/ Nejvíce 1 výskytPoužijete-li jako kvantifikátor otazník, má téměř stejný význam kdyby tam žádný kvantifikátor nebyl. Tyto 2 možnosti se liší v tom, že otazníku vyhoví ještě navíc prázdný řetězec. Jedna číslice nebo prázdný řetězec vyhovuje výrazu
/^[0-9]?$/
Jiný počet opakováníPokud se vám nehodí žádná z dosud nabízených možností, nabízejí regulární výrazy zápis počtu opakování pomocí složených závorek. Ty vymezují spodní a horní hranici počtu opakování. Existuje několik možností syntaxe.
{minimum,maximum} Čísla vyjadřující minimum a maximum nejsou neomezené. Záleží na nastavení při kompilaci. Obvykle nelze používat větší čísla než 32766, což dokazuje hláška Perlu Quantifier in {,} bigger than 32766 in regex, která na vás vyskočí po překročení definované meze. Vezměmě si výraz:
/^ab{2,4}c/
Vyhoví mu řetězce abbc (2 výskyty), abbbc (3 výskyty), abbbc (4 výskyty), ale už ne abc (1 výskyt) nebo abbbbbc (5 výskytů). Pokud je uveden jen 1 argument a není použita čárka, vyhoví vzoru pouze řetězce, obsahující danou množinu znaků právě tolikkrát, kolik je uvedeno v argumentu. Další možnost nabízí uvedení čárky, ale bez maxima. V takovém případě je maximum nekonečno. Potřebujete-li zapsat do regulárního výrazu nějaký rozsah opakování s mezerou (například 2, 3 nebo 5 a více opakování, ale ne 4 opakování), musíte si vypomoci alternací. Metaznaky +, * a ? pro počet opakování jsou tedy jen speciálními případy, které lze zapsat i pomocí složených závorek:
Ukažme si nyní program, který ověřuje bezpečnost hesla. Heslo budeme považovat za bezpečné, bude-li splňovat tyto 4 podmínky:
Pro každou podmínku napíšeme regulární výraz a pokud vyhoví heslo všem těmto vzorům, máme jistotu, že je heslo bezpečné.
print "Zadejte heslo: "; Poznámka - pokud byste chtěli, aby při zadávání hesla nezobrazovaly jeho pravé znaky, ale pouze hvězdičky (případně vůbec nic), použijte modul Term::ReadKey. Hladovost a sytost kvantifikátorůMetaznaky {}, *, + a ? jsou takzvaně hladové (,,greedy"). To znamená, že spolknou co možná nejdelší část řetězce. Dokazuje to tento kód:
$_ = "123456789"; Je vytisknuto 123456789 - tedy celý řetězec. To i přesto, že by vyhověl třeba také prázdný řetězec, vyhodnocování regulárního výrazu by se mohlo úspěšně ukončit a program by běžel dál. Kvantifikátory jsou hladové, a tak pohlcují nejdelší vyhovující podřetězec. To samé by platilo i v případě, kdybychom jako kvantifikátor místo hvězdičky zvolili například {3,5}. Potom by předchozí kód vytiskl prvních 5 číslic a ne 3, ačkoliv by to také stačilo. Tato vlastnost může občas činit problémy. Tak například, pokud chceme v HTML kódu vyhledat 1 obrázek a vypsat kód celé značky IMG:
$html = 'abc....<IMG SRC="obrazek" ALT="obrázek">....xyz'; Hvězdička vlivem hladovosti spolkne znaky do konce řetězce. Ale tam v našem případě znak > není. Proto se začne z místa, po které hvězdička spolkla text (v našem případě konec řetězce) hledat. Najde ho, ukončí další vyhodnocování, protože je na konci regulárního výrazu a program vytiskne přesně to, co jsme chtěli. Takže v pořádku. Problém nastane, pokud se znak > vyskytuje ještě někde mezi místem, po které byl spolknut text a tím "správným" znakem >. To si můžeme jednoduše ilustrovat:
$html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>'; Začátek je stejný jako v minulém příkladu. Hledá se řetězec "<IMG ", poté hvězdička pohltí vše do konce a odtud se opačným směrem hledá znak >. Ale takový se vyskytne už v značce </TABLE>! To znamená, že získáme řetězec <IMG SRC="obrazek" ALT="obrázek"></TD></TR><TD>...</TD></TABLE>. To jsme opravdu nechtěli. A může za to právě hladovost. Možnost, jak vzniklý problém řešit, může být přes funkce. To je zbytečně složité.
$html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>'; Jiné, o dost lepší řešení, lze aplikovat pomocí negované množiny znaků. Místo libovolného znaku (v našem regulárním výrazu reprezentován tečkou), specifikujeme vše mimo znaku >.
$html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>'; Dalším řešení nabízí sytost. Existují další 4 kvantifikátory, které fungují úplně stejně jako ty nám dosud známé, až na to, že nejsou hladové. Jsou to {}?, *?, +? a ??. Zapisují se stejné jako {}, *, + a ?, jen se za ně připisuje otazník. Pohltí minimální možný počet znaků, který vyhoví vzoru. Tento vzor tedy nepohltí 5 znaků, jak by to udělal hladový kvantifikátor, ale pouze 3:
$_ = "123456789"; Nakonec si ještě ukážeme řešení pro problém s vyhledáním obrázku v HTML kódu pomocí sytosti:
$html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>'; Příště se podíváme na funkci kulatých závorek v regulárních výrazech.
Související články
Předchozí Celou kategorii (seriál) Další
Perl (1) - Dávka teorie na úvod
Perl (2) - Úvod do syntaxe Perl (3) - Proměnné Perl (4) - Čísla a řetězce Perl (5) - Podmínky Perl (6) - Pravdivostní výrazy Perl (7) - Vstup poprvé Perl (8) - Některé základní vestavěné funkce Perl (9) - Cykly Perl (10) - Další řídící struktury Perl (11) - Pole - úvod Perl (12) - Pole - základní operace Perl (13) - Hashe Perl (14) - Další nástroje pro seznamy Perl (15) - Výchozí proměnná, heredoc, symbolické odkazy Perl (16) - Regulární výrazy - začínáme Perl (17) - Regulární výrazy - kotvy Perl (18) - Regulární výrazy - množiny znaků Perl (20) - Regulární výrazy - magické závorky Perl (21) - Regulární výrazy - nahrazování Perl (22) - Regulární výrazy - přepínače Perl (23) - Regulární výrazy - rozšířené vzory Perl (24) - Regulární výrazy - příklady Perl (25) - Regulární výrazy - závěr Perl (26) - Podprogramy Perl (27) - Prototypy Perl (28) - Rozsahy platnosti proměnných Perl (29) - Úvod k práci se soubory Perl (30) - Práce se soubory Perl (31) - Testování souborů Perl (32) - Jiné typy souborů Perl (33) - Formátování výstupu - printf Perl (34) - Formátování výstupu - formáty Perl (35) - Vestavěný debugger Perl (36) - Grafické debuggery Perl (37) - Začínáme s moduly Perl (38) - Rozhraní modulu Perl (39) - Pragma Perl (40) - Dodatky k modulům Perl (41) - CPAN Perl (42) - Argumenty příkazového řádku Perl (43) - Přepínače Perl (44) - Dlouhé přepínače Perl (45) - Odkazy Perl (46) - Užití odkazů a anonymní data Perl (47) - Složitější datové struktury Perl (48) - Libovolně složité datové struktury Perl (49) - Tabulky symbolů a typegloby Perl (50) - Uzávěry a iterátory Perl (51) - Signály Perl (52) - Externí příkazy Perl (53) - Režim nakažení Perl (54) - Fork Perl (55) - Eval Perl (56) - Volby příkazu perl Perl (57) - Jednořádkové skripty Perl (58) - OOP - úvod Perl (59) - OOP - typické použití Perl (60) - OOP - dědičnost Perl (61) - OOP - přínos a užití dědičnosti Perl (62) - OOP - přetěžování Perl (63) - OOP - závěr Perl (64) - Projekt - čtečka sportovních výsledků Perl (65) - Projekt - získání dat Perl (66) - Projekt - výběr zápasů a podrobnosti Perl (67) - Projekt - dokončujeme modul Perl (68) - Projekt - zobrazení zápasů Perl (69) - Projekt - online přenos Perl (70) - Plain Old Documentation Perl (71) - Navazování proměnných Perl (72) - Navazování složitějších datových typů Perl (73) - DBM Perl (74) - Sockety Perl (75) - Obsluha více klientů Perl (76) - Síťová hra v kostky Perl (77) - Služby internetu Perl (78) - Databáze - úvod Perl (79) - Databáze - manipulace s daty Perl (80) - Databáze - závěrečné poznámky Perl (81) - CGI - příprava webového serveru Perl (82) - CGI - první skripty Perl (83) - CGI - získávání dat od uživatele Perl (84) - CGI - usnadnění tvorby skriptů pomocí modulu CGI Perl (85) - CGI - generování dokumentu modulem CGI Perl (86) - CGI - cookies Perl (87) - CGI - příklad aplikace Perl (88) - CGI - závěr Perl (89) - Mason - snadné psaní webů Perl (90) - Mason - speciální bloky Perl (91) - Mason - handlery Perl (92) - Mason - závěr Perl (93) - Catalyst - MVC framework pro Perl Perl (94) - Catalyst - základy pro psaní aplikace Perl (95) - Catalyst - šablony Perl (96) - Catalyst - spolupráce s databází Perl (97) - Curses - tvorba textových uživatelských rozhraní Perl (98) - Curses - pozicování a okna Perl (99) - Curses - měření rychlosti psaní Perl (100) - Curses - použití hotových widgetů Perl (101) - Curses - jednoduchý textový editor Perl (102) - Rozšiřování Perlu pomocí XS Perl (103) - Rozšiřování Perlu pomocí SWIG Perl (104) - Testování rychlosti Perl (105) - Testování programových jednotek Perl (106) - Debugování pomocí komentářů Perl (107) - Moose - moderní objektový systém Perl (108) - Moose - základní vlastnosti Perl (109) - Moose - role Perl (110) - Moose - meta API Perl (111) - Pokročilá práce se seznamy Perl (112) - Práce s PDF Perl (113) - Práce s archivy Perl (114) - Tk - úvod Perl (115) - Tk - umísťování widgetů Perl (116) - Tk - základní widgety Perl (117) - Tk - některé pokročilejší widgety Perl (118) - Tk - čas a události Perl (119) - Tk - CD man Perl (120) - Wx - základní práce s widgety Perl (121) - Wx - události Perl (122) - Gtk2 - úvod Perl (123) - Gtk2 - základní práce s obrázky Perl (124) - Gtk2 - události a čas Perl (125) - Gtk2 - vlastní widgety Perl (126) - Gtk2 - textové okno a práce s pozicemi Perl (127) - Gtk2 - hierarchické seznamy Perl (128) - Gtk2 - dialogy Perl (129) - Gtk2 - skládání widgetů Perl (130) - Gtk2 - menu a toolbary Perl (131) - Gtk2 - transparentní okna, tray ikona, výběr souborů Perl (132) - Gtk2 - drag&drop, druid Perl (133) - Gtk2 - úpravy vzhledu aplikací pomocí rc Perl (134) - Gtk2 - Glade Interface Designer Perl (135) - XML - čtení a zápis Perl (136) - XML - DOM a SAX přístupy Perl (137) - Vlákna Perl (138) - Memoizace - cachování podprogramů Perl (139) - Profilling - efektivní odhalování pomalých míst v programu Perl (140) - Profilling - píšeme si vlastní profiler / debugger Perl (141) - Formátování kódu, deparsování, perltidy Perl (142) - Způsoby konfigurování Perl (143) - Struktura datových typů, správa paměti Perl (144) - POE - událostmi řízené programování Perl (145) - POE - aplikace typu klient-server Perl (146) - Perl 6 - jazyk budoucnosti Perl (147) - Perl 6 - regulární výrazy, nové operátory Perl (148) - Perl Culture Perl (149) - Závěr Pozvánka na Český Perl Workshop Perl 5.22.0 a vše okolo Perl 5.24.0 a vše okolo Předchozí Celou kategorii (seriál) Další
|
Vyhledávání software
Vyhledávání článků
28.11.2018 23:56 /František Kučera 12.11.2018 21:28 /Redakce Linuxsoft.cz 6.11.2018 2:04 /František Kučera 4.10.2018 21:30 /Ondřej Čečák 18.9.2018 23:30 /František Kučera 9.9.2018 14:15 /Redakce Linuxsoft.cz 12.8.2018 16:58 /František Kučera 16.7.2018 1:05 /František Kučera
Poslední diskuze
31.7.2023 14:13 /
Linda Graham 30.11.2022 9:32 /
Kyle McDermott 13.12.2018 10:57 /
Jan Mareš 2.12.2018 23:56 /
František Kučera 5.10.2018 17:12 /
Jakub Kuljovsky | |||||||||||
ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2024) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze |