ARCHIV

Perl (23) - Regulární výrazy - rozšířené vzory

Rozšířené vzory jsou rozšířením tradiční syntaxe regulárních výrazů o nové konstrukce.

2.1.2006 06:00 | Jiří Václavík | Články autora | přečteno 27873×

Rozšířené vzory

Jak již bylo řečeno, rozšířená syntaxe zavádí některé speciální konstrukce. Ač možná nevědomky, již jsme se s ní setkali. Jde například o zápis závorek tak, aby jejich obsah nebyl zapamatován.

Syntaxe rozšířených vzorů vypadá obecně takto: (?znak ). Znak zde zastupuje nějaký symbol nebo symboly, které blíže určují, o jaký rozšířený vzor se jedná.

Upozornění: Některé z rozšířených vzorů jsou zařazeny pouze experimentálně a není zaručeno, že budou dostupné i ve vyšších verzích Perlu. Proto použití těchto konstrukcí konzultujte s manuálem (man perlre).

Komentáře

Dalším způsobem, jak dovnitř regulárního výrazu vložit komentář je použití syntaxe (?# ). Chová se stejně, jako klasické komentáře - je ignorován. Lze ho psát na libovolné místo v regulárním výrazu. Jediným omezením v komentáři je nemožnost použít uzavírací kulatou závorku. Většinou je přehlednější užít volnou syntaxi a přepínač x, nicméně rozšířený vzor tu je také.


  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+$(?#číslo v šestnáctkové soustavě)/;

  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+(?#číslo v šestnáctkové soustavě)$/;

Lokální určení přepínače

Lze nastavit, aby byl některý z přepínačů imsx aktivní jen pro určitou část vzoru. Následkem uvedení přepínače i se nerozlišují velká a malá písmena. To můžeme aplikovat na část vzoru:


  print "MATCHED" if "abcdef" =~ /((?i)abc)def/; #vyhovuje

  print "MATCHED" if "AbCdef" =~ /((?i)abc)def/; #vyhovuje - u podřetězce abc nezáleží na velikosti písmen

  print "MATCHED" if "abcDef" =~ /((?i)abc)def/; #nevyhovuje - u podřetězce def záleží na velikosti písmen

Přepínač, kterému předřadíme znak -, je výslovně zakázán. Tímto způsobem lze globální přepínač naopak zrušit.


  print "MATCHED" if "abcdef" =~ /((?-i)abc)def/i; #vyhovuje

  print "MATCHED" if "ABCdef" =~ /((?-i)abc)def/i; #nevyhovuje - globální přepínač i, který nerozlišuje velká a malá písmena, byl přebit lokálním, který ho ruší

  print "MATCHED" if "abcDef" =~ /((?-i)abc)def/i; #vyhovuje - u podřetězce def nezáleží na velikosti písmen. Přepínač i je zrušen pouze pro abc

Aby nebyl obsah závorek zároveň uložen, lze použít zápis (?přepínač:řetězec), což je ekvivalentní s (?:(?přepínač)řetězec)

Lokální přepínače umožňují ještě další věc. Co když v cyklu potřebujeme testovat výraz, u nějž předem nevíme, jestli bude záležet na velikosti? Určitě bychom našli nějaké okliky, jak toho docílit, ale nejlepší řešení povede právě přes lokální přepínače, které vztáhneme na celý regulární výraz.


  foreach $vzor (qw(Praha (?i)linux)) {

      print "MATCHED 1\n" if "praha" =~ /$vzor/; #nevyhovuje

      print "MATCHED 2\n" if "Praha" =~ /$vzor/; #vyhovuje

      print "MATCHED 3\n" if "Linux" =~ /$vzor/; #vyhovuje

      print "MATCHED 4\n" if "linux" =~ /$vzor/; #vyhovuje

  }

Pohled dopředu a dozadu

Pohled patří mezi další speciální vlastnosti. V určitém stadiu se testování řetězce může zastavit a lze porovnat část řetězce za nebo před aktuální pozicí. Pozice se přitom nemění. V konečném důsledku to znamená, že ten řetězec, který byl kontrolován z nějaké zadní nebo přední pozice, nebude součástí vyhovujícího podřetězce, přestože byl srovnáván. Změní mimo jiné věci jako návratová hodnota, hodnoty proměnných $n nebo proměnná $&. Syntaxe pohledu dopředu je (?= ) a pohledu dozadu (?<= ).

Význam těchto konstrukcí je zřejmý i z jejich přesnějších názvů - vzor (?= ) se nazývá pozitivní look-ahead a (?<= ) je pozitivní look-behind.


  $r = "mandrivalinux linux linuxsoft";

  @presna_shoda = ($r =~ /(?<=\W)linux(?=\W)/g);#linux

  @zacinajici = ($r =~ /(?<=\W)linux\w+/g);     #linuxsoft

  @koncici = ($r =~ /\w+linux(?=\W)/g);         #mandrivalinux

Obzvláště z 1. případu je patrné, co pohledy dopředu a dozadu dělají. Ve výsledném seznamu je jen řetězec "linux", přestože jsou ve skutečnosti kontrolovány i znaky před a po. Po odstranění pohledů bude tato kontrola zrušena.

Pokud (?= ) resp. (?<= ) nahradíme za (?! ) (negativní look-ahead) resp. (?<! ) (negativní look-behind), je význam opačný. Řetězec vyhoví pouze jestliže vzor neuvidí vepředu resp. vzadu vzor, který jsme určili.

Nakonec ještě poznamenejme, že ze zřejmých důvodů nelze v look-behind použít kvantifikátory, jež nevyjadřují konkrétní délku.

Provedení kódu Perlu uvnitř regulárního výrazu

Konstrukce (?{výraz}) slouží k vykonání perlového bloku kódu uvnitř vzoru, přičemž výsledek nijak neovlivňuje vzor. To lze použít v případě, kdy chceme už v regulárním výrazu přiřadit zapamatované hodnoty do proměnných.


  $retezec = "Cena: 120USD";

  $retezec =~ /Cena:\s(\d+)(?{$cena = $1})/;

  print $cena; #tiskne 120

Místo $1 by bylo pohodlnější ve vzoru použít speciální proměnnou $^N. Jejím obsahem je vždy posledně zapamatovaný řetězec.

A pro úplnost zmíním ještě proměnnou $^R, která obsahuje návratovou hodnotu posledního bloku vloženého do regulárního výrazu.

Provedení kódu Perlu uvnitř regulárního výrazu s dosazením do vzoru

Zápis (??{výraz}) má podobný význam jako ten předešlý. Liší se v tom, že výsledek po vyhodnocení výrazu je dosazen do vzoru.


  $retezec = "Cena: 120USD";

  $kusu = 5;

  $cena_za_kus = 24;

  print "MATCHED" if $retezec =~ /(??{$cena_za_kus*$kusu})USD/;

Vypnutí backtrackingu

Backtracking znamená posouvání pozice v porovnávaném řetězci zpět. To nastává při porovnávání pomocí hladového kvantifikátoru. Nejprve je vždy vlivem hladového kvantifikátoru spolknuta nejdelší možná část textu a poté se pozice posunuje zpět. Právě toto je backtracking.


  print "MATCHED" if "cokoliv" =~ /.*liv/;    #vyhovuje

  print "MATCHED" if "cokoliv" =~ /(?>.*)liv/;#nevyhovuje

V prvním případě backtracking normálně funguje. Ve druhém je však vlivem hladového kvantifikátoru spolknut celý text až do konce, backtracking neprobíhá a vzor tedy nemůže uspět.

Podmínky

A na závěr jsem si nechal řídící konstrukci. Je možné se až uvnitř regulárního výrazu rozhodnout, jak bude jeho další část vypadat. Podmínka má dva možné zápisy. Pro podmínku typu if-else to je (?(test)v_případě_true|v_případě_false) a pro samotné if jen (?(test)v_případě_true). Test je výrazem, který se vyhodnocuje na true nebo false. Podle vyhodnocení je aplikována příslušná část regulárního výrazu.


  $prospel = 0;

  $retezec = "nedostatečný";

  print "MATCHED" if $retezec =~ /

      (?(?{

                $prospel == 1;                       #pokud prospěl

          })

        (^(výborný|chvalitebný|dobrý|dostatečný)$)   #aplikuje se tento regulární výraz

        |

        ^nedostatečný$                               #jinak tento

      )

      /x;

Pokud máte zájem o podrobnější informace o rozšířených vzorech, odkazuji na manuálovou stránku perlre a její oddíl Extended Patterns.

Další escape znaky

V předcházejících dílech jsme již pár escape znaků poznali, ale ještě mnohé další zbývají. Pojďme si představit alespoň některé z nich.

Pomocí escape znaků lze tisknout všechny znaky ASCII tabulky. Libovolný znak se zapisuje buď osmičkově nebo šestnáckově. V 1. případě se píše příslušné trojmístné číslo za zpětné lomítko, u šestnáctkového zápisu je to dvojmístné číslo za \x.


  print "Perl" =~ /\x50\x65\x72\x6C/; #šestnáctkový zápis

  print "Perl" =~ /\120\145\162\154/; #osmičkový zápis

Escape znaky lze použít ke změně velikosti písmen. Převedeme řetězec s náhodnou velikostí znaků na řetězec, který velkým písmenem pouze začíná (ostatní budou malá).


  $retezec = "náhODná VElIkOSt";

  $retezec =~ s/(.?)(.*)/\u\1\L\2\E/;

  print  $retezec;  #tiskne "Náhodná velikost"

Znak \u Převádí znak, který následuje, na velké písmeno. Podobně znak \l převede následující písmeno na malé. \L změmí skupinu znaků na malá písmena. Skupina začíná ihned za \L a končí uvedením znaku \E nebo koncem řetězce (v ukázce tedy není nezbytně nutný). Opět existuje alternativa v podobě \U pro převedení na velká písmena, která také končí znakem \E.

Další možností escape znaků je potlačení metavýznamu části řetězce. Stačí ji jen ohraničit znaky \Q (začátek) a \E (konec). 1. případ nevyhoví, protože otazník má význam kvantifikátoru. \Q tento význam ruší.


  print  "MATCHED" if " ? " =~ /^ ? $/;

  print  "MATCHED" if " ? " =~ /^\Q ? \E$/;

Další věc nesouvisí ani tak s escape znaky, jako spíše s významem speciálních znaků. Vytvoříme vzor, kterému vyhoví jeden z těchto řetězců: "/root", "/home/xdf" nebo "/usr/local/apache2.2/xdf". V nich se vyskytuje řada lomítek, které ale mají v regulárních výrazech speciální význam. Proto jim všem musíme předřazovat zpětné lomítko.


  /^((\/root)|(\/home\/xdf)|(\/usr\/local\/apache2\.2\/xdf))$/

Je to správné řešení, ale právě v těchto případech (typické právě pro adresářové cesty) je užitečné použít jiný uvozovací znak, který není ve výrazu použit. Připomínám, že je potom povinné i uvedení m před uvozujícím znakem.


  m#^((/root)|(/home/xdf)|(/usr/local/apache2\.2/xdf))$#

Příště se už konečně podíváme na nějaké praktické užití regulárních výrazů.

Verze pro tisk

Související články

Předchozí Celou kategorii (seriál) Další

Předchozí Celou kategorii (seriál) Další


DISKUZE Nejsou žádné diskuzní příspěvky u dané položky. Příspívat do diskuze mohou pouze registrovaní uživatelé.

Vyhledávání software

Vyhledávání článků

Rozšířené vyhledávání

Linux News

28.11.2018 23:56 /František Kučera
Prosincový sraz spolku OpenAlt se koná ve středu 5.12.2018 od 16:00 na adrese Zikova 1903/4, Praha 6. Tentokrát navštívíme organizaci CESNET. Na programu jsou dvě přednášky: Distribuované úložiště Ceph (Michal Strnad) a Plně šifrovaný disk na moderním systému (Ondřej Caletka). Následně se přesuneme do některé z nedalekých restaurací, kde budeme pokračovat v diskusi.
Komentářů: 1

12.11.2018 21:28 /Redakce Linuxsoft.cz
22. listopadu 2018 se koná v Praze na Karlově náměstí již pátý ročník konference s tématem Datová centra pro business, která nabídne odpovědi na aktuální a často řešené otázky: Jaké jsou aktuální trendy v oblasti datových center a jak je optimálně využít pro vlastní prospěch? Jak si zajistit odpovídající služby datových center? Podle jakých kritérií vybírat dodavatele služeb? Jak volit vhodné součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně datové centrum spravovat? Jak co nejlépe eliminovat možná rizika? apod. Příznivci LinuxSoftu mohou při registraci uplatnit kód LIN350, který jim přinese zvýhodněné vstupné s 50% slevou.
Přidat komentář

6.11.2018 2:04 /František Kučera
Říjnový pražský sraz spolku OpenAlt se koná v listopadu – již tento čtvrtek – 8. 11. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma umění a technologie, IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář

4.10.2018 21:30 /Ondřej Čečák
LinuxDays 2018 již tento víkend, registrace je otevřená.
Přidat komentář

18.9.2018 23:30 /František Kučera
Zářijový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 20. 9. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář

9.9.2018 14:15 /Redakce Linuxsoft.cz
20.9.2018 proběhne v pražském Kongresovém centru Vavruška konference Mobilní řešení pro business. Návštěvníci si vyslechnou mimo jiné přednášky na témata: Nejdůležitější aktuální trendy v oblasti mobilních technologií, správa a zabezpečení mobilních zařízení ve firmách, jak mobilně přistupovat k informačnímu systému firmy, kdy se vyplatí používat odolná mobilní zařízení nebo jak zabezpečit mobilní komunikaci.
Přidat komentář

12.8.2018 16:58 /František Kučera
Srpnový pražský sraz spolku OpenAlt se koná ve čtvrtek – 16. 8. 2018 od 19:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát jsou tématem srazu databáze prezentaci svého projektu si pro nás připravil Standa Dzik. Dále bude prostor, abychom probrali nápady na využití IoT a sítě The Things Network, případně další témata.
Přidat komentář

16.7.2018 1:05 /František Kučera
Červencový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 7. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát bude přednáška na téma: automatizační nástroj Ansible, kterou si připravil Martin Vicián.
Přidat komentář

Více ... Přidat zprávičku

Poslední diskuze

31.7.2023 14:13 / Linda Graham
iPhone Services

30.11.2022 9:32 / Kyle McDermott
Hosting download unavailable

13.12.2018 10:57 / Jan Mareš
Re: zavináč

2.12.2018 23:56 / František Kučera
Sraz

5.10.2018 17:12 / Jakub Kuljovsky
Re: Jaký kurz a software by jste doporučili pro začínajcího kodéra?

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2026) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze