Perl (23) - Regulární výrazy - rozšířené vzory

Rozšířené vzory jsou rozšířením tradiční syntaxe regulárních výrazů o nové konstrukce.

2.1.2006 06:00 | Jiří Václavík | přečteno 25753×

Rozšířené vzory

Jak již bylo řečeno, rozšířená syntaxe zavádí některé speciální konstrukce. Ač možná nevědomky, již jsme se s ní setkali. Jde například o zápis závorek tak, aby jejich obsah nebyl zapamatován.

Syntaxe rozšířených vzorů vypadá obecně takto: (?znak ). Znak zde zastupuje nějaký symbol nebo symboly, které blíže určují, o jaký rozšířený vzor se jedná.

Upozornění: Některé z rozšířených vzorů jsou zařazeny pouze experimentálně a není zaručeno, že budou dostupné i ve vyšších verzích Perlu. Proto použití těchto konstrukcí konzultujte s manuálem (man perlre).

Komentáře

Dalším způsobem, jak dovnitř regulárního výrazu vložit komentář je použití syntaxe (?# ). Chová se stejně, jako klasické komentáře - je ignorován. Lze ho psát na libovolné místo v regulárním výrazu. Jediným omezením v komentáři je nemožnost použít uzavírací kulatou závorku. Většinou je přehlednější užít volnou syntaxi a přepínač x, nicméně rozšířený vzor tu je také.

  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+$(?#číslo v šestnáctkové soustavě)/;
  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+(?#číslo v šestnáctkové soustavě)$/;

Lokální určení přepínače

Lze nastavit, aby byl některý z přepínačů imsx aktivní jen pro určitou část vzoru. Následkem uvedení přepínače i se nerozlišují velká a malá písmena. To můžeme aplikovat na část vzoru:

  print "MATCHED" if "abcdef" =~ /((?i)abc)def/; #vyhovuje
  print "MATCHED" if "AbCdef" =~ /((?i)abc)def/; #vyhovuje - u podřetězce abc nezáleží na velikosti písmen
  print "MATCHED" if "abcDef" =~ /((?i)abc)def/; #nevyhovuje - u podřetězce def záleží na velikosti písmen

Přepínač, kterému předřadíme znak -, je výslovně zakázán. Tímto způsobem lze globální přepínač naopak zrušit.

  print "MATCHED" if "abcdef" =~ /((?-i)abc)def/i; #vyhovuje
  print "MATCHED" if "ABCdef" =~ /((?-i)abc)def/i; #nevyhovuje - globální přepínač i, který nerozlišuje velká a malá písmena, byl přebit lokálním, který ho ruší
  print "MATCHED" if "abcDef" =~ /((?-i)abc)def/i; #vyhovuje - u podřetězce def nezáleží na velikosti písmen. Přepínač i je zrušen pouze pro abc

Aby nebyl obsah závorek zároveň uložen, lze použít zápis (?přepínač:řetězec), což je ekvivalentní s (?:(?přepínač)řetězec)

Lokální přepínače umožňují ještě další věc. Co když v cyklu potřebujeme testovat výraz, u nějž předem nevíme, jestli bude záležet na velikosti? Určitě bychom našli nějaké okliky, jak toho docílit, ale nejlepší řešení povede právě přes lokální přepínače, které vztáhneme na celý regulární výraz.

  foreach $vzor (qw(Praha (?i)linux)) {
      print "MATCHED 1\n" if "praha" =~ /$vzor/; #nevyhovuje
      print "MATCHED 2\n" if "Praha" =~ /$vzor/; #vyhovuje
      print "MATCHED 3\n" if "Linux" =~ /$vzor/; #vyhovuje
      print "MATCHED 4\n" if "linux" =~ /$vzor/; #vyhovuje
  }

Pohled dopředu a dozadu

Pohled patří mezi další speciální vlastnosti. V určitém stadiu se testování řetězce může zastavit a lze porovnat část řetězce za nebo před aktuální pozicí. Pozice se přitom nemění. V konečném důsledku to znamená, že ten řetězec, který byl kontrolován z nějaké zadní nebo přední pozice, nebude součástí vyhovujícího podřetězce, přestože byl srovnáván. Změní mimo jiné věci jako návratová hodnota, hodnoty proměnných $n nebo proměnná $&. Syntaxe pohledu dopředu je (?= ) a pohledu dozadu (?<= ).

Význam těchto konstrukcí je zřejmý i z jejich přesnějších názvů - vzor (?= ) se nazývá pozitivní look-ahead a (?<= ) je pozitivní look-behind.

  $r = "mandrivalinux linux linuxsoft";
  @presna_shoda = ($r =~ /(?<=\W)linux(?=\W)/g);#linux
  @zacinajici = ($r =~ /(?<=\W)linux\w+/g);     #linuxsoft
  @koncici = ($r =~ /\w+linux(?=\W)/g);         #mandrivalinux
  

Obzvláště z 1. případu je patrné, co pohledy dopředu a dozadu dělají. Ve výsledném seznamu je jen řetězec "linux", přestože jsou ve skutečnosti kontrolovány i znaky před a po. Po odstranění pohledů bude tato kontrola zrušena.

Pokud (?= ) resp. (?<= ) nahradíme za (?! ) (negativní look-ahead) resp. (?<! ) (negativní look-behind), je význam opačný. Řetězec vyhoví pouze jestliže vzor neuvidí vepředu resp. vzadu vzor, který jsme určili.

Nakonec ještě poznamenejme, že ze zřejmých důvodů nelze v look-behind použít kvantifikátory, jež nevyjadřují konkrétní délku.

Provedení kódu Perlu uvnitř regulárního výrazu

Konstrukce (?{výraz}) slouží k vykonání perlového bloku kódu uvnitř vzoru, přičemž výsledek nijak neovlivňuje vzor. To lze použít v případě, kdy chceme už v regulárním výrazu přiřadit zapamatované hodnoty do proměnných.

  $retezec = "Cena: 120USD";
  $retezec =~ /Cena:\s(\d+)(?{$cena = $1})/;
  print $cena; #tiskne 120

Místo $1 by bylo pohodlnější ve vzoru použít speciální proměnnou $^N. Jejím obsahem je vždy posledně zapamatovaný řetězec.

A pro úplnost zmíním ještě proměnnou $^R, která obsahuje návratovou hodnotu posledního bloku vloženého do regulárního výrazu.

Provedení kódu Perlu uvnitř regulárního výrazu s dosazením do vzoru

Zápis (??{výraz}) má podobný význam jako ten předešlý. Liší se v tom, že výsledek po vyhodnocení výrazu je dosazen do vzoru.

  $retezec = "Cena: 120USD";
  $kusu = 5;
  $cena_za_kus = 24;
  print "MATCHED" if $retezec =~ /(??{$cena_za_kus*$kusu})USD/;

Vypnutí backtrackingu

Backtracking znamená posouvání pozice v porovnávaném řetězci zpět. To nastává při porovnávání pomocí hladového kvantifikátoru. Nejprve je vždy vlivem hladového kvantifikátoru spolknuta nejdelší možná část textu a poté se pozice posunuje zpět. Právě toto je backtracking.

  print "MATCHED" if "cokoliv" =~ /.*liv/;    #vyhovuje
  print "MATCHED" if "cokoliv" =~ /(?>.*)liv/;#nevyhovuje

V prvním případě backtracking normálně funguje. Ve druhém je však vlivem hladového kvantifikátoru spolknut celý text až do konce, backtracking neprobíhá a vzor tedy nemůže uspět.

Podmínky

A na závěr jsem si nechal řídící konstrukci. Je možné se až uvnitř regulárního výrazu rozhodnout, jak bude jeho další část vypadat. Podmínka má dva možné zápisy. Pro podmínku typu if-else to je (?(test)v_případě_true|v_případě_false) a pro samotné if jen (?(test)v_případě_true). Test je výrazem, který se vyhodnocuje na true nebo false. Podle vyhodnocení je aplikována příslušná část regulárního výrazu.

  $prospel = 0;
  $retezec = "nedostatečný";
  print "MATCHED" if $retezec =~ /
      (?(?{
                $prospel == 1;                       #pokud prospěl
          })
        (^(výborný|chvalitebný|dobrý|dostatečný)$)   #aplikuje se tento regulární výraz
        |
        ^nedostatečný$                               #jinak tento
      )
      /x;

Pokud máte zájem o podrobnější informace o rozšířených vzorech, odkazuji na manuálovou stránku perlre a její oddíl Extended Patterns.

Další escape znaky

V předcházejících dílech jsme již pár escape znaků poznali, ale ještě mnohé další zbývají. Pojďme si představit alespoň některé z nich.

Pomocí escape znaků lze tisknout všechny znaky ASCII tabulky. Libovolný znak se zapisuje buď osmičkově nebo šestnáckově. V 1. případě se píše příslušné trojmístné číslo za zpětné lomítko, u šestnáctkového zápisu je to dvojmístné číslo za \x.

  print "Perl" =~ /\x50\x65\x72\x6C/; #šestnáctkový zápis
  print "Perl" =~ /\120\145\162\154/; #osmičkový zápis

Escape znaky lze použít ke změně velikosti písmen. Převedeme řetězec s náhodnou velikostí znaků na řetězec, který velkým písmenem pouze začíná (ostatní budou malá).

  $retezec = "náhODná VElIkOSt";
  $retezec =~ s/(.?)(.*)/\u\1\L\2\E/;
  print $retezec; #tiskne "Náhodná velikost"

Znak \u Převádí znak, který následuje, na velké písmeno. Podobně znak \l převede následující písmeno na malé. \L změmí skupinu znaků na malá písmena. Skupina začíná ihned za \L a končí uvedením znaku \E nebo koncem řetězce (v ukázce tedy není nezbytně nutný). Opět existuje alternativa v podobě \U pro převedení na velká písmena, která také končí znakem \E.

Další možností escape znaků je potlačení metavýznamu části řetězce. Stačí ji jen ohraničit znaky \Q (začátek) a \E (konec). 1. případ nevyhoví, protože otazník má význam kvantifikátoru. \Q tento význam ruší.

  print "MATCHED" if " ? " =~ /^ ? $/;
  print "MATCHED" if " ? " =~ /^\Q ? \E$/;

Další věc nesouvisí ani tak s escape znaky, jako spíše s významem speciálních znaků. Vytvoříme vzor, kterému vyhoví jeden z těchto řetězců: "/root", "/home/xdf" nebo "/usr/local/apache2.2/xdf". V nich se vyskytuje řada lomítek, které ale mají v regulárních výrazech speciální význam. Proto jim všem musíme předřazovat zpětné lomítko.

  /^((\/root)|(\/home\/xdf)|(\/usr\/local\/apache2\.2\/xdf))$/

Je to správné řešení, ale právě v těchto případech (typické právě pro adresářové cesty) je užitečné použít jiný uvozovací znak, který není ve výrazu použit. Připomínám, že je potom povinné i uvedení m před uvozujícím znakem.

  m#^((/root)|(/home/xdf)|(/usr/local/apache2\.2/xdf))$#

Příště se už konečně podíváme na nějaké praktické užití regulárních výrazů.

Online verze článku: http://www.linuxsoft.cz/article.php?id_article=1054