2. díl o regulárních výrazech věnujeme kotvám.
1.11.2005 07:00 | Jiří Václavík | přečteno 36378×
Kotvy jsou speciálními znaky, které se vyznačují nulovou délkou. Jsou totiž určeny svým okolím. Nejde tedy o znak ve svém smyslu, ale spíše o pozici. V regulárním výrazu se označuje buď speciálním metaznakem nebo escape znakem.
Dosud jsme vytvářeli vzory, které se mohli vyskytovat na libovolném místě řetězce. Nezřídka ale potřebujeme specifikovat, jakým podřetězcem má řetězec začínat nebo jakým končit. To je asi nejčastější užití kotev. Začátek řetězce je reprezentován znakem ^ a konec znakem $. V praxi vypadá jejich použití následovně:
$retezec = "text, který končí\n slovem xxx";
print $retezec =~ /xxx$/; #true - řetězec skutečně končí na xxx
print $retezec =~ /^text/; #true - řetězec začíná na text
print $retezec =~ /končí\n/;#true - řetězec obsahuje daný vzor
print $retezec =~ /končí$/; #false - řetězec nekončí vzorem
Samozřejmě nám nic nebrání určit začátek i konec řetězce zároveň. Toto jsou zápisy, které dělají totéž, ale každý jinak:
$retezec = "regexp";
print $retezec eq "regexp"; #tiskne 1 - $retezec má stejnou hodnotu jako "regexp"
print $retezec =~ /^regexp$/;#tiskne 1 - to samé s využitím regulárních výrazů
Escape sekvence \b je nalezena na místech, kde končí nebo začíná slovo - tedy v místě, kde se stýká znak slova (\w) s jiným znakem (\W). Doplňkem pozice, určené znakem \b je \B. Tomu vyhovují všechny pozice mimo hranici slova.
print "slovo" =~ /\blov\b/; #nevyhovuje
print "slov" =~ /\blov\b/; #nevyhovuje
print "lov," =~ /\blov\b/; #vyhovuje; čárka není znakem slova
print "lovec" =~ /\blov\B/; #vyhovuje
První 3 příkazy hledají v řetězci slovo "lov" a poslední příkaz slovo, které na "lov" začíná.
Dalšími znaky se speciálním významem jsou \A a ^. ^ znamená začátek řádku a \A začátek řetězce. Abychom mohli tyto 2 znaky rozlišit, musíme ale v regulárním výrazu aktivovat režim více řádků. K tomu slouží přepínač m (regulární výraz pak bude vypadat takto: m//m). V tomto režimu bude ^ nalezeno na začátku řetězce, ale také za každým znakem nového řádku. \A se vždy vztahuje jen na začátek řetězce - je tedy v řetězci právě jednou.
O přepínačích ještě nějakou dobu mluvit nebudeme. Pro pochopení stačí vědět, že se uvádějí za koncové lomítko regulárního výrazu. Pokud k m/vzor/ chceme přidat přepínače x a y, bude zápis vypadat takto: m/vzor/xy.
Mějme řetězec:
radek 1\nradek 2\nradek 3
Teď do něj znázorněme znaky \A a ^. Bez použití přepínače m:
<\A><^>radek 1\nradek 2\nradek 3
A pokud je přepínač m nastaven na "zapnuto", je na začátku každého řádku ještě ^:
<\A><^>radek 1\n<^>radek 2\n<^>radek 3
Pokud nemáte představu, jak by se začátek řádku použil, zde je ještě konkrétní příklad:
print "MATCHED" if "radek 1\nradek 2\nradek 3" =~ /^\Aradek 1\n^/m; #vyhovuje
print "MATCHED" if "radek 1\nradek 2\nradek 3" =~ /\A^radek 1\n^/m; #vyhovuje - navíc je vidět, že nezáleží na pořadí ^ a \A
print "MATCHED" if "radek 1\nradek 2\nradek 3" =~ /^radek 1\n^/; #nevyhovuje - není přepínač a ^ tedy funguje stejně jako začátek řetězce
Mechanizmus funguje podobně jako začátek řetězce nebo řádku. Je též nutný přepínač m.
S přepínačem m vypadá řetězec a neviditelné znaky v něm následovně:
<\A><^>radek 1<$>\n<^>radek 2<$>\n<^>radek 3<$><\Z>
Variantou znaku \Z je \z. Jejich význam se liší v tom, že u \z nesmí být na konci řetězce znak nového řádku.
$x = "...XXX\n";
print "MATCHED" if $x =~ /XXX\Z/; #vyhovuje
print "MATCHED" if $x =~ /XXX\z/; #nevyhovuje
Poznámka: Existuje speciální proměnná $*, která umí nahradit přepínač m. Pokud $* == 1, fungují vzory jako s m, v případě, že $* == 0 ne. Tato proměnná se ale nedoporučuje používat. Dávejte raději přednost uvedení přepínače.
Znak \G je na pozici, kterou lze určit funkcí pos, což je místo posledního úspěšného nalezení vzoru.
pos vrací pozici, na které byl nalezen poslední hledaný výskyt. Je tedy nutný přepínač g, který ale teprve budeme rozebírat. Teď napišme program, který vypíše počet výskytů určeného znaku a jeho pozice. V každé iteraci cyklu budeme hledat v daném řetězci další pozici hledaného znaku, a právě tu přidáme do pole @pozice.
$" = ", ";
$retezec = "matematika";
while ($retezec =~ /a/g){
push(@pozice, pos $retezec);
}
print "Písmeno a se v řetězci vyskytuje ", scalar @pozice, "x a to na pozicích @pozice.\n";
Představte si následující kód:
if ($volba =~ /Linux/ or $volba =~ /Perl/ or $volba =~ /C/){
print "Správná volba!";
}
Zápis je dost nepohodlný a nepřehledný. Logické or lze naštěstí přesunout z podmínky přímo do regulárního výrazu. Zapisuje se znakem | (někdy se nazývá alternace). Předchozí kód tak velmi zjednodušíme:
if ($volba =~ /Linux|Perl|C/){
print "Správná volba!";
}
Tento kód uzná každý řetězec, ve kterém se vyskytuje 1 z hledaných podřetězců. Ale takové C se může vyskytovat v leckterém řetězci. Proto bude vhodné specifikovat začátek a konec řetězce. K tomu nestačí uvést jen znaky ^ a $, ale je nutné ozávorkovat vše, co patří k OR. Závorky sdružují skupinu znaků.
Poznámka - problematice závorek se ještě budeme podrobně věnovat.
if ($volba =~ /^(Linux|Perl|C)$/){
print "Správná volba!";
}
Podobným způsobem je výhodné dělit slova. Kupříkladu
/Perl(5|6)/
bude rychlejší než
/Perl5|Perl6/
Řetězec "Perl" je totiž v 1. případě hledán pouze jednou.
Příště se konečně podíváme na třídy znaků.