PHP obsahuje nástroje pro práci s regulárními výrazy. Ukažme si, jak tyto funkce použít v praktickém programování.
9.7.2004 15:00 | Petr Zajíc | přečteno 106201×
Pokud jste na PHP přešli z ASP (jako kdysi já) pravděodobně Vám regulární výrazy nic neříkají. A přitom jsou tak zábavné. Podívejme se, jak celá ta věc funguje.
Název "výrazy" je trochu matoucí. V díle seriálu
o výrazech jsme prohlásili, že výraz je cokoli, co má hodnotu.
Regulární výrazy jsou naproti tomu jen vžitým pojmenováním mechanismu,
který nám umožňuje pracovat s řetězci a maskami. Nejlepší bude opustit
šedivou teorii a vrhnout se hned na nějaké příklady.
Mějme například masku "Petr". Této masce vyhoví řetězce "Petr je borec", "Je doma Petr?" i "Honza, Petr a Pavel", protože všechny obsahují slovo Petr. Výraz "Franta je taky borec" pochopitelně masce nevyhoví, neb slovo Petr neobsahuje. V PHP přesně na tohle testování existuje funkce ereg, která vrací TRUE nebo FALSE pro případy, kdy řetězec vyhoví nebo nevyhoví masce:
<?
echo (integer) ereg("Petr", "Petr je borec");
echo (integer) ereg("Petr", "Je doma Petr?");
echo (integer) ereg("Petr", "Honza, Petr a Pavel");
echo (integer) ereg("Petr", "Franta je taky borec");
?>
To bylo jednoduché. Síla regulárních výrazů však spočívá v něčem
trochu jiném. Teď budeme postupovat tak, že nejdřív si vysvětlíme, co
všechno lze použít pro definici masky, pak se podíváme na funkce v PHP
s maskami pracující a nakonec si ukážeme na nějaké praktické příklady.
Situaci kolem regulárních výrazů komplikuje fakt, že maska může obsahovat takzvané metaznaky. Některé častější jsem se pokusil shrnout do tabulky:
Metaznak |
Znamená |
Výrazu: |
Vyhoví |
Nevyhoví |
^ |
Začátek řetězce |
^Petr | Petr je borec Petr není borec |
Borec je Petr Franta a Petr jsou borci |
$ |
Konec řetězce |
PC$ |
Mám PC Pracuji na PC |
Moje PC je rozbité PC má dnes každý |
. |
Libovolný znak |
s.x |
sex six |
tix sad |
* |
Předchozí znak se smí
libovolněkrát opakovat (i nulakrát) |
s*t |
prst půst prut |
prase |
+ |
Předchozí znak tam bude
minimálně jednou |
s+t |
prst srst |
prut |
? |
Předchozí znak tam bude maximálně jednou | s?t |
prejt prst psst |
síť |
[] |
Libovolný znak ze znaků v závorce |
[0123456789] |
12 356 8 kusů |
kusy kila litry |
() |
Všechny znaky ze znaků v závorce |
(obec) |
obecný obecní všeobecný |
věcný jablečný všeobjímající |
| |
Rozdělení na podvýrazy |
A|B |
Astronaut Babička |
edém čistě |
\ |
Následující metaznak bude chápán
jako znak |
\+ |
Vše, co obsahuje "+" |
Co neobsahuje "+" |
Existují ovšem i další metaznaky, které si můžete nastudovat v
manuálu. Většinou Vám tyto budou stačit. Pochopitelně, že v jedné masce
může být více metaznaků, čímž mohou regulární výrazy extrémně nabýt na
složitosti (a síle).
O funkci ereg, která vrátí TRUE v případě, že daný řetězec vyhovuje
masce, jsme již psali. Funkce ereg_replace
funguje tak, že části
řetězce vyhovující masce nejen pozná, ale nahradí jiným řetězcem. Její
použití si ukážeme v závěru. Funcke ereg i ereg_replace rozlišují
velikost písmen. Existují funkce eregi a eregi_replace,
které provádějí
totéž jako jejich protějšky, ale velikost písmen přitom nerozlišují.
Konečně existuje funkce split (a spliti
nerozlišující velikost
písmen) pro dělení řetězce maskou. Výsledkem je pole řetězců vzniklých
tímto rozdělením a funkce se svojí filozofií podobá funkci explode,
kterou jsme již v tomto seriálu popisovali.
Ony existují ještě další funkce pro práci s regulárními výrazy v
PHP, stejně jako existují i další masky. Pojďme se ale nyní podívat,
jak nám taková kupa nových informací může nějak pomoci v praktických
příkladech.
V praxi například budete chtít zjistit, jestli se dá zadaný řetězec chápat jako celé číslo. K tomu byste mohli využít něco jako:
<?
function JeCeleCislo ($cislo)
{
return ereg("^[\+\-]?[1234567890]+$",$cislo);
}
echo (integer) JeCeleCislo ("1");
echo (integer) JeCeleCislo ("-6");
echo (integer) JeCeleCislo ("3.5");
echo (integer) JeCeleCislo ("4 kusy");
?>
Celé je to založeno na výsledku funkce ereg a jeji vyhodnocování
bychom mohli číst následovně (v závorkách uvádím zápis toho, co bylo
právě řečeno, jako metaznak): Abych jakožto funkce ereg vrátila TRUE,
musel by řetězec $cislo nějak vypadat. Měl by začínat (^) znakem plus (\+) nebo ([]) mínus (\-), který tam bude maximálně jednou
(?). Pak musí následovat
některá z číslic ([1234567890]),
což je věc, která se může opakovat, ale nejmíň jednou (+) tam být musí. Tím celá záležitost
musí končit ($). Hezké, že?
Nebo budete chtít testovat, jestli předaný řetězec může představovat platnou e-mailovou adresu. Třeba to bude vypadat nějak takhle:
<?
function JeEmail ($cislo)
{
return ereg("^.+@.+\..+$",$cislo);
}
echo (integer) JeEmail ("nekdo@neco.cz");
echo (integer) JeEmail ("nekdoneco.cz");
echo (integer) JeEmail ("@neco.cz");
echo (integer) JeEmail ("neco.cz");
echo (integer) JeEmail ("nekdo@necocz");
echo (integer) JeEmail ("nekdo@neco.");
?>
Zase vysvětlení: Výraz by měl začínat (^) libovolným znakem (.), který se může opakovat, ale
minimálně jednou tam být musí (+).
Pak bude zavináč, pak opět jeden nebo více znaků (.+) a konečně doslovná tečka (\.) a nějaké ty znaky (.+). Tím to celé končí ($).
Pozn.: Není to tak úplně
jednoduché. RFC definuje daleko složitější věci, které mohou
představovat platnou e-milovou adresu, ale jako příklad už by to nebylo
tak názorné.
A ještě jeden příklad do třetice. Slibuji, že už to nebude tak složité. Pomocí ereg_replace nahraďme všechna místa s více mezerami jen jednou mezerou:
<?
$retezec= "Mám řetězec se zbytečně mnoho
mezerami, že ????";
echo $retezec."<BR>\n";
echo ereg_replace(" +", " ", $retezec);
?>
Neboli: Všechny výskyty řetěce, který obsahuje nejméně (+) jednu mezeru, nahraď jednou
mezerou. Ono to skutečně funguje. Nechte si zobrazit zdrojový kód
stránky v prohlížeči, než to začnete považovat za nefunkční kus kódu.
Pokud máte nějaké další příklady použití regulárních výrazů (nejlépe z praxe), uvítám jejich uvedení v diskusi. Sám jsem v PHP mnoho jiných příkladů než ty výše uvedené neviděl.