ARCHIV

Perl (25) - Regulární výrazy - závěr

V posledním díle věnovaném regulárním výrazům se podíváme na měření rychlosti a debugging.

25.1.2006 06:00 | Jiří Václavík | Články autora | přečteno 24419×

Porovnání rychlosti několika regulárních výrazů

Pro měření času potřebného pro vykonání určitého úseku kódu se v Perlu obvykle používá modul Benchmark. Nyní si ukážeme pouze to, jak pomocí něj porovnávat rychlosti regulárních výrazů. To ovšem není zdaleka jediné užití. Benchmark se používá poměrně často a někdy později v seriálu si podrobněji rozebereme i jeho jiné funkce. Modul Benchmark načteme takto:


use Benchmark qw(:all);

Nyní využijeme jen jeho jedinou funkci a to cmpthese. Ta se používá právě pro porovnávání rychlostí jednotlivých úseků kódu. Jako parametr jí jsou předávany 2 hodnoty:

číslo - je-li záporné, znamená minimální počet sekund, po které testování poběží
odkaz na hash, jehož každý prvek obsahuje nějaký úsek kódu - právě rychlosti těchto úseků jsou pak porovnávány

My si zkusíme dokázat, že použití závorek s pamatováním hodnoty uvnitř nich je časově náročnější než speciální syntaxe závorek, která si svůj obsah nepamatuje.

Nejprve se musíme konkrétně rozhodnout, které regulární výrazy budeme porovnávat. Jako ukázku si zvolíme například tyto:


my $re1 = qr/X(\w)/o;

my $re2 = qr/X(?:\w)/o;

Dále je třeba určit s čím se budou tyto regulární výrazy porovnávat. Protože testujeme pouze rychlost závorek, musí být jediným odlišným faktorem v regulárním výrazu právě závorky a vše ostatní musí být stejné. To platí i o řetězcích, které budeme se vzory porovnávat. V opačném případě by to mohlo ovlivňovat rychlost.

Nastavíme tedy parametry funkce cmpthese. Předáme jí hash, jehož klíči budou nějaké unikátní řetězce (jména porovnávaných úseků) a hodnotami anonymní podprogramy, v nichž probíhá test regulárního výrazu.

Testovaný úsek bude obsahovat určitý počet porovnání nějakého řetězce s regulárním výrazem. Proto musíme definovat řetězec a počet porovnání (obě tyto hodnoty budou pro testování obou regulárních výrazů stejné).

Jako řetězec, který bude srovnáván, definujeme podřetězec "X5 " uvnitř dvou stejných podřetězců.


my $okoli = "zxcvasdf" x 500;

my $text = $okoli . "X5 " . $okoli;

Nastavíme počet opakování:


my $pocet_opakovani = 1000;

Ještě nám zbývá zadat 1. argument - minimální počet sekund, po které porovnávání poběží:


my $delka_testu = -3;

A můžeme volat cmpthese:


cmpthese($delka_testu, {

    "s pamatovanim"  => sub {$text =~ m/$re1/ for 1 .. $pocet_opakovani;},

    "bez pamatovani" => sub {$text =~ m/$re2/ for 1 .. $pocet_opakovani;},

});

Po chvilce čekání program vytiskne výsledky ve formě tabulky, seřazené podle rychlostí vzestupně. Sloupec Rate udává hodnotu, kolikrát byl proveden daný úsek kódu (tj. 1000 porovnávání) za sekundu. Další sloupce ukazují relativní rozdíl rychlostí každé dvojice úseků v procentech. V našem případě je tato dvojice jediná (nebereme v potaz pořadí), protože jsme k porovnávání zadali pouze 2 úseky.

$ perl cmpthese
                Rate  s pamatovanim bez pamatovani
s pamatovanim  115/s             --           -31%
bez pamatovani 168/s            46%             --
$

Pokud si zkusíte pohrát se vstupním řetězcem (změna délky, pozicí apod.), zjistíte, že poměr rychlostí záleží i na dalších okolnostech a to dost výrazně. Vždy by ale mělo být rychlejší porovnávání bez pamatování.

Zpracování regulárních výrazů

Způsob, kterým se zpracovávají regulární výrazy můžeme kontrolovat. Ne že by se debugging používal masově, ale v případech, kdy potřebujeme opravit nějakou chybu v rozsáhlém regulárním výrazu a nemáme tušení, kde by mohla být, může pomoci. V Perlu máme možnost zapnout sledování překladu a následného vyhodnocování pomocí jedné z následujících direktiv. Direktiva


use re "debug";

zapíná debugging. Budou tak nalezeny a podrobně rozepsány všechny regulární výrazy. Lze užít také přehlednější variantu se zvýrazněním:


use re "debugcolor";

Zkusíme tímto způsobem otestovat nějaký jednoduchý úsek kódu.


use re "debugcolor";

"xy123456zzz" =~ /^xy\d{6}z*(1)$/;

Program jako obyčejně spustíme:


$ perl debug.pl

Objeví se výpis. My si vysvětlíme pouze to nejdůležitější z něj. Začneme tímto úsekem:

   1: BOL(2)
   2: EXACT <xy>(4)
   4: CURLY {6,6}(7)
   6:   DIGIT(0)
   7: STAR(10)
   8:   EXACT <z>(0)
  10: OPEN1(12)
  12:   EXACT <1>(14)
  14: CLOSE1(16)
  16: EOL(17)
  17: END(0)

Každá položka nebo skupina položek (můžeme jim říkat uzly) vyjadřuje nějakou část regulárního výrazu. Číslo na začátku každého řádku je id uzlu. Za každým uzlem je v závorce id následujícího uzlu.

BOL znamená prázdný řetězec na začátku řádku - tedy ^. EXACT je přesná shoda řetězce mezi < a > - v našem případě xy. Kvantifikátor {6} je převeden na obecnější zápis {6,6}. 6krát se opakuje vše odsazené - v našem případě jen uzel DIGIT, který označuje numerický znak. Pokračujeme přesným výskytem znaku s libovolným počtem opakování. Dále máme 1. otevírací závorku. Vše mezi OPEN1 a CLOSE1 je uloženo v $1, vše mezi OPEN2 a CLOSE2 v $2 atd. EOL označuje prázdný řetězec na konci řádku - znak $ - a konečně END je vždy na konci.

Toto zatím nemá se srovnávaným řetězcem nic společného. Probíhá pouze překlad regulárního výrazu. Porovnávat se bude až v další fázi.

Uvádím tabulku několika častých uzlů. Kompletní je k vidění v manuálové stránce perldebguts.

Uzel	Význam
Kotvy
BOL	začátek řádku
END	konec regulárního výrazu
EOL	konec řádku
BOUND	na hranici slova
NBOUND	mimo hranici slova
Znak z množiny znaků
ALNUM	alfanumerický znak
NALNUM	nealfanumerický znak
DIGIT	číslice
DIGIT	nečíslice
SPACE	bílý znak
NSPACE	nebílý znak
ANYOF	množina definovaná hranatými závorkami
ANY	libovolný znak
Kvantifikátory
STAR	libovolný počet opakování
CURLY	opakování definované složenými závorkami
PLUS	minimálně 1 opakování
Ostatní
EXACT	přesná shoda
NOTHING	prázdný řetězec
OPENn	otevírací kulatá závorka
CLOSEn	uzavírací kulatá závorka

V tuto chvíli máme regulární výraz zkompilován a můžeme se pustit do porovnávání.


Matching REx `^xy\d{6}z*(1)$' against `xy123456zzz1'

Následují řádky, které postupně srovnávají zkompilovaný regulární výraz se vzorem. Syntaxe se liší podle toho, zda používáte direktivu use re "debug"; nebo use re "debugcolor";. V prvním případě je následovná:


pozice_ve_srovnávaném_řetězci <vyhovující_podřetězec> <zbývající_podřetězec> | id uzel

Konkrétně může vypadat třeba takto:


  11 <xy123456zzz> <1>    | 10:      OPEN1

debugcolor má tu výhodu, že spojuje <vyhovující_podřetězec> a <zbývající_podřetězec>. Vyhovující podřetězec je bíle podbarven (v článku tučně zeleně). Varianta s debugcolor je hlavně díky této vlastnosti o mnoho přehlednější.

Vezměme teď výstup řádek po řádku.


   0 <xy123456zzz1>    |  1:  BOL

   0 <xy123456zzz1>    |  2:  EXACT <xy>

   2 <xy123456zzz1>    |  4:  CURLY {6,6}

                       DIGIT can match 6 times out of 6...

1. řádek ukazuje vždy výchozí stav. Na dalším je již úspěšně nalezen znak ^ (ten je samozřejmě v každém řetězci), který ale není viditelný - proto jsme stále na pozici 0. Zajímavější je to na 3. řádku. Podbarven máme podřetězec xy. Vyhovuje totiž uzlu EXACT <xy>.


   8 <xy123456zzz1>    |  7:  STAR

                       EXACT  can match 3 times out of 2147483647...

Právě jsme úspěšně nalezli 6 po sobě jdoucích číslic. Podbarveno již máme 8 znaků.


  11 <xy123456zzz1>    |  10:  OPEN1

  11 <xy123456zzz1>    |  12:  EXACT <1>

  12 <xy123456zzz1>    |  14:  CLOSE1

  12 <xy123456zzz1>    |  16:  EOL

  12 <xy123456zzz1>    |  17:  END

Dále byly nalezeny 3 znaky z a nakonec ještě znak 1. V okamžiku, kdy se regulární výraz dostane k uzlu END, skončí porovnání úspěchem.


Match successful!

Závěr

Tímto jsme definitivně skončili rozsáhlou kapitolu o regulárních výrazech. Pokud máte zájem o další informační zdroje, zde některé uvádím:

perlre(1) - popis syntaxe regulárních výrazů v Perlu
perlrequick(1) - vysvětluje základy regulárních výrazů
perlretut(1) - tutoriál na téma Perl a regulární výrazy
perlop(1), oddíly Regexp Quote-Like Operators a Gory details of parsing quoted constructs - operátory v Perlu pro práci s regulárními výrazy
perlfaq6(1) - časté otázky
perldebguts(1), oddíl Debugging regular expressions - sledování průběhu vyhodnocování regulárních výrazů
kniha Mastering Regular Expressions, Jeffrey Friedl, O'Reilly and Associates. Česká recenze vyšla na serveru linuxzone.cz
existují weby zaměřené přímo na regulární výrazy - namátkou www.regular-expressions.info nebo www.regularnivyrazy.info.
řada článků a tutoriálů na Internetu, z nichž nemohu opomenout vynikající dílo Pavla Satrapy na www.kit.vslib.cz/~satrapa/docs/regvyr/all.html nebo práci Pavla Dařeny.
www.regexlib.com - zde je archiv regulárních výrazů. Dříve, než začnete psát složitější regulární výraz, se podívejte sem. Možná už někdo měl stejný problém.

Verze pro tisk

Související články

Předchozí Celou kategorii (seriál) Další

Předchozí Celou kategorii (seriál) Další

DISKUZE

Příspívat do diskuze mohou pouze registrovaní uživatelé.

Vyhledávání software

Vyhledávání článků

Rozšířené vyhledávání

Linux News

28.11.2018 23:56 /František Kučera
Prosincový sraz spolku OpenAlt se koná ve středu 5.12.2018 od 16:00 na adrese Zikova 1903/4, Praha 6. Tentokrát navštívíme organizaci CESNET. Na programu jsou dvě přednášky: Distribuované úložiště Ceph (Michal Strnad) a Plně šifrovaný disk na moderním systému (Ondřej Caletka). Následně se přesuneme do některé z nedalekých restaurací, kde budeme pokračovat v diskusi.
Komentářů: 1

12.11.2018 21:28 /Redakce Linuxsoft.cz
22. listopadu 2018 se koná v Praze na Karlově náměstí již pátý ročník konference s tématem Datová centra pro business, která nabídne odpovědi na aktuální a často řešené otázky: Jaké jsou aktuální trendy v oblasti datových center a jak je optimálně využít pro vlastní prospěch? Jak si zajistit odpovídající služby datových center? Podle jakých kritérií vybírat dodavatele služeb? Jak volit vhodné součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně datové centrum spravovat? Jak co nejlépe eliminovat možná rizika? apod. Příznivci LinuxSoftu mohou při registraci uplatnit kód LIN350, který jim přinese zvýhodněné vstupné s 50% slevou.
Přidat komentář

6.11.2018 2:04 /František Kučera
Říjnový pražský sraz spolku OpenAlt se koná v listopadu – již tento čtvrtek – 8. 11. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma umění a technologie, IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář

4.10.2018 21:30 /Ondřej Čečák
LinuxDays 2018 již tento víkend, registrace je otevřená.
Přidat komentář

18.9.2018 23:30 /František Kučera
Zářijový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 20. 9. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář

9.9.2018 14:15 /Redakce Linuxsoft.cz
20.9.2018 proběhne v pražském Kongresovém centru Vavruška konference Mobilní řešení pro business. Návštěvníci si vyslechnou mimo jiné přednášky na témata: Nejdůležitější aktuální trendy v oblasti mobilních technologií, správa a zabezpečení mobilních zařízení ve firmách, jak mobilně přistupovat k informačnímu systému firmy, kdy se vyplatí používat odolná mobilní zařízení nebo jak zabezpečit mobilní komunikaci.
Přidat komentář

12.8.2018 16:58 /František Kučera
Srpnový pražský sraz spolku OpenAlt se koná ve čtvrtek – 16. 8. 2018 od 19:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát jsou tématem srazu databáze prezentaci svého projektu si pro nás připravil Standa Dzik. Dále bude prostor, abychom probrali nápady na využití IoT a sítě The Things Network, případně další témata.
Přidat komentář

16.7.2018 1:05 /František Kučera
Červencový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 7. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát bude přednáška na téma: automatizační nástroj Ansible, kterou si připravil Martin Vicián.
Přidat komentář

Více ... Přidat zprávičku

Poslední diskuze

31.7.2023 14:13 / Linda Graham
iPhone Services

30.11.2022 9:32 / Kyle McDermott
Hosting download unavailable

13.12.2018 10:57 / Jan Mareš
Re: zavináč

2.12.2018 23:56 / František Kučera
Sraz

5.10.2018 17:12 / Jakub Kuljovsky
Re: Jaký kurz a software by jste doporučili pro začínajcího kodéra?

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2026) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze