Perl (24) - Regulární výrazy - příklady

Náš miniseriál se pomalu chýlí ke konci. Předposlední díl bude ryze praktický.

12.1.2006 06:00 | Jiří Václavík | přečteno 29232×

Již znáte řadu konstrukcí, které se v regulárních výrazech používají, ale jedna důležitá věc stále chybí. Dosud zde byly regulární výrazy podány výhradně teoreticky. Dnes se to změní, protože celý díl je věnován čistě příkladům.

Testování vstupu

To, že je třeba každý vstup z neověřeného zdroje testovat, je jasné. A právě regulární výrazy nabízejí spolehlivé a pohodlné řešení.

Mechanizmus takového testování si ukážeme. Budeme chtít po uživateli zadat trojciferné číslo a vzápětí zkontrolujeme, zda ho opravdu zadal. Na takové drobnosti se regulární výrazy využívají velmi často.

  print "Zadej trojciferné číslo: ";
  $cislo = <STDIN>;
  if ($cislo =~ /^[1-9]\d{2}$/){
      print "OK\n";
  }else{
      die "Chyba! Toto není trojciferné číslo!\n";
  }

Validace emailové adresy

Vyjádření emailové adresa je další regulární výraz, který patří k těm nejčastějším. Dokonalý zápis je velice složitý. Jeho vytvoření je popsáno v knize Mastering Regular Expressions. My se spokojíme s poměrně jednoduchým zápisem. Před zavináčem povolíme alfanumerické znaky a dále tečku a pomlčku. Část za zavináčem se skládá ze 2 částí. Doménu lze vyjádřit stejně jako jméno před zavináčem a přípona se skládá ze 2-4 písmen. Uvádím pouze samotný regulární výraz:

  /^[\w\.-]+@[\w\.-]+\.[a-z]{2,4}$/i

Hledání odkazů v HTML souboru

Máme HTML soubor. Z něj chceme získat vše, co je mezi <a href=" a "> a mezi <a...> a </a>. Tedy odkaz a jeho popis. Získaná data vytiskneme.

Budeme postupně načítat řádky souboru (nebudeme brát ohled na odkazy obsahující znak nového řádku). V každém řádku se pokusíme najít HTML odkaz, z něj zapamatujeme adresu a popis a vytiskneme. Protože mohou existovat řádky bez odkazu, je nutné tisknout pouze v případě, že porovnání vzoru bylo úspěšné. Toho dosáhneme podmíněnním příkazu print. Dále víme, že HTML není case sensitive. Proto přidáme přepínač i.

  open SOUBOR, "index.html" or die "Nelze otevřít soubor. $!";
  while (<SOUBOR>){
      print "$1 => $2\n" if $_ =~ /
          <A\sHREF=
          ["']       #uvozovky nebo apostrofy
          ([^"']*)   #vše mimo uvozovek nebo apostrofů
          ["']       #koncová uvozovka nebo apostrof
          >
          ([^<]*)    #vše mezi <a href...> a <\/a>
          <\/A>
      /ixg;
  }

Vyvstává nám tu několik problémů. Co když je na 1 řádku více odkazů? Na každý řádek se totiž aplikuje regulární výraz pouze jednou, není proto šance najít více než 1 odkaz. Problém by vyřešil další cyklus. Není ale potřeba nic zásadně upravovat. Pouze if zaměníme za while.

Dalším problémem jakým způsobem vyhoví řetězce jako <a href="xxx'...> Jako odkaz se vyseparuje pouze xxx. Jinými slovy musíme zajistit, aby byly oba uvozující znaky stejné. To je úloha jako šitá pro pamatování. Uzavřeme tedy úvodní uvozovací znak do závorek (['"]) a místo dalšího ['"] pro uzavření jen \1. Podobně upravíme část ([^"']*), kde nahradíme znaky "' za \1.

Po provedení úprav získáváme již funkční program:

  open SOUBOR, "index.html" or die "Nelze otevřít soubor. $!";
  while (<SOUBOR>){
      print "$2 => $3\n" while $_ =~ /
          <A\sHREF=
          (["'])     #uvozovky nebo apostrofy
          ([^\1]*?)  #vše mimo uvozujícího znaku
          \1         #koncová uvozovka nebo apostrof, podle toho, který znak uvozuje
          >
          ([^<]*)    #vše mezi <a href...> a <\/a>
          <\/A>
      /ixg;
  }

Zvýraznění skalárních proměnných

Vytvoříme nástroj, který přijímá jako parametr soubor, ve kterém zvýrazní všechny skalární proměnné. Bude-li se například vyskytovat v textu řetězec '$promenna', bude nahrazen za '<font color="#800000">$promenna</font>'.

Každou iterací cyklu načteme řádek zdrojového kódu Perlu, v něm zvýrazníme výskyty proměnných a vytiskneme výsledek. Jediný problém tak spočívá ve vytvoření vzoru, kterému vyhoví identifikátor skalární proměnné. Vzor bude začínat dolarem, následuje libovolné písmeno nebo podtržítko (nebereme ohled na speciální proměnné) a nakonec libovolný počet znaků slova. Celý vzor uzavřeme do kulatých závorek, získáme tak proměnnou $1, kterou použijeme jako část náhrady.

  while (<>){
      s/(\$[_a-zA-Z]{1}[\w_]*)/<font color="800000">$1<\/font>/g;
      print;
  }

Získání adresáře a jména souboru z umístění

Řetězec, který je cestou k souboru, rozdělíme na 2 části. Na adresář, ve kterém je daný soubor a jeho relativní jméno. Víme, že oddělovacím znakem je poslední lomítko. Využijeme tak hladovosti kvantifikátorů.

  $umisteni = "/boot/grub/menu.lst";
  ($adresar, $soubor) = $umisteni =~ /^(.*\/)(.*)$/;
  print "Adresář: $adresar\nSoubor: $soubor\n";

Výpočet výrazů v textu

Na vstupu přijme program textový řetězec, ve kterém se občas může vyskytnout podřetězec <<výraz>>. Výraz vyhodnotíme a získanou hodnotu za něj nahradíme.

Budeme tedy postupně načítat řádky textu a v něm takové výrazy hledat. Na 1 řádku se může vyskytnout více výrazů, proto použijeme přepínač g. Další přepínač, který aplikujeme, je e. Umožňuje nám přímo v regulárním výrazu nahrazovat za výsledek nějakého výrazu. A použijeme ho hned 2krát, protože ještě potřebujeme vyhodnotit řetězec, jako by byl částí zdrojového kódu.

  while (<>){
      s/<<([^>]+)>>/$1/gee;
      print;
  }

Spíše jen pro ukázku zde uvádím zápis stejného programu, který používá pouze jeden přepínač e. Funkce eval může ten druhý zastoupit.

  while (<>){
      s/<<([^>]+)>>/eval $1/ge;
      print;
  }

Pošleme programu na vstup řetězec

  Týden má <<7>> dní, <<7*24>> hodin, <<7*24*60>> minut nebo <<7*24*60*60>> sekund.

a získáme

  Týden má 7 dní, 168 hodin, 10080 minut nebo 604800 sekund.

Upozorňuji, že toto je jen ilustrační příklad na regulární výrazy. Mimo jiné je totiž také velkou bezpečnostní dírou. Umožňuje spuštění příkazů. Například po zadání řetězce "...<<system("rm soubor")>>..." bude proveden systémový příkaz rm soubor. Speciální techniky, kterými se lze chránit, probereme někdy v budoucnu.

Zdvojení všech znaků slova v řetězci

Problém vyřešíme tak, že vyhledáme všechny (přepínač g) výskyty znaků slova a ty jednoduše zdvojíme. Nejlepší řešení vede přes pamatování, ale abychom vyzkoušeli také něco dalšího, použijeme proměnnou $&.

  $_ = "LINUX & PERL";
  s/\w/$& x 2/eg;
  print;

Validace HTML tagu

HTML tagem může být <html>, <a href="http://www.linuxsoft.cz">, </b>, <img src="logo.png"/> nebo i <center >. Možností je celá řada. Pokusíme se je v co největší míře obsáhnout v našem řešení.

Tag bude vždy začínat znakem < a končit znakem >. Za úvodním < následuje případné lomítko a dále samotné jméno tagu. To je složeno z nenulového počtu znaků slova. Potom je možných ještě několik bílých znaků, dále opět nepovinné lomítko a nakonec znak >. To je struktura tagu, který nemá žádné parametry.

Argumenty se píší za jméno tagu. Může jich být libovolné množství. Každý z parametrů začíná bílým znakem. Tu následuje nenulový počet znaků slova. Nyní jsou v našem výrazu implementovány i přepínače. Ale stále chybí pravé parametry. Za přepínačem může nepovinně být rovnítko (případně obalené bílými znaky) a nějaká hodnota - v uvozovkách, apostrofech, nebo jako holé slovo.

U HTML tagů nezáleží na velikosti písmen. O to se ale starat nemusíme, protože jsme nikde konkrétní velikost neuváděli.

Když všechny tyto poznatky aplikujeme na regulární výraz, vznikne nám toto:

/
    <                       #začátek tagu
    \/?                     #případné lomítko
    \w+                     #jméno tagu
    (                       #parametry
        \s+                 #mezera
        \w+                 #parametr
        (                   #případná hodnota parametru
            \s*
            =               #rovnítko
            \s*
            ("[^"]*")       #v uvozovkách
            |               #nebo
            ('[^\']*')      #v apostrofech
            |               #nebo
            ([^\W]*)        #holé slovo
        )?
    )*
    \s*
    \/?                     #případné lomítko
    >                       #konec tagu
/x

Ale nemůže to stále být konečné řešení, protože vyhoví i řetězec </x/>, který tagem rozhodně není. Lomítko tedy může být maximalně jedno - buď na začátku nebo na konci. Toho docílíme rozvětvením.

/
    <                                                             #začátek tagu
    ((\/\w+(\s+\w+(\s*=\s*("[^"]*")|('[^\']*')|([^\W]*))?)*\s*)   #lomítko na začátku
    |                                                             #nebo
    (\w+(\s+\w+(\s*=\s*("[^"]*")|('[^\']*')|([^\W]*))?)*\s*\/?))  #případné lomítko na konci
    >                                                             #konec tagu
/x

Generování příkazů INSERT z dat textového souboru

Nakonec si uvedeme (po testování vstupu) asi nejpraktičtější příklad. Řekněme si, že máme data v nějakém textovém souboru a chceme je dostat do databáze. Ve zdrojovém souboru je máme k dispozici ve formátu sloupec\tsloupec\tsloupec... (sloupce oddělené tabulátorem), tedy například:

20050101	50000
20050102	84000
20050103	0
20050102	-20000
20050104	47000

Právě pro případ dvou sloupců si napíšeme skript, který data převede na INSERT příkazy:

INSERT INTO finance (datum, zisk) VALUES ("20050101", "50000");
INSERT INTO finance (datum, zisk) VALUES ("20050102", "84000");
INSERT INTO finance (datum, zisk) VALUES ("20050103", "0");
INSERT INTO finance (datum, zisk) VALUES ("20050104", "-20000");
INSERT INTO finance (datum, zisk) VALUES ("20050105", "47000");

Náš příklad je velmi konkrétní. Mělo by to usnadnit pochopení.

Postupně načteme každý řádek, rozdělíme na jednotlivé sloupce a vygenerujeme INSERT příkaz.

  open DATA, "data" or die "Nelze cist zdroj dat\n";
  open W, ">insert.sql" or die "Nelze zapisovat\n";
  
  while (<DATA>){
      ($datum, $zisk) = $_ =~ /(.+)\t(.+)/;
      chomp $zisk;
      print W "INSERT INTO finance (datum, zisk) VALUES (\"$datum\", \"$zisk\");\n";
  }
  
  close DATA;
  close W;

Poznámka - samozřejmě by šlo rozdělení řešit jednodušeji přes split:

  ($datum, $zisk) = split "\t", $_;

Zkusíme si ještě podobnou věc a to generování INSERT příkazů z dokumentů tabulkových editorů. Přesně toto jsem kdysi potřeboval a někde jsem našel velice hezké řešení. Prvním krokem je uložit dokument v nějakém textovém formátu - například CSV. CSV soubor může vypadat třeba takto:

0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0
0;0;0;0;0;0;0;0;0;0;0;0;0;0;1;1;1;1;1;1;1;0;0;0;0;0;0;0;0;0;0
0;0;0;0;0;0;0;0;0;1;1;1;1;1;1;1;1;1;1;1;1;0;0;0;0;0;0;0;0;0;0
0;0;0;0;0;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;0;0;0;0;0;0;0;0;0
0;0;0;0;0;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;0;0;0;0;0;0;0;0;0
0;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;0;0;0;0;0;0;0;0;0

Středníky jsou oddělovače sloupců a konce řádků oddělovače řádků. V každé buňce máme hodnotu 0 nebo 1. Tuto dvojrozměrnou strukturu budeme ukládat do jednoho rozměru. Pro každou buňku budeme tedy chtít v databázi uložit její souřadnice.

  my $radek;
  my @radek;
  my $cislo_radku = 0;
  my $jmeno_tabulky = "table";
  
  open DATA, "data.csv" or die "Nelze číst zdroj dat\n";
  open(W, ">insert.sql") or die "Nelze zapisovat\n";
  
  postupně načítáme jednotlivé řádky
  while ($radek = <DATA>){
      $cislo_radku++;
      @radek = $radek =~ /(?:([^;]*);)/g;#řádek (řetězec) je rozdělen na jednotlivé buňky

      #pro každou buňku aktuálního řádku vytvoříme INSERT příkaz
      for (my $cislo_sloupce=0; $cislo_sloupce<@radek; $cislo_sloupce++){
          chomp $radek[$cislo_sloupce];#je-li hodnota poslední v řádku, obsahuje i znak konce řádku a ten je třeba odstranit
          print W "INSERT INTO $jmeno_tabulky (x, y, hodnota) VALUES ($cislo_radku, $cislo_sloupce, $radek[$cislo_sloupce]);\n";
      }
  }
  close DATA;
  close W;

Poznámka - rozdělení by opět šlo řešit jednodušeji použitím funkce split:

      @radek = split(";", $radek);

Dnes jsem se pokusil ukázat široké využití regulárních výrazů. Doufám, že jsem vám dodal alespoň trochu inspirace. Příští díl bude ze série o regulárních výrazech poslední. Podíváme se na měření rychlosti a debugging.

Online verze článku: http://www.linuxsoft.cz/article.php?id_article=1061