PHP (57) - XML

XML se stalo módou současných systémů. Podívejme se, jak na něj jít pomocí PHP.

18.10.2004 15:00 | Petr Zajíc | přečteno 55173×

XML je fenoménem posledních několika let. Pro ty z vás, kdo by snad nevěděl o co se jedná: XML označuje způsob velmi pružného ukládání dat pomocí souborů obsahujících značky. Je to trochu podobné jako HTML, které rovněž obsahuje data a značky (tagy), ale v trochu jiném slova smyslu. Podobnost mezi HTML (Hypertext Markup Language česky něco jako "značkový jazyk pro práci s hypertextem") a XML (Extensible Markup Language, česky něco jako"rozšiřitelný jazyk se značkami") není čistě náhodná, oba jazyky mají stejného rodiče. Je jím SGML (Standard Generalized Markup Language, "standardní zobecnění jazyk se značkami").

XML nám umožňuje vytvářet sktrukturované dokumenty. "Sktrukturované" znamená, že budou obsahovat "značky" a "znaky". Značky dávají dokumentu XML strukturu, kdežto znaky jim dávají obsah. XML dokumenty mohou být značně rozsáhlé, ale přesto (a to je asi hlavní výhoda) bývají snadno čitelné jak lidem, tak i počítačům. Zkrátíme úvod tím, že si předvedeme, jak takový XML dokument může vypadat:

<?xml version="1.0" encoding="UTF-8"?>
<FINANCE>
  <PRIJMY>
    <PRIJEM id="1">
      <NAZEV>Plat</NAZEV>
      <CASTKA>12000</CASTKA>
    </PRIJEM>
    <PRIJEM id="2">
      <NAZEV>Články na Linuxsoft</NAZEV>
      <CASTKA>3000</CASTKA>
    </PRIJEM>
  </PRIJMY>
  <VYDAJE>
    <VYDAJ id="1">
      <NAZEV>Byt</NAZEV>
      <CASTKA>4500</CASTKA>
    </VYDAJ>
    <VYDAJ id="2">
      <NAZEV>Jídlo</NAZEV>
      <CASTKA>2500</CASTKA>
    </VYDAJ>
    <VYDAJ id="3">
      <NAZEV>Koníčky</NAZEV>
      <CASTKA>1500</CASTKA>
    </VYDAJ>
  </VYDAJE>
</FINANCE>

To by mělo odstranit všechny nejasnosti kolem výhod XML. Vidíte, že formát je to opravdu pohodový. XML se skládá z několika oddílů neboli uzlů. Popis využití XML a technik jeho zpracování by vydal na nejednu knihu a skutečně na toto téma bylo mnoho knih vydáno. My si v našem seriálu ukážeme pouze dvě základní věci: Nejprve jak data z XML pomocí PHP číst a potom jak elegantně data do XML pomocí PHP zapisovat.

Pozn.: Celému problému se šířeji věnuje například náš seriál na Linuxsoftu. Věc je to technicky zaměřená, poměrně erudovaně napsaná a podstatně rozsáhlejší než našich několik dílů, které se budou XML věnovat. Aleš Hakl se však soustřeďuje převážně na práci v Javě, okrajově v FreePascalu a Pythonu, takže se vzájemně nebudeme křížit.

Expat a PHP

Asi tušíte, že když má XML nějakou strukturu, že nebude nutné k němu přistupovat bajt po bajtu a luštit jej pomocí funkcí sestavených v potu vlastní programátorské tváře (ačkoliv možné to samozřejmě je). Existují již hotové knihovny pro práci s XML. PHP například používá Expat. Expat patří do velké skupiny software, kterou nazýváme XML parsery. "Parser" si můžete představit jako program, který rozumí XML a umí k němu strukturovaně přistupovat. Parser rovněž ví, co má udělat, když v XML dokumentu narazí na určitou jeho část (třeba, když narazí na značku).

PHP, pokud to výslovně nezakážete, má po instalaci podporu XML zapnutou. Takže můžeme hned začít využívat funkcí pro práci s XML. Nejdřív vám vysvětlím, co všechno musí skript zpracovávající soubor XML dělat:

  1. Musí vytvořit instanci parseru.
  2. Musí zaregistrovat obslužné funkce. Tento hrozný výraz znamená prostě to, že se definují funkce v PHP, které stanoví, co s danou věcí (značky, data) dělat poté, co se na ni v dokumentu narazí. A parseru se řekne, že má tyto funkce zavolat.
  3. Konečně, parseru se předá vlastní xml soubor a ten jej zpracuje a skončí.

Pozn.: Celé je to trochu zjednodušené. Například jsme nehovořili o zpracování chyb. Ale pro představu by to mělo stačit.

Tak, a teď ukázka. Mějme soubor finance.xml (viz výše) a ukažme si, jak jej zpracovat naším v PHP vytvořeným parserem.

<?
  $nas_soubor
="./finance.xml";

  
//co se má stát, když narazíme na počáteční a koncovou značku
  
function PocatecniZnacka ($parser, $nazev, $atributy)
  {
    echo
"Narazil jsem při čtení na značku $nazev s atributy:"."<BR>";
    echo
print_r($atributy)."<BR>";
  }

  function
KoncovaZnacka ($parser, $nazev) {}
  
  
// fáze 1) instance parseru
  
$nas_parser=xml_parser_create();
  
  
// fáze 2) řekneme parseru, co má udělat když se dostane k
  // počáteční značce
  
xml_set_element_handler ($nas_parser, "PocatecniZnacka", "KoncovaZnacka");
  
  
// fáze 3) vlastní čtení souboru, práce s ním a ukončení parseru
  
if (!($obsahsouboru = fopen($nas_soubor, "r")))
    die(
"Nemohu otevřít XML pro čtení.");

  while (
$data = fread($obsahsouboru, 5))
    
xml_parse($nas_parser, $data, feof($obsahsouboru));

  
xml_parser_free($nas_parser);
?>

Spustit skript

Takovýhle parser je nám pochopitelně celkem na nic, ale dá se na něm alespoň pěkně zjistit, jak to celé funguje. Všimněte si funkce xml_set_element_handler. Ta registruje funkci, která bude provedena pokud se při procházení dokumentu XML narazí na značky. V našem případě to je vypsání do prohlížeče, může to však být libovolná akce, kterou je PHP schopno provést. Rovněž si všimněte, že pro obsluhu koncové značky jsme zaregistrovali funkci, která nedělá vůbec nic. To je v pořádku, funcke se nám může hodit později, takže byste si měli zvyknout to tak dělat.

Příště si ukážeme, jak sestavit poněkud chytřejší parser. Bude to aplikace, která nám řekne, koli si ještě na základě našich příjmů a výdajů můžeme dovolit utratit ;-) když se všechny příjmy a výdaje sečtou. Jinými slovy uvidíme, že parser umí (pochopitelně) pracovat nejen se značkami, ale rovněž s daty.

Online verze článku: http://www.linuxsoft.cz/article.php?id_article=459