Dnes zakončíme náš rychlý úvod do jazyka XPath popisem funkcí
pracujících s řetězci.
24.8.2004 15:00 | Aleš Hakl | read 16015×
DISCUSSION
Protože jazyk XPath není určen pro obecné programování, a protože
je z principu interpretovaný, nebylo by vhodné zpracovávat řetězce
po jednotlivých znacích a tudíž to ani není možné, a právě proto nám
jazyk XPath nabízí řadu funkcí představujících nejčastější operace s
řetězci. Tato sada funkcí bohužel neobsahuje žádné zpracování
regulárních výrazů, které bych právě v jazyku typu XPath velmi uvítal.
Již minule jsme se seznámili s funkcí string() sloužící
k převodu libovolného jiného datového typu na řetězec, nyní se tedy
podíváme na ostatní:
concat() - Spojování řetězců
Funkce concat() spojí všechny svoje argumenty do jednoho
řetězce, argumentů může být 2 nebo více.
starts-with() - Vyhledávání na začátku
Tato funkce slouží k operaci, která se v ostatních jazycích příliš
nevyskytuje (snad z výjimkou Javy), zjistí, začíná-li první argument
obsahem druhého argumentu a podle toho vrátí true nebo
false.
contains() - Vyhledávání
Obdoba funkce předchozí s tím rozdílem, že vrací true,
pokud se druhý argument vyskytuje kdekoli v prvním.
substring-before() a substring-after()
Tyto dvě funkce vrací část prvního argumentu předcházející (nebo
následující) výskyt druhého argumentu. Obě funkce vrátí prázdný řetězec,
pokud se v prvním argumentu argument druhý nevyskytuje (což může být
občas trochu matoucí)
substring() - Část řetězce
Tato funkce vrácí část prvního argumentu určenou pozicí začátku
(druhý argument) a délkou (třetí argument). Pozice prvního znaku je
1 jako v Pascalu a ne 0 jako ve většině ostatních programovacích jazyků.
string-length() - Délka řetězce
Vrácí délku řetězce (argumentu) ve znacích.
normalize-space() - Normalizace mezer
Funkce normalize-space() zajistí nahrazení mezer a podobných
znaků (což znamená tabulátor a nový řádek, znaky typu
U+3000(ideografická mezera) XML nepovažuje za mezery) dle pravidel XML.
Prakticky jde o to, že tyto znaky jsou na začátku a konci řetězce
odstraněny a jejich sekvence uprostřed řetězce jsou nahrazeny jednou
mezerou.
translate() - Nahrazení znaků
Kdo zná program tr(1), zná i tuto funkci, princip je totiž
stejný. Funkce vrací první argument ve kterém jsou znaky vyskytující
se v druhém argumentu nahrazeny odpovídajícími znaky z třetího
argumentu. Pokud
je třetí argument kratší než druhý, jsou odpovídající znaky jednoduše
odstraněny.
Několik příkladů
concat('foo','bar','quux') =
foobarquux
starts-with('nyaa','ny') =
true
starts-with('nyaa','mn') =
false
contains('foo bar','bar') =
true
contains('foo bar','quux') =
false
contains('foobar','oba') =
true
substring-before('root=/dev/hda1','=') =
root
substring-after('root=/dev/hda1','=') =
/dev/hda1
substring-before('foo,bar,quux',',') =
foo
substring-after('foo,bar,quux',',') =
bar,quux
substring-before('foo,bar,quux','=') =
substring-after('foo,bar,quux','=') =
substring('abcdef',2,3) =
bcd
substring('abcdef',5,1 div 0) =
ef
- Výsledkem dělení nulou je hodnota plus nekonečno.
string-length('abcdef') =
6
normalize-space(' bla bla foo ') =
bla bla foo
translate('abcdef','ab','AB') =
ABcdef
translate('abcdef','abc','AB') =
ABdef
Pokud někde mluvím o znacích, myslím tím samožřejmě znaky Unicode a nikoli
jednotlivé bajty a toto by mělo platit i pro znaky vyšší než U+FFFF.
Jediným problémem můžou být znaky, které ačkoli vypadají jeden jsou
reprezentovány více znaky Unicode, případně pro ně existuje více
reprezentací, jednou jako jeden znak a podruhé jako dva znaky. Všechny
české znaky s diakritikou patří do druhé skupiny, do první patří různé
komplikovaně skládané znaky některých asijských jazyků.
Tímto článkem bych uzavřel naši krátkou odbočku k jazyku XPath a
příště se vrátíme k XSL transformacím, pro které jsme teď vyzbrojeni
jazykem XPath.