Dnes zakončíme náš rychlý úvod do jazyka XPath popisem funkcí
pracujících s řetězci.
24.8.2004 15:00 | Aleš Hakl | read 15366×
DISCUSSION
Protože jazyk XPath není určen pro obecné programování, a protože
je z principu interpretovaný, nebylo by vhodné zpracovávat řetězce
po jednotlivých znacích a tudíž to ani není možné, a právě proto nám
jazyk XPath nabízí řadu funkcí představujících nejčastější operace s
řetězci. Tato sada funkcí bohužel neobsahuje žádné zpracování
regulárních výrazů, které bych právě v jazyku typu XPath velmi uvítal.
Již minule jsme se seznámili s funkcí string()
sloužící
k převodu libovolného jiného datového typu na řetězec, nyní se tedy
podíváme na ostatní:
concat()
- Spojování řetězců
Funkce concat()
spojí všechny svoje argumenty do jednoho
řetězce, argumentů může být 2 nebo více.
starts-with()
- Vyhledávání na začátku
Tato funkce slouží k operaci, která se v ostatních jazycích příliš
nevyskytuje (snad z výjimkou Javy), zjistí, začíná-li první argument
obsahem druhého argumentu a podle toho vrátí true
nebo
false
.
contains()
- Vyhledávání
Obdoba funkce předchozí s tím rozdílem, že vrací true
,
pokud se druhý argument vyskytuje kdekoli v prvním.
substring-before()
a substring-after()
Tyto dvě funkce vrací část prvního argumentu předcházející (nebo
následující) výskyt druhého argumentu. Obě funkce vrátí prázdný řetězec,
pokud se v prvním argumentu argument druhý nevyskytuje (což může být
občas trochu matoucí)
substring()
- Část řetězce
Tato funkce vrácí část prvního argumentu určenou pozicí začátku
(druhý argument) a délkou (třetí argument). Pozice prvního znaku je
1 jako v Pascalu a ne 0 jako ve většině ostatních programovacích jazyků.
string-length()
- Délka řetězce
Vrácí délku řetězce (argumentu) ve znacích.
normalize-space()
- Normalizace mezer
Funkce normalize-space()
zajistí nahrazení mezer a podobných
znaků (což znamená tabulátor a nový řádek, znaky typu
U+3000(ideografická mezera) XML nepovažuje za mezery) dle pravidel XML.
Prakticky jde o to, že tyto znaky jsou na začátku a konci řetězce
odstraněny a jejich sekvence uprostřed řetězce jsou nahrazeny jednou
mezerou.
translate()
- Nahrazení znaků
Kdo zná program tr(1)
, zná i tuto funkci, princip je totiž
stejný. Funkce vrací první argument ve kterém jsou znaky vyskytující
se v druhém argumentu nahrazeny odpovídajícími znaky z třetího
argumentu. Pokud
je třetí argument kratší než druhý, jsou odpovídající znaky jednoduše
odstraněny.
Několik příkladů
concat('foo','bar','quux')
=
foobarquux
starts-with('nyaa','ny')
=
true
starts-with('nyaa','mn')
=
false
contains('foo bar','bar')
=
true
contains('foo bar','quux')
=
false
contains('foobar','oba')
=
true
substring-before('root=/dev/hda1','=')
=
root
substring-after('root=/dev/hda1','=')
=
/dev/hda1
substring-before('foo,bar,quux',',')
=
foo
substring-after('foo,bar,quux',',')
=
bar,quux
substring-before('foo,bar,quux','=')
=
substring-after('foo,bar,quux','=')
=
substring('abcdef',2,3)
=
bcd
substring('abcdef',5,1 div 0)
=
ef
- Výsledkem dělení nulou je hodnota plus nekonečno.
string-length('abcdef')
=
6
normalize-space(' bla bla foo ')
=
bla bla foo
translate('abcdef','ab','AB')
=
ABcdef
translate('abcdef','abc','AB')
=
ABdef
Pokud někde mluvím o znacích, myslím tím samožřejmě znaky Unicode a nikoli
jednotlivé bajty a toto by mělo platit i pro znaky vyšší než U+FFFF.
Jediným problémem můžou být znaky, které ačkoli vypadají jeden jsou
reprezentovány více znaky Unicode, případně pro ně existuje více
reprezentací, jednou jako jeden znak a podruhé jako dva znaky. Všechny
české znaky s diakritikou patří do druhé skupiny, do první patří různé
komplikovaně skládané znaky některých asijských jazyků.
Tímto článkem bych uzavřel naši krátkou odbočku k jazyku XPath a
příště se vrátíme k XSL transformacím, pro které jsme teď vyzbrojeni
jazykem XPath.