Linux Software

Komentarze :: Poradna regularne vyrazy cestina a slovencina

regularne vyrazy cestina a slovencina	13.10.2009 14:44 wakan tanka
Dobry den, v clanku Pavla Satrapu http://www.root.cz/…ni-vyrazy-1/ som sa docital ze rozpoznavanie regularnych vyrazov sa riadi ASCII tabulkou a ze so slovencinou a cestinou je problem. Mohol by mi prosim niekto objasnit toto: marek@cepi:~$ cat diakritika áôúéťľúľščťžýáíéôäúú ÁôúÉŤĽÚĽŠČŤŽÝÁÍÉôäÚÚ marek@cepi:~$ grep -o „[a-z][a-z]*“ diakritika áôúéťľúľščť ýáíéôäúú ôú ôä Aky specialny vyznam ma pismenko „ž“ ? Preco prikaz marek@cepi:~$ cat diakritika \| tr „[:lower:]“ „[:upper:]“ vrati stale lowercase znaky ? Dopocul som sa ze by to mozno mohlo mat docinenia s $LANG, prikadam jej vypis. marek@cepi:~$ echo $LANG en_US.UTF-8 Mohol by mi niekto objasnit naco presne je $LANG, $LC_ALL a na co presne sluzia prikazy: export, set, env, unset ? Snazim sa pochopit BASH a kodovanie v linuxe no mam v tom dost zmatok. Dakujem velmi pekne

Re: regularne vyrazy cestina a slovencina	14.10.2009 11:50 Aleš Hakl
Ohledne fungovani regularnich vyrazu v jinych znakovych sadach nez obycejnem ASCII se doctete, ze "Regular expressions are a context-independent syntax that can represent a wide variety of character sets and character set orderings, where these character sets are interpreted according to the current locale. While many regular expressions can be interpreted differently depending on the current locale, many features, such as character class expressions, provide for contextual invariance across locales.". Takze velka teorie je, ze by regularni vyrazy pouzivane libc a zakladnimy systemovymy utilitami meli fungovat pro libovolny jazyk/znakovou sadu podporovany systemem a delat neco primerene logickeho. Problem je, ze implementaci regularnich vyrazu, ktera tohle opravdu splnuje zrejmne nikdo nikdy nevidel (z mnoha ruznych jak technickych tak politickych duvodu). Nejjednodussi potom je proste predpokladat, ze to umi jenom ASCII. Promenna LANG a ty vsechny LC_neco souvisi s definici narodniho prostredi. Souvislost s vasim problemem je ta, ze definice znakovych trid jako je upper je pochopitelne zavisla na jazyku, taktez jake znaky se radi mezi 'a' a 'z' a v jakem poradi je zavisle na jazyku (a s tim navic souvisi ta specialnost ž, protoze to jaksi neni v rozsahu a-z vcetne a presto by se za pismeno asi dalo povazovat). A ty prikazy slouzi pro ruzne manipulace s promennymi prostredi, vlastne jediny ktery vas zajima je export (a jeste spise vas zajima nejaky nastroj vaseho systemu pro globalni a trvale nastaveni locale na neco rozumneho).

Re: regularne vyrazy cestina a slovencina	18.10.2009 17:38 wakan tanka
dobry den docital som sa ze existuje nieco co sa vola collating sequence a ktory potom zahrnie aj znak ž grep "[[:alpha:]][[:alpha:]]*" diakritika áôúéťľúľščťžýáíéôäúú ÁôúÉŤĽÚĽŠČŤŽÝÁÍÉôäÚÚ

Re: regularne vyrazy cestina a slovencina	20.10.2009 00:59 Aleš Hakl
To je pochopitelne to spravne reseni problemu "chci vsechna pismena, at uz to v aktualni locale znamena cokoli". Takovy detail je, ze se to nejmenuje collating sequence, ale character class ("trida znaku"). Collation sequence ("posloupnost razeni") je prave ten rozsah znaku v hranatych zavorkach. Jeste existuji dalsi dva specialni zpusoby zapisu mnozin znaku souvisejici s razenim a to [..] a [==]. Prvnim se dava najevo, ze nechceme znak (napr. "c nebo h"), ale hlasku ("ch"). Druhy vybere vsechny znaky, ktere se radi stejne jako zadany (coz v cestine nema moc smysl, ale v temer vsech jinych jazycich ano, nutno poznamenat, ze u predchoziho je tomu temer naopak :)) Zakladni fakt je, ze ve chvili, kdy zacnete pouzivat cokoli co nejak souvisi s razenim znaku tak si rikate o problemy. Trivialni pripad je to zapomenute ž na konci, daleko podstatnejsi ovsem je to, ze snad neexistuje implementace posixovych regularnich vyrazu, ktera tohle cele implementuje opravdu spravne.

Re: regularne vyrazy cestina a slovencina	23.10.2009 10:23 wakan tanka
Dakujem za opravu, Skoda ze posix neriesi take veci ako diakritika, predpokladam ze nieje nejaky rozumny sposob ako to riesit, ked ani character class to nerobi stale spravne. Nejak som nepochopil to [..] a [==] mohli by ste prosim uviest jednoduchy priklad ? mohlo by sa to hodit niekedy. Dakujem

Re: regularne vyrazy cestina a slovencina	24.10.2009 01:01 Aleš Hakl
No ono to tu diakritiku praveze resi. Problem je, ze diakritika je specificka pro dany jazyk a tak zavisi na nastaveni locales (konkretne LC_CTYPE a LC_COLLATE). Me prijde ze treba debiani grep se s LC_CTYPE=cs_CZ se to alespon pro ty trivialni pripady (coz je vetsina uzitecnych) chova pomerne ocekavatelne. Fakt je, ze ruzne varianty GNU grepu (a ze vlastne kazda distribuce ma svoji) jsou rozbite ruzne, ale zakladni matchovani dle character class funguje snad vsude. Nejaky jednoduchy a smysluplny priklad vyuziti [..] a [==] bych take rad videl, nic moc rozumneho me nenapada (navic je to rozbite snad uplne vsude, protoze to nikdo nepouziva).

KOMENTARZE

regularne vyrazy cestina a slovencina

13.10.2009 14:44

wakan tanka

Re: regularne vyrazy cestina a slovencina

14.10.2009 11:50

Aleš Hakl

Re: regularne vyrazy cestina a slovencina

18.10.2009 17:38

wakan tanka

Re: regularne vyrazy cestina a slovencina

20.10.2009 00:59

Aleš Hakl

Re: regularne vyrazy cestina a slovencina

23.10.2009 10:23

wakan tanka

Re: regularne vyrazy cestina a slovencina

24.10.2009 01:01

Aleš Hakl

Tylko zarejestrowani użytkownicy mogą dopisywać komentarze.

Szukanie oprogramowania

Latest aktual Distributions

1.	Pacman linux Download: 6013x
2.	FreeBSD Download: 10204x
3.	PCLinuxOS-2010 Download: 9683x
4.	alcolix Download: 12386x
5.	Onebase Linux Download: 11188x
6.	Novell Linux Desktop Download: 0x
7.	KateOS Download: 7516x

Latest aktual Software

1.	xinetd Download: 3778x
2.	RDGS Download: 937x
3.	spkg Download: 6818x
4.	LinPacker Download: 12100x
5.	VFU File Manager Download: 4125x
6.	LeftHand Mała Księgowość Download: 8529x
7.	MISU pyFotoResize Download: 3873x
8.	Lefthand CRM Download: 4666x
9.	MetadataExtractor Download: 0x
10.	RCP100 Download: 4266x
11.	Predaj softveru Download: 0x
12.	MSH Free Autoresponder Download: 0x

©Pavel Kysilka - 2003-2026 | mail

linuxsoft.cz | Design: www.megadesign.cz