LINUX SOFTWARE

Hash je další varianta seznamu, kdy indexem jednotlivých hodnot může být jakákoliv skalární hodnota.

12.9.2005 06:00 | Jiří Václavík | přečteno 51276×

Při práci s poli jsme byli dosud omezeni na číselné indexy, které jsou uspořádané. Lze použít i řetězce (v takovém případě spíše než o indexu hovoříme o klíči). To pak již nejde o klasické pole, ale o hash (někdy též nazývaný asociativní pole). Každý prvek hashe obsahuje dvě skalární hodnoty. Můžeme říct, že jde o seznam uspořádaných dvojic, avšak jejich postavení není symetrické, neboť klíč musí být jednoznačný. Hash si můžeme představit i jako matematickou funkci.

S hashi se pracuje podobně jako s poli. Na první pohled jsou zřejmé dvě odlišnosti. Hash se označuje procentem a klíč se píše do složených (nikoliv hranatých) závorek. Stejně jako u polí platí, že podle klíče prvku lze jednoznačně zjistit hodnotu, ale nikoliv naopak.

Hash plníme hodnotami takto:

%hash = (klic1, hodnota1, klic2, hodnota2, ..., klicn, hodnotan);

Konkrétně:

%vzdalenosti = ("Amsterodam", 970, "Moskva", 1900, "Kodaň", 750, "Řím", 1300, "Varšava", 630);

Na uvození parametrů můžeme samozřejmě použít i nám již dobře známou funkci qw. Následující zápis je ekvivalentní poslednímu uvedenému příkazu:

%vzdalenosti = qw(Amsterodam 970 Moskva 1900 Kodaň 750 Řím 1300 Varšava 630);

Další synonymní zápis získáme nahrazením každého lichého operátoru čárky operátorem =>. Operátory , a => mají stejný význam, takže teoreticky by měly jít nahradit i sudé čárky. K tomu ale není důvod. => se užívá pro lepší přehlednost. (V našem případě je sice jasné, co je klíčem a co hodnotou. Ale představme si, že by obojí byly na první pohled od sebe nerozeznatelné řetězce.)

%vzdalenosti = ("Amsterodam" => 970, "Moskva" => 1900, "Kodaň" => 750, "Řím" => 1300, "Varšava" => 630);

A nakonec úplně nejpřehlednější zápis získáme rozepsáním kódu do více řádků. Každý pár klíč => hodnota bude na jednom.


%vzdalenosti = (
  "Amsterodam" =>  970,
  "Moskva"     => 1900,
  "Kodaň"      =>  750,
  "Řím"        => 1300,
  "Varšava"    =>  630
);

Navíc se často u klíče hashe vynechávají uvozovky.


%vzdalenosti = (
  Amsterodam =>  970,
  Moskva     => 1900,
  Kodaň      =>  750,
  Řím        => 1300,
  Varšava    =>  630
);

Každý z předcházejících kódů vytvořil hash s těmito prvky:

Klíč	Hodnota
Amsterodam	970
Moskva	1900
Kodaň	750
Řím	1300
Varšava	630

Jednotlivé hodnoty získáme obdobně jako u polí. Jak daleko je to z Prahy do Moskvy?

print $vzdalenosti{"Moskva"};

Vidíme, že je to stejné jako s poli, jen se, jak už bylo zmíněno, klíč píše do složených závorek.

Konverze pole - hash

Přiřadíme-li pole do hashe, je to jako byste přiřazovali seznam (tedy hodnoty prvků pole).

@pole = (1, 2, 3, 4, 5, 6);
%hash = @pole;

Zápis má (pro konečný obsah hashe %hash) stejný význam jako tento:

%hash = (1, 2, 3, 4, 5, 6);

a proto %hash bude obsahovat prvky:

Klíč	Hodnota
1	2
3	4
5	6

Konverze hash - pole

Konverze opačným směrem je samozřejmě také možná. Hash je rozložen na hodnoty klic1, hodnota1, klic2, hodnota2... a ty jsou přiřazeny do pole:

@pole = %vzdalenosti;

@pole potom obsahuje prvky:

Klíč	Hodnota
0	Varšava
1	630
2	Amsterodam
3	970
4	Kodaň
5	750
6	Moskva
7	1900
8	Řím
9	1300

Chování funkce print

Uvedeme-li jako argument hash, nejdříve se zkonvertuje na pole a až vzniklé pole se tiskne.

$, = ", ";
print %vzdalenosti;

Výstupem tedy bude text

Varšava, 630, Amsterodam, 970, Kodaň, 750, Moskva, 1900, Řím, 1300

Funkce exists

Testuje, zda existuje klíč pole. Přičemž nezáleží na tom, zda má definovanou hodnotu. Funkce exists se často používá v podmínkách.

print exists($vzdalenosti{"Amsterodam"});#1
print exists($vzdalenosti{"Tokyo"}); #""

Funkce delete

Maže klíč a vrací jeho hodnotu.

print exists($vzdalenosti{"Řím"});#1
print delete($vzdalenosti{"Řím"});#130
print exists($vzdalenosti{"Řím"});#""

Funkce each

Čte prvek hashe.

while (($mesto, $vzdalenost) = each(%vzdalenosti)){
    print "$mesto - $vzdalenost\n";
}

Příklad vypíše všechny klíče a hodnoty pole. Funkce each vrací klíč a hodnotu prvku. Přitom si pamatuje, které klíče prvky již vrátila a při opakovaném volání v cyklu vrací jiný prvek. Podotkněme, že pro tento příklad se spíše hodí cyklus for.

$ perl each.pl
Varšava - 630
Amsterodam - 970
Kodaň - 750
Moskva - 1900
Řím - 1300
$

Funkce keys

keys vrací pole prvků s hodnotami, které jsou klíči hashe.

print keys %vzdalenosti;#tiskne klíče všech prvků hashe %vzdalenosti

Vytiskněme ještě klíče v abecedním pořádku:

print sort keys %vzdalenosti;

Funkce values

Vrací hodnoty všech prvků hashe.

print values %vzdalenosti;#tiskne hodnoty všech prvků hashe %vzdalenosti

Počet prvků hashe

Zjistíme ho sečtením klíčů hashe:

print scalar keys %vzdalenosti;

Příklad - slovník

Dnešní díl zakončíme vytvořením programu, který načte ze vstupu slovo a pokud ho má v databázi pojmů, vytiskne jeho význam. Zatím budeme pojmy definovat přímo v programu, což není dobré řešení. Někdy později si předvedeme, jak k tomuto účelu použít externí soubor nebo, ještě lépe, databázi.

Řešení

Ze všeho nejdříve bude nutné definovat pár pojmů.

#!/usr/bin/perl 
use strict;

my $slovo;#bude obsahovat hledaný pojem
my %pojmy = (
    "perl" => "programovací jazyk",
    "ankara" => "turecké hlavní město",
    "uran" => "chemický prvek",
    "Uran" => "planeta",
    "klaus" => "2. prezident České republiky",
    "dioda" => "elektrotechnická součástka"
);

Dále načteme pojem:

print "Zadej pojem: ";
chomp($slovo = <STDIN>);

Hash necháme prozkoumat cyklem foreach (probereme ho sice až v příštím díle, ale vězte, že do zadané proměnné přiřazuje postupně každý prvek zadaného pole) a pokud se hledané slovo shoduje s názvem pojmu vypíšeme informace a ukončíme. Přitom převedeme všechna písmena na malá, aby nezáleželo na velikosti písmen načteného řetězce. Z tohoto důvodu dále musíme zajistit, aby se tiskly všechny pojmy i v případě, že existuje více pojmů, lišících se jen ve velikosti (tedy konkrétněji - pokud bude dotaz znít URAN, ve výsledcích se musí objevit Uran i uran).

Poznámka - ano, je pravda, že takto nebudeme schopni definovat dva stejné pojmy, které se neliší ani ve velikosti (kupříkladu Uran - planeta a Uran - bůh). Pouze můžeme do jedné hodnoty prvku vepsat oba významy.

foreach my $pojem (keys %pojmy){
    if (lc $pojem eq lc $slovo){
        print "POJEM $pojem --- $pojmy{$pojem}\n";
    }
}

To je téměř vše. Zbývá nám vytisknout nějakou hlášku v případě, že ve slovníku pojem odpovídající zadanému není. K tomu si definujeme další proměnnou $uspech,

my $uspech = 0;

ve které bude pravdivá hodnota, pokud byl hledaný pojem nalezen. V opačném případě zůstane hodnota nepravdivá. Pokud byl pojem nalezen, přiřadíme do ní pravdivou hodnotu. To zapíšeme do těla podmínky uvnitř cyklu.

        $uspech = 1;

A v případě neúspěchu tiskneme chybové hlášení.

print "Zadaný pojem není ve slovníku :(\n" if !$uspech;

Zkusme spustit náš program (zdrojový kód):

$ ./slovnik.pl
Zadej pojem: uran
POJEM Uran --- planeta
POJEM uran --- chemický prvek
$ ./slovnik.pl
Zadej pojem: zinek
Zadaný pojem není ve slovníku :(
$

Až budeme znát regulární výrazy, budeme umět napsat slovník, který hledá i podle části názvu. Další věcí, která by našemu slovníku slušela, by bylo předání hledaného pojmu jako argumentu příkazové řádky.

Perl (13) - Hashe