Perl (30) - Práce se soubory

Rozšiřující informace k minulému dílu.

7.4.2006 09:00 | Jiří Václavík | přečteno 39812×

Zápis na libovolnou pozici

Připisujeme-li do souboru, je zde možné kromě zapisování na jeho konec i přidávání textu kamkoliv jinam. Perl obsahuje funkci seek, která nastavuje pozici, kde má dojít k zápisu. seek má 3 argumenty, které určují ovladač a pozici:

  1. ovladač
  2. posun - tedy počet znaků, o který se bude pozice posunovat.
  3. pozice, odkud se bude posunovat. Tento argument může nabývat následujících hodnot:
    • 0 - nastavuje pozici posunu
    • 1 - k současné pozici přidává posun
    • 2 - pozici nastavuje na konec souboru + posun. Je logické, že posun je pak záporný

Abychom si mohli názorně ukázat, jak funkce seek funguje, vytvoříme textový soubor, ve kterém budou dobře vidět změny a jejich pozice. Takový soubor může vypadat následovně.

**********
**********
**********
**********
**********

Zkusme v něm nahradit pár hvězdiček na libovolném místě textu:

open SOUBOR, "+< soubor"; #otevření pro současné čtení a zápis

seek SOUBOR, 15, 0;       #pozice 15
print SOUBOR "X";

seek SOUBOR, 3, 1;        #pozice 15+3=18
print SOUBOR "X";

seek SOUBOR, -5, 2;       #pozice (počet_znaků_souboru)+(-5)
print SOUBOR "X";

seek SOUBOR, 4, 0;        #pozice 4
print scalar <SOUBOR>;    #jako bonus vypíšeme zbytek řádku
                          #to je ukázka zápisu a čtení zároveň z 1 ovladače

Nyní velice hezky vidíme výsledek. Soubor, do kterého jsme zapisovali, má následující obsah.

**********
****X***X*
**********
**********
******X***

Zamykání souborů

Obzvláště při psaní aplikací, které sdílejí tytéž data - tedy například u webových aplikací, časem narazíme na problém. Může se totiž klidně stát, že několik lidí pošle serveru současně data, která mají být zapsána do téhož souboru. To vede k závažným problémům v podobě ztráty dat. Je třeba nějakou organizaci sdílení souborů. Tuto záležitost nejlépe vyřešíme blokováním přístupu k souboru během práce s ním.

Zde je syntaxe příkazu flock, který obstarává zamykání.

flock(soubor, režim);
flock(ovladač, režim);

V tabulce jsou možné režimy, do kterých lze soubor přepnout.

RežimNázevČinnost
1LOCK_SHzámek pro čtení (sdílený)
2LOCK_EXzámek pro zápis (nesdílený)
4LOCK_NBneblokující zámek
8LOCK_UNuvolnění zámku

Zámek pro čtení zabraňuje zápisu v okamžiku, kdy soubor někdo jiný čte. Zámek pro zápis zamezuje jakémukoliv pokusu o otevření.

Pokud to není opodstatněné, rozhodně neblokujte soubory na delší dobu. Například pokud program čeká na uživatelský vstup, je soubor otevřen zbytečně, protože program dlouhou dobu nic nedělá.

Ukažme si jednoduchý úsek kódu, jež přibližuje zápis do souboru, který byl předtím uzamčen.

open(SOUBOR, ">soubor") or die "Nelze otevřít soubor: $!\n";
flock(SOUBOR, 2) or die "Nelze zamknout soubor\n"; #zamkneme soubor pro zápis
print SOUBOR "text, zapsaný pomocí zámku";
flock(SOUBOR, 8); #uvolníme zámek
close SOUBOR;

Jako parametr funkce flock lze použít místo režimu i jeho symbolický zápis, avšak k tomu je třeba zavést modul Fcntl.

use Fcntl qw(:DEFAULT :flock);
...
flock(DATA, LOCK_SH);#zamkneme pro čtení

Dočasné soubory

Dočasné soubory jsou obyčejné soubory, které slouží programu pouze po dobu jeho vykonávání. Program ho tedy musí vytvořit a smazat. Zmiňuji se o tom proto, že program může spouštět ve stejný okamžik více lidí a je nutné zabezpečit, aby každé spuštění programu mělo vlastní dočasný soubor.

Dočasné soubory jsou odlišným problémem od zamykání. Zde slouží každému uživateli jeden soubor po dobu jeho práce, narozdíl od zamykání, které se používá u veřejných souborů.

Dočasný soubor musí mít jméno charakteristické pro každého uživatele - tedy jméno, které ho jednoznačně identifikuje. Příkladem takového unikátního řetězce je proměnná $$, jež obsahuje ID procesu (PID). To je jedinečné pro každý proces běžící zároveň na stejném operačním systému. Dočasný soubor tak bude v názvu obsahovat PID. Z toho plyne, že vytváření dočasných a běžných souborů se nijak neliší, pouze u dočasných musíme zavést jednoznačná jména.

open(TEMP, ">/tmp/$$");

Přejmenování a přesouvání souborů

Příkaz rename přijímá jako první argument název existujícího souboru a druhým je nový název. Pokud zdrojový soubor neexistuje, vrací funkce false. rename se, stejně jako všechny funkce zmíněné dále, často používá v jednořádkových skriptech, o kterých bude v seriálu řeč později.

rename "zaloha", "20060402zaloha" or die "Soubor nebyl přejmenován. $!";

Mazání souborů

Funkce unlink maže všechny ze seznamu souborů (obyčejných nebo odkazů), které jí jsou předány. Pro mazání adresářů nelze unlink na většině systémech použít. Můžeme však použít funkci rmdir.

unlink "kopie1.dat", "kopie2.dat" or die "Soubor nebyl smazán. $!";

Práva a vlastník souboru

Funkce chmod přijímá mód a seznam souborů. Mód je číslo, vyjadřující práva pro vlastníka, skupinu a ostatní. Obvykle se udává v osmičkové soustavě (0755, 0711, 0644 apod.). Pokud neudáte nulu před osmičkové číslo, bude bráno jako desítkové a práva se nastaví úplně jinak!

chmod 0755, "logo.png", "tlacitko.png";

Podobná funkce, chown, mění vlastníka. Parametry jsou UID, GID a seznam souborů.

chown 1001, 100, "logo.png";

Oříznutí souboru

truncate zkrátí soubor na uvedenou velikost (počet znaků). Soubor lze uvést jménem nebo ovladačem.

truncate "logo.png", 100;

Počítadlo znaků

Napíšeme si program, který ze vstupu načte znak a jmého souboru a následně spočítá podíl (v procentech) výskytu zadaného znaku k celkovému počtu znaků v souboru. Přitom nebude počítat znak nového řádku. Dále, abychom vyzkoušeli i trochu jinou práci s ovladači, bude existovat volba, zda vypsat výsledek na výstup nebo do jiného souboru.

Nejprve tedy načteme název zdrojového souboru, hledaný znak a volbu. Dále podle volby nastavíme, kam bude směřovat ovladač CIL. Jsou 2 možnosti - buď standartní výstup nebo textový soubor. Poté prohledáme znak po znaku zdrojový soubor, přičemž budeme počítat počet výskytů hledaného znaku a také všechny znaky mimo znak nového řádku dohromady. Nakonec spočítáme hledaný podíl a vytiskneme pomocí ovladače CIL. Sice to není příklad, který dělá něco užitečného, ale můžeme si na něm demonstrovat některé konstrukce.

Nejdříve definujeme proměnné a načteme data. Přitom musíme otestovat, zda je hledaný znak opravdu jen 1 znak.

my $zdroj;         #jméno zdrojového souboru
my $volba;         #kam se budou tisknout výsledky - na výstup (1) nebo
                   #do souboru (2)

my $znaku = 0;     #celkový počet znaků v souboru
my $hledany;       #hledaný znak
my $hledanych = 0; #počet výskytů hledaného znaku v souboru

print "Zadejte zdrojový soubor: ";
chomp($zdroj = <STDIN>);

print "Zadejte hledaný znak: ";
chomp($hledany = <STDIN>);
if (length($hledany) != 1){
    die "Toto není regulérní znak.\n";
}

Dále musíme načíst uživatelovu volbu. Jsou 3 možnosti. Zadá-li uživatel 1, bude ovladač CIL směřovat na standartní výstup. Zadá-li 2, bude ten samý (což je výhodné, protože se pak už o výstup nemusíme starat) ovladač směřovat do souboru. Na ten se tedy musíme uživatele zeptat a následně ho otevřít. Poslední případ nastává, pokud není zadána správná volba.

print "Chcete vytisknout statistiky na výstup (1) nebo zapsat
do souboru (2)?
";
chomp($volba = <STDIN>);

if ($volba == 1){
    open(CIL, ">-") or die "Nelze zapisovat na standartní výstup. $!\n";
}elsif ($volba == 2){
    print "Zadejte cílový soubor: ";
    my $cil = <STDIN>;
    open(CIL, ">>$cil") or die "Nelze otevřít cílový soubor. $!\n";
}else{
    die "Toto není regulérní volba.\n";
}

Teď můžeme začít se samotným výpočtem. Musíme vymyslet, jak otestovat každý znak. Budeme tedy cyklem while načítat řádek po řádku, každý řádek rozdělíme funkcí split na znaky, každý znak porovnáme s hledaným znakem a inkrementujeme příslušná počítadla (jsou-li testovaný znak a hledaný znak shodné, inkrementujeme celkový počet znaků i výskyt hledaného znaku, v opačném případě jen celkový počet). Předtím ještě musíme ošetřit, zda není testovaným znakem znak nového řádku.

open(ZDROJ, $zdroj) or die "Nelze otevřít zdrojový soubor: $!\n";

while (<ZDROJ>){     my @znaky = split "";

    foreach (@znaky){
        next if $_ eq "\n";
        $hledanych++ if $_ eq $hledany;
        $znaku++;
    }
}

Počítání vyskytnuvších se hledaných znaků uvnitř cyklu lze samozřejmě řešit i jinými způsoby.

Máme celkový počet znaků i počet výskytů hledaného znaku, nic nám již nebrání spočítat podíl a tisknout ho pomocí CIL, který už směřuje na vybraný výstup.

my $procent = $znaku==0 ? 0 : $hledanych/$znaku*100;
print CIL "Relativní četnost znaku \"$hledany\"
v souboru
$zdroj je $procent%.\n";

Příště se podíváme na testování souborů.

Online verze článku: http://www.linuxsoft.cz/article.php?id_article=1166