LINUX SOFTWARE

Dnes si povíme pár slov o implementaci funkcí a přetečení zásobníku, ocenit by to mohli hlavně crackeři začátečníci. Dojde i na rekurzi, deklaraci hlavičky funkce a ukážeme si první jednoduchý projekt z více souborů.

10.2.2005 15:00 | Jan Němec | přečteno 47446×

Funkce

O funkcích už leccos víme. Umíme je volat, umíme definovat vlastní funkce, známe speciální funkci main, která se spustí na začátku programu. Přesto je na čase si znalosti prohloubit.

Implementace funkcí

Dobrému programátorovi nestačí jen znalost specifikace jazyka a běžných postupů při programování. Zvlášť v případě Céčka je dobré také vědět, jak funguje přeložený kód a co zhruba odpovídá jednotlivým konstrukcím z C na úrovni asembleru. Tyto znalosti velmi pomáhají v případě nejrůznějších problémů například s pamětí a mohou výrazně urychlit hledání chyby v programu. Vzhledem k množství chyb typu přetečení zásobníku je asi nejdůležitější něco vědět o implementaci funkcí.

Funkce má parametry, vlastní proměnné a návratovou hodnotu. Může být zavolána z libovolného místa v kódu a po skončení běhu funkce program od tohoto místa pokračuje dál, takže je třeba si zapamatovat i adresu, ze které byla funkce zavolána. Funkce může navíc (přímo nebo prostřednictvím jiné funkce) volat i sama sebe, takže v jednom okamžiku může být (i bez použití vláken) rozpracováno více instancí jedné funkce, na procesoru je samozřejmě vždy jen nejvnitřnější instance.

Funkce se běžně implementují pomocí zásobníku. Jedná se o kus paměti, a sadu jednoduchých rutin.

push data - ulož data na zásobník
pop - odeber posledně uložená data ze zásobníku
top - ukazatel na posledně uložená data

případě ještě

call adresa - současnou adresu ulož na zásobník a skoč na zadanou adresu
ret - odeber ze zásobníku adresu návratu z funkce a skoč na ni

Na běžných platformách implementuje zásobník přímo hardware a základním rutinám obvykle odpovídá jediná instrukce. Zásobník je přitom přístupný i přes běžné ukazatele.

Parametry, návratová adresa i proměnné funkce se ukládají na zásobník. Před zavoláním funkce se nejprve na zásobník uloží parametry. Začíná se od posledního a končí prvním, důvod se dozvíme v některém z dalších dílů. Následuje instrukce call. Pokud má funkce nějaké proměnné, pomocí push (nebo v praxi obecně změnou hodnoty registru, který ukazuje na vrchol zásobníku) si pro ně vyhradí na zásobníku místo. Funkce vykoná nějaký užitečný kód a má skončit. Pokud má funkce návratovou hodnotu, uloží se obvykle do nějakého registru. Potom uvolní ze zásobníku své lokální proměnné (ne ale parametry) a nakonec zavolá ret. Parametry funkce uvolní až volající kód. Program pak pokračuje v běhu od místa volání funkce dál.

Jednoduchá funkce, která vytiskne int by se do psoudoasembleru přeložila asi takhle.

int printint(int i) {    push [top +- konstanta] /* ulož i */
  printf("%i", i);       push "%i"               /* ulož adresu "%i" */
  return 0;              call printf             /* zavolej printf */
}                        pop                     /* uvolni "%i" */
                         pop                     /* uvolni i */
                         mov registr, 0          /* return 0 */
                         ret                     /* návrat */

Její volání také není obtížné.

printint(10);            push 10                 /* ulož 10 */
                         call printint           /* zavolej printint */
                         pop                     /* uvolni 10 */

Výše uvedený příklad i celé povídání o implementaci funkcí berte trochu s rezervou. V konkrétních případech se může lišit zejména pořadí předávání parametrů a způsob jejich uvolňování, celou věc také komplikují registry procesoru a různé optimalizace. Přesto se základní znalosti o zásobníku a implementaci funkcí mohou programátorovi hodit a to zejména při paměťových chybách nejrůznějšího druhu. Asi nejznámější a nejnebezpečnější je přetečení řetězce definovaného lokálně ve funkci prostřednictvím nějakého vstupu přes Internet. Útočník tak může přepsat na zásobníku adresu pro návrat z funkce na jeho kód, který je součástí tohoto řetězce. Na řadě platforem tedy tato chyba nevede pouze k pádu programu, ale dokonce k vykonání nepřátelského kódu.

Rekurze

Funkce může volat sama sebe, říká se tomu rekurze. Běžně se používá i v matematice, pomocí rekurze se obvykle definuje například faktoriál a lze tak rovněž implementovat v Céčku.

int faktorial(int i) {
  if (i <= 1) return 1;
  return i * faktorial(i - 1);
}

Uvedený postup pochopitelně není příliš efektivní, neboť (jak jsme si ukázali) volání funkce obsahuje určitou režii, která je zde větší než vlastní výpočet faktoriálu pomocí násobení a odčítání jedničky. Mnohem lepší je použít místo rekurze jednoduchý for cyklus.

int faktorial(int i) {
  int j;
  
  if (i <= 1) return 1;
  for (j = i - 1; j >= 2; j--) i *= j;
  return i;
}

Dalším (a vážnějším) problémem rekurze je její paměťová složitost. Při výpočtu faktorial(n) prvním způsobem bude v jednom okamžiku na zásobníku n instancí funkce faktorial, zatímco druhý způsob pracuje v konstantní paměti. V případě rychle rostoucí funkce, jakou je faktoriál, je omezujícím faktorem kapacita proměnné typu int, ale v jiných praktických příkladech často narazíme na omezenou velikost zásobníku. Přesto je rekurze v konkrétních případech běžným programátorským postupem, pouze vždy musíme hlídat maximální hloubku zanoření.

Hlavička funkce

V době překladu není třeba znát implementaci volané funkce. Překladač by však měl znát alespoň jméno funkce a typ parametrů a návratové hodnoty. Zatím jsme proto vždy definovali ve zdrojovém souboru volanou funkci před volající a kód uzavírala funkce main. Toto uspořádání není vždy výhodné a někdy ani není možné. Zdrojový kód může být tvořen více soubory nebo potřebujeme dvě funkce které se vzájemně volají. V tom případě je třeba deklarovat funkci pomocí její hlavičky.

#include <stdio.h>

/* Takhle vypadá deklarace funkce */
void funkceB(int i); 

void funkceA(int i) {
  printf("funkceA, i = %i\n", i);
  if (i <= 0) return;
  /* Zde překladač ještě nezná tělo funkceB, ale to nevadí,
     stačí, že zná hlavičku. */
  funkceB(i - 1);
}

void funkceB(int i) {
  printf("funkceB, i = %i\n", i);
  if (i <= 0) return;
  funkceA(i - 1);
}

int main(void) {
  funkceA(10);
  return 0;
}

Více zdrojových souborů

Pokud se kód programu skládá z více zdrojových souborů s vzájemně se volajícími funkcemi, postupujeme obdobně. Před voláním zajistíme, aby překladač znal hlavičku funkce z druhého souboru.

Při práci na větším projektu hrozí konflikt jmen funkcí. Zde (částečně) pomůže klíčové slovo static. Funkce definovaná jako static je dostupná pouze ze svého zdrojového souboru a nelze ji volat odjinud, ani pokud známe její hlavičku. Taková funkce pak samozřejmě netvoří např. rozhraní knihovny nebo nějakého logického celku v rámci programu, ale je určena pouze pro lokální použití. Při linkování výsledného programu navíc nedojde k chybě, pokud je static funkce stejného jména definovaná i v jiném souboru.

Příklad pro dnešní díl

Ukážeme si první jednoduchý projekt tvořený dvěma zdrojovými soubory. V obou bude definovaná static funkce maximum a po jedné veřejné funkci, které se vzájemně volají.

/* main.c */

#include <stdio.h>

/* hlavička funkce z druhého souboru */
void funkceB(int hloubka);

static int maximum(int i, int j) {
  if (i > j) return i; else return j;
}

void funkceA(int hloubka) {
  puts("funkceA");
  if (hloubka <= 0) return;
  funkceB(hloubka - 1);
}

int main(void) {
  printf("%i\n", maximum(1, 2));
  funkceA(4);
  return 0;
}

A druhý soubor.

/* druhy.c */

#include <stdio.h>

/* hlavička funkce z prvního souboru */
void funkceA(int hloubka);

static double maximum(double i, double j) {
  if (i > j) return i; else return j;
}

void funkceB(int hloubka) {
  puts("funkceB");
  printf("%f\n", maximum(1.1, 2.2));
  if (hloubka <= 0) return;
  funkceA(hloubka - 1);
}

Zkuste nejprve přeložit jen jeden ze souborů příkazem

gcc main.c -o program

Vlastní překlad projde, ale linkování selže na nedefinovaném symbolu funkceB. Nejjednodušším způsobem, jak sestavit program, je překlad a linkování obou zdrojových souborů jediným příkazem.

gcc main.c druhy.c -o program

Náš příklad se od skutečných projektů přece jen v něčem liší. Hlavičky funkcí je lepší umístit do speciálních souborů a projekt překládat pomocí make. Obojí si ukážeme v některém z dalších dílů.

Pokračování příště

V příštím dílu se podíváme podrobněji na proměnné.