popbiol

Metody populační biologie rostlin

Semestr: zimní
Celkový rozsah: 1 týden
Další přednášející: Zuzana Münzbergová
Co je potřeba znát před přednáškou: základy populační biologie rostlin, základy biostatistiky

Náplň cyklu

Literatura a odkazy

Informace pro účastníky

Strukturování vlastních dat

Maticové modely

Syllabus

Datové soubory

Analýza dat, metapopulační dynamika

Rámcový syllabus

Datové soubory

Kurz Metody populační biologie se bude konat turnusově 5.-9.2.2007. Zájemci se prosím hlaste emailem na zuzmun@natur.cuni.cz. Více o kurzu lze nalézt zde. (přednáší jen Zuzana Münzbergová, neb já jsem v zahraničí)

Tento kurs rozšiřuje "malé" praktikum, které probíhá při přednášce populační biologie. Jeho smyslem je podat přehled běžných postupů ve těchto oblastech:

analýza běžných datových souborů v populační biologii rostlin
použití základních technik pro modelování v populační biologii a jejich aplikace v praktických situacích
seznámení s možným softwarovým vybavením pro práci v populační biologii (zejména Matlab a S-plus)

Kurs je koncipován také jako praktikum, čili hands-on. Kurs je míněn především pro doktorandy (všech universit); nicméně magisterští studenti jsou také velmi vítáni. Perspektivně uvažujeme o tom, že bychom jej otevřeli i pro doktorandy mimo ČR; pak by probíhal (alespoň částečně) v angličtině. Kurs bude mít část teoretickou (přednášky, demonstrace analýzy dat a modelování), a část praktickou (analýza a modelování dat přinesených posluchači, nebo dat, která přinesou přednášející). Závěrem kursu posluchači vypracují krátký report o vybraném zpracovávaném problému, který přednesou a obhájí na společném sezení.

Náplň cyklu bude částečně vycházet z problémů a technik, které uvádíme v manuálu pro analýzu dat v populační biologii (Herben a Münzbergová: Zpracování geobotanických dat v příkladech - Část II. Demografická data). Budeme se věnovat zejména:

v některých bězích:

konstrukce populačních přechodových matic, kritika sebraných dat
maticové modelování populační dynamiky: stabilní věková struktura, růstová rychlost, její variabilita, průměrná délka života
elasticita, příspěvky jednotlivých fází k růstové rychlosti, zjišťování "kritických" fází
spolehlivost predikcí maticových modelů

v dalším bězích:

analýza dat o natalitě a mortalitě: logistická regrese, analýza přežívání
analýza dat o růstu rostlin
analýza dat o kvetení, produkci semen, analýza dat z polinačních pokusů: Poissonovská regrese
analýza dat o klíčení a přežívání semenáčků, analýza dat o přežívání semen v půdě
identifikace jednosměrných vztahů v datových souborech pomocí parciální regrese a path analysis
metapopulační dynamika: stanovení parametrů křivky šíření, metapopulační kapacity
metapopulační dynamika: modelování šíření druhu v krajině s explicitní strukturou
analýza dat na úrovni populace

Pro účastníky:

Letošní kurs (2005) se bude věnovat modelování populační dynamiky maticovými modely. Kurs příštího roku se bude věnovat analýze demografických dat (natalit, mortalit sp.) a modelování metapopulačních dat. (Další kurs věnovaný maticím proto bude až za dva roky!).

Kurs bude probíhat blokově, někdy na konci března (pravděpodobně v týdnu po Velikonocích, nebo ještě o týden později).

Důležité: vezměte si s sebou svoje datové soubory! Zásady pro strukturování datových souborů jsou zde.

Běh školního roku 2004/2005

Den	Dopoledne	Odpoledne
1	Přednášky: Populační projekční matice: princip a možnosti metody (TH). Konstrukce matic z terénních dat (ZM).	Praktikum: Zásady práce s programem Matlab. Konstrukce matic z terénních dat, kritika sebraných dat
2	Přednášky: Maticové modelování populační dynamiky: stabilní věková struktura, růstová rychlost, její variabilita, průměrná délka života (ZM). Sensitivita a elasticita, příspěvky jednotlivých fází k růstové rychlosti, zjišťování "kritických" fází (TH).	Praktikum: Další zásady práce s programem Matlab. Maticové modelování populační dynamiky.
3	Přednášky: Statistické testování, spolehlivost predikcí maticových modelů (TH).	Praktikum: Maticové modelování populační dynamiky, analýza vlastních dat (zejména konstrukce matic)
4	Vystoupení účastníků s analýzou vlastních datových souborů Nebo: Praktikum: Analýza vlastních datových souborů	Vystoupení účastníků s analýzou vlastních datových souborů

Součástí každého praktika budou vystoupení účastníků s analýzou jednotlivých (demonstračních nebo vlastních) datových souborů.

Populační projekční matice: princip a možnosti metody (pondělí, TH).

Životní cyklus rostlin: parametry popisu jedince (velikost, fertilita). Life stages.
Populační četnost a zastoupení jednotlivých tříd v populaci (populační vektor).
Interpretace životního cyklu do přechodové matice. Sloupce: výchozí kategorie, řádky: cílová kategorie. Smysl jednotlivých prvků, jaké části životního cyklu se promítají do jakých prvků. Délka přechodového intervalu.
Reproductive value jednotlivých kategorií. Příspěvek jedince této kategorie k růstu populace.
Podmínka: klasifikace jedinců podle nějakého kritéria (typicky velikost) Pokud jsou klasifikovány podle věku, jde o klasické Leslieho matice).
Populační projekce násobením populačního vektoru populační maticí. Dynamické modelování populační velikosti (stav v čase t je určující pro stav v čase t+1).
Vlastnosti populační matice: stabilní velikostní struktura, růstová rychlost populace. Charakteristická čísla (eigenvalues), charakteristický vektor zprava a zleva. (Malé opakování maticové algebry). Dominantní charakterické číslo: určuje asymptotické chování matice (trvá-li celý proces dostatečně dlouho)
Dominantní charakteristické číslo je pro nezáporné matice reálné. Jaké matice jsou "divné": matice s neuzavřeným cyklem (postreproduktivní individua) - reducibilní matice; matice bez diagonálních prvků s jednou reproduktivní kategorií (neumožňují přechody mezi kohortami: cykly) - neprimitivní matice.
K čemu je celý přístup dobrý: (i) stabilní věková struktura, (ii) teoretická růstová rychlost populace při stabilní věkové struktuře, (iii) analýza sensitivity/elasticity, (iv) reproductive values.
Omezení: (i) V klasickém pojetí neobsahují žádnou závislost na densitě, ani na prostorové struktuře. (ii) Populace nekonečně veliké (žádná demografická stochasticita, tj jsou nevhodné pro modelování extinkce bez dodatečných předpokladů). Obojí lze odstranit, ale obvykle se nepoužívá.
Stochastické matice: náhodné, periodické. Stochasticita prvků, stochasticita matic. Většina pojmů lze zobecnit i pro stochastické matice.

Konstrukce matic z terénních dat (pondělí, ZM). Presentace

Sestavení populační projekční matice.
Konstrukce jednotlivých tříd. Zásady pro rozdělení do tříd v případě opakovaných měření, nebo srovnání několika populací. Kdy musí být třídy v různých populacích stejné a kdy je to jedno.
Dva typy dat pro konstrukci matice: data o přežívání a přechodu mezi třídami dospělých rostlin vs. data o reprodukci
Data o přežívání a přechodu mezi třídami dospělých rostlin: značení jedinců
Data o produkci semen, klíčení a přežívání semenáčků. Problém: vždy je třeba vědět, na jaký počet semen vztáhnout nalezené semenáčky. (i) výsevové pokusy: kontroly, problém density-dependence, (ii) přirozená regenerace: na jaký počet semen vztáhnout, identifikace semenáčků v terénu.
Co s klonálními rostlinami: operacionální jedinec, natalita ramet a její propojení s natalitou semeny/semenáčky
Konstrukce stochastických matic (variabilita v prostoru a v čase). Různé prvky matice mohou mít různé zdroje variability. Kombinované matice (herbivorie)

Maticové modelování populační dynamiky: populační projekce, stabilní věková struktura, růstová rychlost, její variabilita, průměrná délka života (úterý, ZM).

Populační projekce vycházející z aktuálního populačního vektoru
Výpočet stabilní věkové struktury. Srovnání skutečného velikostního složení se stabilním velikostním složením.
Výpočet růstové rychlosti při stabilním velikostním složení, její interpretace (density independence, žádná prostorová struktura)
Population viability analysis
Výpočet průměrné délky života
výpočet reproductive value a její použití

Sensitivita a elasticita, příspěvky jednotlivých fází k růstové rychlosti, zjišťování "kritických" fází (úterý, ZM, TH)

Prospektivní a retrospektivní analýza. Presentace.
Sensitivita k danému prvku: změna růstové rychlosti populace způsobená (malou) změnou velikosti onoho prvku matice.
Sensitivita: vliv jednotlivých prvků matice na růstovou rychlost populace. Definice, smysl, výpočet, použití.
Elasticita: korekce toho, že jednotlivé prvky matice mají odlišný smysl (pravděpodobnost přechodu vs. natalita).
Elasticita: standardizovaná sensitivita. Smysl: jaký je příspěvek jednotlivých členů matice k růstové rychlosti - jak se změní růstová rychlost při standardní změně hodnoty prvku. Součet elasticit všech prvků je 1. Věty o elasticitách.
Retrospektivní analýza: Variabilita jednotlivých prvků (z terénních dat - tj. je třeba mít víc matic), vztah variability a sensitivity, rozklad variability lambdy - náhodné a pevné faktory. Life table response "experiments".
Zjišťování "kritických" fází.
Příklad studium vlivu herbivorie/granivorie na populační růst a velikost
Klasifikace rostlin podle elasticity Growth (tj. zvětšování velikosti), Survival (zachovávání velikosti), a Fecundity (tj. uchycování semenáčků). Vztah k životním strategiím, stanovištím, kde rostou.
retrospektivní a prospektivní analýza: vztah sensitivit k možné (v terénu identifikované) variabilitě v prvku.
analýza cyklů (loop analysis). Presentace.

Statistické testování, spolehlivost predikcí maticových modelů (středa, TH)

Maticový přístup je (dynamické) modelování, čili otázka po statistice je sekundární.
Statistická otázka při odhadu parametrů a její důsledky pro predikce modelu.
Střední chyba odhadu parametru.
Princip odhadu parametrů/testového kritéria: analyticky (předpoklad výběru ze známého rozdělení), numericky.
Princip bootstrap technik. Konstrukce velkého počtu opakování pomocí resampling jednoho zkoumaného vzorku. Informace o výchozím rozložení sledované náhodné proměnné. Bootstrap je typ Monte Carlo (randomizační) techniky, která je obzvlášť vhodná pro zjištění nejistoty při odhadu parametrů.
Odhad střední chyby pomocí bootstrap, počet výběrů ke spolehlivému odhadu (200 obvykle stačí)
odhad konfidenčního intervalu, parametrické, přímé pomocí bootstrapu, počet výběrů ke spolehlivému odhadu (2000 pro 0.95)
Použití bootstrap při modelování maticovými technikami: různé prvky obvykle vychází z různých výchozích datových souborů (klíčení vs. přežívání/růst/kvetení). Bootstrap různých výchozích datových souborů nezávisle. Co s prvky, kde nelze bootstrap provést.
Použití bootstrapu v interpretaci maticových modelů: každá predikce (růstová rychlost, stabilní velikostní složení, reproductive values, elasticita) lze doprovodit údajem o spolehlivosti jejího odhadu: statistické obálky
Srovnání skutečného velikostního složení se stabilním velikostním složením
Zkoumání, zda konfidenční interval odhadu obsahuje nějakou teoreticky zajímavou hodnotu (např. lambda = 1).
Použití bootstrap technik srovnání dvou souborů: analogie t-testu.
Permutační testy (jiný typ Monte Carlo techniky) pro srovnání mezi maticemi/populacemi. Volba testového kritéria, typ randomisace.
Výhoda randomizačních testů: žádné předpoklady o výchozím rozdělení, snadná a flexibilní implementace. Výpočetně již nejsou náročné.

Materiály k praktiku:

Data (Všechna data zde vystavená jsou určena pouze k výukovým účelům a jejich jakékoliv jiné využití je vázáno na souhlas autora.)

Data pro manuální konstrukci přechodové matice pro Linum tenuifolium jsou zde.
Data pro manuální konstrukci přechodové matice pro Cirsium acaule jsou zde.
Dvě jednoduché matice pro druh Succisa pratensis jsou zde. Matice 1, matice 2.
Jedna matice pro Linum tenuifolium je zde.
Soubor matic pro druh Succisa pratensis pro stochastické modelování je zde.
Soubor matic pro druh Succisa pratensis pro retrospektivní analýzu je zde.
Přechodové matice pro větší počet druhů z literatury jsou zde.
Data pro výpočet průměrné délky život jsou zde (pro skript Cochran).
Data o růstu a kvetení odnoží Festuca rubra jsou zde.
Data o růstu, kvetení a mortalitě Tanacetum vulgare jsou zde.
Data o klíčení výsevových pokusů (soubor více druhů) jsou zde.
Data pro přežívání odnoží Brachypodium pinnatum jsou zde.
Data o délkách oddenků u Calamagrostis epigeios (jiné použití survival analysis) jsou zde.

Skripty pro Matlab (ve většině případů díla Zuzany Münzbergové)

Jednoduchý skript pro populační projekci v čase je zde.
Jednoduchý skript pro výpočet populační růstové rychlosti, stabilního velikostního složení, reproduktivních hodnot, sensitivit a elasticit je zde.
Skript pro výpočet populační růstové rychlosti, stabilního velikostního složení a sensitivit a elasticit pro stochastické matice je zde.
Skript pro zkoumání typu závislosti růstové rychlosti na prvku přechodové matice je zde.
Skript pro výpočet průměrné délky života z přechodové matice podle Cochran a Ellner. Tady je k němu (a k datům uvedeným shora) popis.
Skript pro retrospektivní analýzu (rozklad variance) pro větší množství empirických matic (life table response experiment) je zde.
Kompletní výpočet a analýza populačních přechodových matic včetně konstrukce konfidenčních intervalů (pomocí bootstrapu) spolu s vysvětlivkami a popisem je zde.

Běh školního roku 2005/2006

Zobecnělé lineární modely v populační biologii: princip a možnosti.

Statistický model: způsob jak representovat hodnoty závislé proměnné nezávislými proměnnými (prediktory) a náhodnou variabilitou.
Terminologie: Nezávislá proměnná: prediktor, faktor, kovariáta (tak se jí říká obvykle v případě, že mě nezajímá a chci její vliv odfiltrovat pomocí parciální analýzy). Závislá proměnná: response variable
Obecný lineární model (general linear model, GLM): očekávaná hodnota y je lineární funkcí prediktorů. Ey = ax+b. Rozložení hodnot y kolem očekávané hodnoty je normální, y = ax+b + eps, kde eps je normálně rozložená náhodná proměnná se střední hodnotou 0.
ANOVA, lineární regrese jednoduchá i mnohonásobná, ANCOVA jsou speciální případy GLM. [V ANOVA/ANCOVA je nezávislá proměnná kategoriální, ale to nevadí.]
Příklady závislých proměnných s jiným než normálním rozdělením: binomické (např. počet rostlin, které vykvetly, pokud znám celkový počet rostlin), Poissonovo (např. počet potomků na jedince), gamma (mnoho sešikmených biologických rozdělení, např. velikost), exponenciální (doba života - modely přežívání).
Jak v různých teoretických rozděleních závisí rozptyl na očekávané hodnotě y: binomické - unimodální, Poissonovo - lineární, Gamma - kvadratická (Gaussovo/normální - rozptyl na očekávané hodnotě y nezávisí)
Zobecněné lineární modely (generalized linear models, GLIM): dva rozdíly proti lineárním modelům:
- Zavedení transformační funkce (link function): g(Ey) = ax+b. Ta umožní převést rozsah hodnot lineárního prediktoru (všechna reálná čísla) na rozsah povolených hodnot závislé proměnné (viz tabulka).
- Rozložení hodnot proměnné kolem očekávané hodnoty pro danou kombinaci nezávislých proměnných není normální/Gaussovo, ale takové, aby umožnilo postihnout právě závislost rozptylu na očekávané hodnotě y (binomické, Poissonovo, Gamma).
Často používané typy zobecněných lineárních modelů:

Model	Rozdělení	Závislost rozptylu na Ey	Povolené hodnoty Ey	Obvyklá link function	Typická data
Logistická regrese	binomické	unimodální, s maximem pro Ey = 0.5	<0,1>	logit	frekvence - podíl "úspěchů" ze známého počtu pokusů (např. počet rostlin v pokusu, které vykvetly)
Poissonovská regrese	Poissonovo	lineárně rostoucí	<0,+inf), celočíselné	log	počty, včetně nulových hodnot (např. počet potomků na jedince)
Gamma regrese	Gamma	kvadraticky rostoucí	(0,+inf)	1/x	spojitá sešikmená data, bez nulových hodnot (např. biomasy, velikostní rozměry, zejména pokud rozsah hodnot je velký)
Obecný lineární model	normální (Gaussovo)	konstantní	(-inf,+inf)	identita	spojitá symetricky rozložená data (např. biomasy nebo velikostní rozměry, pokud rozsah hodnot je malý)

NB. Obecný lineární model (ANOVA, lineární regrese, ANCOVA) je speciální případ GLIMu.
NB. Hodnoty x: residuály a náhodná variabilita mají smysl jen pro proměnnou y (závislou). Proto rozložení má cenu zkoumat jen u závislé proměnné.
Požadavek na typ rozdělení se týká jen závislé proměnné (je to rozložení jejích skutečných hodnot kolem očekávané hodnoty). Je proto třeba zkoumat rozdělení hodnot závislé proměnné pro danou kombinaci hodnot nezávislých proměnných (nikoli rozdělení bez ohledu na hodnoty nezávislých proměnných). Zkoumání rozdělení hodnot y bez dalšího proto není vždy dost informativní, je lépe zkoumat residuály (ale ty už závisí na použitém modelu...).
Požadavek na typ rozdělení neznamená, že závislá proměná musí mít ono rozdělení; stačí, aby jím byla aproximovatelná.
Jak zjistit rozdělení výchozích dat I: Rovněž je důležitá úvaha o generujícím procesu, přítomnost nulových hodnot, to, zda mají smysl i neceločíselné hodnoty, reakce na transformaci (log, sqrt) - graficky.
Jak zjistit rozdělení výchozích dat II: Grafické postupy. Histogramy, Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního rozložení.
Jak zjistit rozdělení výchozích dat III: Testy shody s teoretickým rozdělením (chi² nebo jiný test dobré shody, Kolmogorov-Smirnov). Problém: je-li případů málo, test není signifikantní ani v případě velké odchylky, je-li případů mnoho, je signifikantní, i když odchylka je tak malá, že neovlivní statistickou inferenci.
Srovnání očekávaných a pozorovaných hodnot: pojem deviance. Chi² rozdělení, počet stupňů volnosti.
Odhad parametrů v zobecnělém lineárním modelu: zobecnění postupu nejmenších čtverců, maximum likelihood. Numerické postupy.
Testování jednotlivých členů modelu: test signifikance členu modelu je rozdíl deviancí mezi dvěma modely lišícími se právě tímto členem. Test členu proto v obecném případě závisí na struktuře modelu (tj. na tom, jaké další členy jsou přítomny). [Poznámka. Nezávisí na něm právě v případě, kdy všechny nezávislé proměnné jsou orthogonální, tj, zcela na sobě nezávislé.]
Problém identifikace nejvhodnějšího modelu: postupné techniky.
Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model vysvětlovat data. Příklad regrese s jedním a dvěma prediktory. Overparameterised model. AIC (Akaike's information criterion): znevýhodnit modely, které potřebují hodně parametrů.
Hierarchické modely, interakce v modelech.
Nevýhoda GLIM: nejsou příliš vhodné pro data s hierarchií variancí (repeated measurements, split-plot, nested data).

Zobecnělé lineární modely v populační biologii: příklady typických dat a jejich analýza. Presentace

Analýza dat o natalitě: počet potomků na matku (Poissonovo rozdělení)
Analýza dat o mortalitě: binomické/Bernouilliho rozdělení, nebo analýza přežívání (závisí na typu dat i na otázce)
Analýza dat o produkci semen a dat z polinačních pokusů: Poissonovo nebo binomické rozdělení
Analýza dat o klíčení a přežívání semenáčků
Analýza přežívání: příklady dat, rozdělení závislé proměnné, censored data.
Příklady: data o přežívání semen v půdě, data o klíčení semen v klimaboxu, data o délkách oddenků, polinační data
Analýza přežívání: odhady parametrů, srovnání parametrů
Regresní modely v analýze přežívání: Coxův model (nepředpokládá specifické rozdělení závislé proměnné), parametrické modely
Zobecnělé lineární modely a hierarchická data (analogie split-plot design): ošetření počtu stupňů volnosti

Analýza dat na úrovni populace.

Metapopulační data: incidence function models

Metapopulační data: dynamické modely

Identifikace jednosměrných vztahů v datových souborech pomocí parciální regrese a path analysis

Problém mnohonásobného testování v datech o korelacích
Problém: korelace neznamená příčinnost, ale někde směr ovlivnění je jasný z nezávislých informací.
Otázka obvykle po "očištěné" závislosti. Nejjednodušší případ: parciální regrese v případu tří proměnných.
Grafické znázornění typů závislostí: souřadné proměnné, nesouřadné proměnné, výchozí nezávislé proměnné, sledované závislé proměnné, sledované závislosti.
Regresní koeficient: nestandardizovaný a standardizovaný. Smysl standardizovaného regresního koeficientu a jeho použití v path analysis.
Testy v path analysis. Kritika modelů.

Materiály k praktiku:

Data (Všechna data zde vystavená jsou určena pouze k výukovým účelům a jejich jakékoliv jiné využití je vázáno na souhlas autora.)

Data o růstu a kvetení odnoží Festuca rubra jsou zde.
Data o růstu, kvetení a mortalitě Tanacetum vulgare jsou zde.
Data o klíčení výsevových pokusů (soubor více druhů) jsou zde.
Data pro přežívání odnoží Brachypodium pinnatum jsou zde.
Data o délkách oddenků u Calamagrostis epigeios (jiné použití survival analysis) jsou zde.

Základní literatura

Caswell H.: Matrix Population Models: Construction, Analysis, and Interpretation. Základní příručka pro analýzu maticových populačních modelů.
Gibson, D. J. 2002. Methods in comparative plant population ecology. Oxford University Press, Oxford.
Scheiner S.M. & Gurevitch J. (1993): Design and analysis of ecological experiments. Chapman & Hall, New York.
Herben T. a Münzbergová Z.: Zpracování geobotanických dat v příkladech - Část II. Demografická data

Zásady pro strukturování datových souborů

Vhodné jsou v zasadě jakékoliv soubory, které obsahují informaci o jednotlivých rostlinách (rametách, semenáčcích, atd.), zejména tehdy, pokud ta infomace je sbírána opakovaně v čase (jak rostly, umíraly, kvetly, rodily se atd), ale to není podmínkou. (Je samozřejmě výhodné mít s sebou data popisující co největší části životního cyklu Vaší oblíbené rostliny.) Při přípravě dat dbejte podle možnosti těchto zásad:

Je vhodné, aby data byla ve formátu xls (jeden typ dat vždy na jednom listu nebo v samostatném souboru)
Každý jedinec nechť má svou vlastní řádku
Sloupce nechť popisují jednotlivé parametry, jednak nezávislé (ošetření, informace o stanovišti atd.) a závislé (velikosti, počet potomků v různých dobách atd.)
Každý sloupec nechť má nahoře jednu řádku se jménem proměnné. To by nemělo obsahovat speciální znaky (%, $, @, -, (), mezeru, atd.) ani znaky s diakritikou a jeho délka by neměla přesáhnout 8 písmen.
Nevynechávejte řádky, k odlišení jednotlivých podskupin dat použijte kódovací proměnné
Je zbytečné data složitě formátovat (barvy, ohraničení, velikost buněk), při exportu se tato informace dá použít jen obtížně

Domovská stránka

Náplň cyklu		Literatura a odkazy
Informace pro účastníky		Strukturování vlastních dat
Maticové modely
Syllabus		Datové soubory
Analýza dat, metapopulační dynamika
Rámcový syllabus		Datové soubory