Metody populační biologie rostlin
Semestr: zimní
Celkový rozsah: 1 týden
Další přednášející: Zuzana Münzbergová
Co je potřeba znát před přednáškou: základy populační biologie rostlin,
základy biostatistiky
|
|
|
|
|
|
Maticové modely
|
|
|
|
Analýza dat, metapopulační dynamika
|
|
|
|
Kurz Metody populační biologie se bude konat turnusově 5.-9.2.2007. Zájemci
se prosím hlaste emailem na zuzmun@natur.cuni.cz. Více o kurzu lze nalézt zde.
(přednáší jen Zuzana Münzbergová, neb já jsem v zahraničí)
Tento kurs rozšiřuje "malé" praktikum, které probíhá při přednášce
populační biologie. Jeho smyslem je podat přehled běžných postupů ve těchto
oblastech:
- analýza běžných datových souborů v populační biologii rostlin
- použití základních technik pro modelování v populační biologii a jejich
aplikace v praktických situacích
- seznámení s možným softwarovým vybavením pro práci v populační biologii (zejména
Matlab a S-plus)
Kurs je koncipován také jako praktikum, čili hands-on. Kurs je míněn
především pro doktorandy (všech universit); nicméně magisterští studenti jsou
také velmi vítáni. Perspektivně uvažujeme o tom, že bychom jej otevřeli i pro
doktorandy mimo ČR; pak by probíhal (alespoň částečně) v angličtině.
Kurs bude mít část teoretickou (přednášky, demonstrace analýzy dat a modelování),
a část praktickou (analýza a modelování dat přinesených posluchači, nebo dat,
která přinesou přednášející). Závěrem kursu posluchači vypracují krátký report
o vybraném zpracovávaném problému, který přednesou a obhájí na společném sezení.
Náplň cyklu bude částečně vycházet z problémů a technik,
které uvádíme v manuálu pro analýzu dat v populační biologii (Herben a Münzbergová:
Zpracování
geobotanických dat v příkladech - Část II. Demografická data). Budeme se
věnovat zejména:
v některých bězích:
- konstrukce populačních přechodových matic, kritika sebraných dat
- maticové modelování populační dynamiky: stabilní věková struktura, růstová
rychlost, její variabilita, průměrná délka života
- elasticita, příspěvky jednotlivých fází k růstové rychlosti, zjišťování
"kritických" fází
- spolehlivost predikcí maticových modelů
v dalším bězích:
- analýza dat o natalitě a mortalitě: logistická regrese, analýza přežívání
- analýza dat o růstu rostlin
- analýza dat o kvetení, produkci semen, analýza dat z polinačních pokusů:
Poissonovská regrese
- analýza dat o klíčení a přežívání semenáčků, analýza dat o přežívání semen
v půdě
- identifikace jednosměrných vztahů v datových souborech pomocí parciální
regrese a path analysis
- metapopulační dynamika: stanovení parametrů křivky šíření, metapopulační
kapacity
- metapopulační dynamika: modelování šíření druhu v krajině s explicitní strukturou
- analýza dat na úrovni populace
Pro účastníky:
Letošní kurs (2005) se bude věnovat modelování populační dynamiky maticovými
modely. Kurs příštího roku se bude věnovat analýze demografických dat (natalit,
mortalit sp.) a modelování metapopulačních dat. (Další kurs věnovaný maticím
proto bude až za dva roky!).
Kurs bude probíhat blokově, někdy na konci března (pravděpodobně v týdnu
po Velikonocích, nebo ještě o týden později).
Důležité: vezměte si s sebou svoje datové soubory! Zásady pro strukturování
datových souborů jsou zde.
Běh školního roku 2004/2005
Součástí každého praktika budou vystoupení účastníků s analýzou jednotlivých
(demonstračních nebo vlastních) datových souborů.
Populační projekční matice: princip a možnosti metody (pondělí,
TH).
- Životní cyklus rostlin: parametry popisu jedince (velikost, fertilita). Life
stages.
- Populační četnost a zastoupení jednotlivých tříd v populaci (populační vektor).
- Interpretace životního cyklu do přechodové matice. Sloupce: výchozí kategorie,
řádky: cílová kategorie. Smysl jednotlivých prvků, jaké části životního cyklu
se promítají do jakých prvků. Délka přechodového intervalu.
- Reproductive value jednotlivých kategorií. Příspěvek jedince této
kategorie k růstu populace.
- Podmínka: klasifikace jedinců podle nějakého kritéria (typicky velikost)
Pokud jsou klasifikovány podle věku, jde o klasické Leslieho matice).
- Populační projekce násobením populačního vektoru populační maticí. Dynamické
modelování populační velikosti (stav v čase t je určující pro stav v čase
t+1).
- Vlastnosti populační matice: stabilní velikostní struktura, růstová rychlost
populace. Charakteristická čísla (eigenvalues), charakteristický vektor
zprava a zleva. (Malé opakování maticové algebry). Dominantní charakterické
číslo: určuje asymptotické chování matice (trvá-li celý proces dostatečně dlouho)
- Dominantní charakteristické číslo je pro nezáporné matice reálné. Jaké matice
jsou "divné": matice s neuzavřeným cyklem (postreproduktivní individua)
- reducibilní matice; matice bez diagonálních prvků s jednou reproduktivní kategorií
(neumožňují přechody mezi kohortami: cykly) - neprimitivní matice.
- K čemu je celý přístup dobrý: (i) stabilní věková struktura, (ii) teoretická
růstová rychlost populace při stabilní věkové struktuře, (iii) analýza sensitivity/elasticity,
(iv) reproductive values.
- Omezení: (i) V klasickém pojetí neobsahují žádnou závislost na densitě, ani
na prostorové struktuře. (ii) Populace nekonečně veliké (žádná demografická
stochasticita, tj jsou nevhodné pro modelování extinkce bez dodatečných předpokladů).
Obojí lze odstranit, ale obvykle se nepoužívá.
- Stochastické matice: náhodné, periodické. Stochasticita prvků, stochasticita
matic. Většina pojmů lze zobecnit i pro stochastické matice.
Konstrukce matic z terénních dat (pondělí, ZM). Presentace
- Sestavení populační projekční matice.
- Konstrukce jednotlivých tříd. Zásady pro rozdělení do tříd v případě opakovaných
měření, nebo srovnání několika populací. Kdy musí být třídy v různých populacích
stejné a kdy je to jedno.
- Dva typy dat pro konstrukci matice: data o přežívání a přechodu mezi třídami
dospělých rostlin vs. data o reprodukci
- Data o přežívání a přechodu mezi třídami dospělých rostlin: značení jedinců
- Data o produkci semen, klíčení a přežívání semenáčků. Problém: vždy je třeba
vědět, na jaký počet semen vztáhnout nalezené semenáčky. (i) výsevové pokusy:
kontroly, problém density-dependence, (ii) přirozená regenerace: na jaký počet
semen vztáhnout, identifikace semenáčků v terénu.
- Co s klonálními rostlinami: operacionální jedinec, natalita ramet a její
propojení s natalitou semeny/semenáčky
- Konstrukce stochastických matic (variabilita v prostoru a v čase). Různé
prvky matice mohou mít různé zdroje variability. Kombinované matice (herbivorie)
Maticové modelování populační dynamiky: populační projekce,
stabilní věková struktura, růstová rychlost, její variabilita, průměrná délka
života (úterý, ZM).
- Populační projekce vycházející z aktuálního populačního vektoru
- Výpočet stabilní věkové struktury. Srovnání skutečného velikostního složení
se stabilním velikostním složením.
- Výpočet růstové rychlosti při stabilním velikostním složení, její interpretace
(density independence, žádná prostorová struktura)
- Population viability analysis
- Výpočet průměrné délky života
- výpočet reproductive value a její použití
Sensitivita a elasticita, příspěvky jednotlivých fází k růstové rychlosti,
zjišťování "kritických" fází (úterý, ZM, TH)
- Prospektivní a retrospektivní analýza. Presentace.
- Sensitivita k danému prvku: změna růstové rychlosti populace způsobená (malou)
změnou velikosti onoho prvku matice.
- Sensitivita: vliv jednotlivých prvků matice na růstovou rychlost populace.
Definice, smysl, výpočet, použití.
- Elasticita: korekce toho, že jednotlivé prvky matice mají odlišný smysl
(pravděpodobnost přechodu vs. natalita).
- Elasticita: standardizovaná sensitivita. Smysl: jaký je příspěvek jednotlivých
členů matice k růstové rychlosti - jak se změní růstová rychlost při standardní
změně hodnoty prvku. Součet elasticit všech prvků je 1. Věty o elasticitách.
- Retrospektivní analýza: Variabilita jednotlivých prvků (z terénních dat
- tj. je třeba mít víc matic), vztah variability a sensitivity, rozklad variability
lambdy - náhodné a pevné faktory. Life table response "experiments".
- Zjišťování "kritických" fází.
- Příklad studium vlivu herbivorie/granivorie na populační růst a velikost
- Klasifikace rostlin podle elasticity Growth (tj. zvětšování velikosti),
Survival (zachovávání velikosti), a Fecundity (tj. uchycování
semenáčků). Vztah k životním strategiím, stanovištím, kde rostou.
- retrospektivní a prospektivní analýza: vztah sensitivit k možné (v terénu
identifikované) variabilitě v prvku.
- analýza cyklů (loop analysis). Presentace.
Statistické testování, spolehlivost predikcí maticových
modelů (středa, TH)
- Maticový přístup je (dynamické) modelování, čili otázka po statistice je
sekundární.
- Statistická otázka při odhadu parametrů a její důsledky pro predikce modelu.
- Střední chyba odhadu parametru.
- Princip odhadu parametrů/testového kritéria: analyticky (předpoklad výběru
ze známého rozdělení), numericky.
- Princip bootstrap technik. Konstrukce velkého počtu opakování pomocí
resampling jednoho zkoumaného vzorku. Informace o výchozím rozložení
sledované náhodné proměnné. Bootstrap je typ Monte Carlo (randomizační) techniky,
která je obzvlášť vhodná pro zjištění nejistoty při odhadu parametrů.
- Odhad střední chyby pomocí bootstrap, počet výběrů ke spolehlivému
odhadu (200 obvykle stačí)
- odhad konfidenčního intervalu, parametrické, přímé pomocí bootstrapu,
počet výběrů ke spolehlivému odhadu (2000 pro 0.95)
- Použití bootstrap při modelování maticovými technikami: různé prvky
obvykle vychází z různých výchozích datových souborů (klíčení vs. přežívání/růst/kvetení).
Bootstrap různých výchozích datových souborů nezávisle. Co s prvky,
kde nelze bootstrap provést.
- Použití bootstrapu v interpretaci maticových modelů: každá predikce
(růstová rychlost, stabilní velikostní složení, reproductive values, elasticita)
lze doprovodit údajem o spolehlivosti jejího odhadu: statistické obálky
- Srovnání skutečného velikostního složení se stabilním velikostním složením
- Zkoumání, zda konfidenční interval odhadu obsahuje nějakou teoreticky zajímavou
hodnotu (např. lambda = 1).
- Použití bootstrap technik srovnání dvou souborů: analogie t-testu.
- Permutační testy (jiný typ Monte Carlo techniky) pro srovnání mezi maticemi/populacemi.
Volba testového kritéria, typ randomisace.
- Výhoda randomizačních testů: žádné předpoklady o výchozím rozdělení, snadná
a flexibilní implementace. Výpočetně již nejsou náročné.
Materiály k praktiku:
Data (Všechna data zde vystavená jsou určena pouze k výukovým účelům a jejich
jakékoliv jiné využití je vázáno na souhlas autora.)
- Data pro manuální konstrukci přechodové matice pro Linum tenuifolium
jsou zde.
- Data pro manuální konstrukci přechodové matice pro Cirsium acaule
jsou zde.
- Dvě jednoduché matice pro druh Succisa pratensis jsou zde. Matice
1, matice 2.
- Jedna matice pro Linum tenuifolium je zde.
- Soubor matic pro druh Succisa pratensis pro stochastické modelování
je zde.
- Soubor matic pro druh Succisa pratensis pro retrospektivní analýzu
je zde.
- Přechodové matice pro větší počet druhů z literatury jsou zde.
- Data pro výpočet průměrné délky život jsou
zde (pro skript Cochran).
- Data o růstu a kvetení odnoží Festuca rubra jsou zde.
- Data o růstu, kvetení a mortalitě Tanacetum vulgare jsou zde.
- Data o klíčení výsevových pokusů (soubor více druhů) jsou zde.
- Data pro přežívání odnoží Brachypodium pinnatum jsou zde.
- Data o délkách oddenků u Calamagrostis epigeios (jiné použití survival
analysis) jsou zde.
Skripty pro Matlab (ve většině případů díla Zuzany Münzbergové)
- Jednoduchý skript pro populační projekci v čase je zde.
- Jednoduchý skript pro výpočet populační růstové rychlosti, stabilního velikostního
složení, reproduktivních hodnot, sensitivit a elasticit je zde.
- Skript pro výpočet populační růstové rychlosti, stabilního velikostního
složení a sensitivit a elasticit pro stochastické matice je zde.
- Skript pro zkoumání typu závislosti růstové rychlosti na prvku přechodové
matice je zde.
- Skript pro výpočet průměrné délky života z přechodové matice podle Cochran
a Ellner. Tady je k němu (a k datům uvedeným shora) popis.
- Skript pro retrospektivní analýzu (rozklad variance) pro větší množství
empirických matic (life table response experiment) je zde.
- Kompletní výpočet a analýza populačních přechodových matic včetně konstrukce
konfidenčních intervalů (pomocí bootstrapu)
spolu s vysvětlivkami a popisem je zde.
Běh školního roku 2005/2006
Zobecnělé lineární modely v populační biologii: princip
a možnosti.
- Statistický model: způsob jak representovat hodnoty závislé proměnné nezávislými
proměnnými (prediktory) a náhodnou variabilitou.
- Terminologie: Nezávislá proměnná: prediktor, faktor, kovariáta (tak se jí
říká obvykle v případě, že mě nezajímá a chci její vliv odfiltrovat pomocí parciální
analýzy). Závislá proměnná: response variable
- Obecný lineární model (general linear model, GLM): očekávaná hodnota
y je lineární funkcí prediktorů. Ey = ax+b. Rozložení hodnot y kolem očekávané
hodnoty je normální, y = ax+b + eps, kde eps je normálně rozložená
náhodná proměnná se střední hodnotou 0.
- ANOVA, lineární regrese jednoduchá i mnohonásobná, ANCOVA jsou speciální
případy GLM. [V ANOVA/ANCOVA je nezávislá proměnná kategoriální, ale to nevadí.]
- Příklady závislých proměnných s jiným než normálním rozdělením: binomické
(např. počet rostlin, které vykvetly, pokud znám celkový počet rostlin), Poissonovo
(např. počet potomků na jedince), gamma (mnoho sešikmených biologických rozdělení,
např. velikost), exponenciální (doba života - modely přežívání).
- Jak v různých teoretických rozděleních závisí rozptyl na očekávané hodnotě
y: binomické - unimodální, Poissonovo - lineární, Gamma - kvadratická (Gaussovo/normální
- rozptyl na očekávané hodnotě y nezávisí)
- Zobecněné lineární modely (generalized linear models, GLIM): dva rozdíly
proti lineárním modelům:
- Zavedení transformační funkce (link function): g(Ey)
= ax+b. Ta umožní převést rozsah hodnot lineárního prediktoru (všechna reálná
čísla) na rozsah povolených hodnot závislé proměnné (viz tabulka).
- Rozložení hodnot proměnné kolem očekávané hodnoty pro danou kombinaci nezávislých
proměnných není normální/Gaussovo, ale takové, aby umožnilo postihnout
právě závislost rozptylu na očekávané hodnotě y (binomické, Poissonovo, Gamma).
- Často používané typy zobecněných lineárních modelů:
Model |
Rozdělení |
Závislost rozptylu na Ey |
Povolené hodnoty Ey |
Obvyklá link function |
Typická data |
Logistická regrese |
binomické |
unimodální, s maximem pro Ey = 0.5 |
<0,1> |
logit
|
frekvence - podíl "úspěchů" ze známého počtu pokusů
(např. počet rostlin v pokusu, které vykvetly) |
Poissonovská regrese |
Poissonovo |
lineárně rostoucí |
<0,+inf), celočíselné |
log |
počty, včetně nulových hodnot (např. počet potomků na jedince) |
Gamma regrese |
Gamma |
kvadraticky rostoucí |
(0,+inf) |
1/x |
spojitá sešikmená data, bez nulových hodnot (např. biomasy,
velikostní rozměry, zejména pokud rozsah hodnot je velký) |
Obecný lineární model |
normální (Gaussovo) |
konstantní |
(-inf,+inf) |
identita |
spojitá symetricky rozložená data (např. biomasy
nebo velikostní rozměry, pokud rozsah hodnot je malý) |
- NB. Obecný lineární model (ANOVA, lineární regrese, ANCOVA) je speciální
případ GLIMu.
- NB. Hodnoty x: residuály a náhodná variabilita mají smysl jen pro proměnnou
y (závislou). Proto rozložení má cenu zkoumat jen u závislé proměnné.
- Požadavek na typ rozdělení se týká jen závislé proměnné (je to rozložení
jejích skutečných hodnot kolem očekávané hodnoty). Je proto třeba zkoumat rozdělení
hodnot závislé proměnné pro danou kombinaci hodnot nezávislých proměnných
(nikoli rozdělení bez ohledu na hodnoty nezávislých proměnných). Zkoumání rozdělení
hodnot y bez dalšího proto není vždy dost informativní, je lépe zkoumat residuály
(ale ty už závisí na použitém modelu...).
- Požadavek na typ rozdělení neznamená, že závislá proměná musí mít
ono rozdělení; stačí, aby jím byla aproximovatelná.
- Jak zjistit rozdělení výchozích dat I: Rovněž je důležitá úvaha o generujícím
procesu, přítomnost nulových hodnot, to, zda mají smysl i neceločíselné hodnoty,
reakce na transformaci (log, sqrt) - graficky.
- Jak zjistit rozdělení výchozích dat II: Grafické postupy. Histogramy, Q-Q
plot: kvantily mého rozložení proti kvantilům standardního normálního rozložení.
- Jak zjistit rozdělení výchozích dat III: Testy shody s teoretickým rozdělením
(chi2 nebo jiný test dobré shody, Kolmogorov-Smirnov). Problém: je-li
případů málo, test není signifikantní ani v případě velké odchylky, je-li případů
mnoho, je signifikantní, i když odchylka je tak malá, že neovlivní statistickou
inferenci.
- Srovnání očekávaných a pozorovaných hodnot: pojem deviance. Chi2
rozdělení, počet stupňů volnosti.
- Odhad parametrů v zobecnělém lineárním modelu: zobecnění postupu nejmenších
čtverců, maximum likelihood. Numerické postupy.
- Testování jednotlivých členů modelu: test signifikance členu modelu je rozdíl
deviancí mezi dvěma modely lišícími se právě tímto členem. Test členu proto
v obecném případě závisí na struktuře modelu (tj. na tom, jaké další členy jsou
přítomny). [Poznámka. Nezávisí na něm právě v případě, kdy všechny nezávislé
proměnné jsou orthogonální, tj, zcela na sobě nezávislé.]
- Problém identifikace nejvhodnějšího modelu: postupné techniky.
- Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model
vysvětlovat data. Příklad regrese s jedním a dvěma prediktory. Overparameterised
model. AIC (Akaike's information criterion): znevýhodnit modely,
které potřebují hodně parametrů.
- Hierarchické modely, interakce v modelech.
- Nevýhoda GLIM: nejsou příliš vhodné pro data s hierarchií variancí (repeated
measurements, split-plot, nested data).
Zobecnělé lineární modely v populační biologii: příklady
typických dat a jejich analýza. Presentace
- Analýza dat o natalitě: počet potomků na matku (Poissonovo rozdělení)
- Analýza dat o mortalitě: binomické/Bernouilliho rozdělení, nebo analýza přežívání
(závisí na typu dat i na otázce)
- Analýza dat o produkci semen a dat z polinačních pokusů: Poissonovo nebo
binomické rozdělení
- Analýza dat o klíčení a přežívání semenáčků
- Analýza přežívání: příklady dat, rozdělení závislé proměnné, censored
data.
- Příklady: data o přežívání semen v půdě, data o klíčení semen v klimaboxu,
data o délkách oddenků, polinační data
- Analýza přežívání: odhady parametrů, srovnání parametrů
- Regresní modely v analýze přežívání: Coxův model (nepředpokládá specifické
rozdělení závislé proměnné), parametrické modely
- Zobecnělé lineární modely a hierarchická data (analogie split-plot design):
ošetření počtu stupňů volnosti
Analýza dat na úrovni populace.
Metapopulační data: incidence function models
Metapopulační data: dynamické modely
Identifikace jednosměrných vztahů v datových souborech pomocí
parciální regrese a path analysis
- Problém mnohonásobného testování v datech o korelacích
- Problém: korelace neznamená příčinnost, ale někde směr ovlivnění je jasný
z nezávislých informací.
- Otázka obvykle po "očištěné" závislosti. Nejjednodušší případ:
parciální regrese v případu tří proměnných.
- Grafické znázornění typů závislostí: souřadné proměnné, nesouřadné proměnné,
výchozí nezávislé proměnné, sledované závislé proměnné, sledované závislosti.
- Regresní koeficient: nestandardizovaný a standardizovaný. Smysl standardizovaného
regresního koeficientu a jeho použití v path analysis.
- Testy v path analysis. Kritika modelů.
Materiály k praktiku:
Data (Všechna data zde vystavená jsou určena pouze k výukovým účelům a jejich
jakékoliv jiné využití je vázáno na souhlas autora.)
- Data o růstu a kvetení odnoží Festuca rubra jsou zde.
- Data o růstu, kvetení a mortalitě Tanacetum vulgare jsou zde.
- Data o klíčení výsevových pokusů (soubor více druhů) jsou zde.
- Data pro přežívání odnoží Brachypodium pinnatum jsou zde.
- Data o délkách oddenků u Calamagrostis epigeios (jiné použití survival
analysis) jsou zde.
Základní literatura
- Caswell H.: Matrix Population Models: Construction, Analysis, and Interpretation.
Základní příručka pro analýzu maticových populačních modelů.
- Gibson, D. J. 2002. Methods in comparative plant population ecology. Oxford
University Press, Oxford.
- Scheiner S.M. & Gurevitch J. (1993): Design and analysis of ecological
experiments. Chapman & Hall, New York.
- Herben T. a Münzbergová Z.: Zpracování
geobotanických dat v příkladech - Část II. Demografická data
Zásady pro strukturování datových souborů
Vhodné jsou v zasadě jakékoliv soubory, které obsahují informaci o jednotlivých
rostlinách (rametách, semenáčcích, atd.), zejména tehdy, pokud ta infomace je
sbírána opakovaně v čase (jak rostly, umíraly, kvetly, rodily se atd), ale to
není podmínkou. (Je samozřejmě výhodné mít s sebou data popisující co největší
části životního cyklu Vaší oblíbené rostliny.) Při přípravě dat dbejte podle
možnosti těchto zásad:
- Je vhodné, aby data byla ve formátu xls (jeden typ dat vždy na jednom listu
nebo v samostatném souboru)
- Každý jedinec nechť má svou vlastní řádku
- Sloupce nechť popisují jednotlivé parametry, jednak nezávislé (ošetření,
informace o stanovišti atd.) a závislé (velikosti, počet potomků v různých
dobách atd.)
- Každý sloupec nechť má nahoře jednu řádku se jménem proměnné. To by nemělo
obsahovat speciální znaky (%, $, @, -, (), mezeru, atd.) ani znaky s diakritikou
a jeho délka by neměla přesáhnout 8 písmen.
- Nevynechávejte řádky, k odlišení jednotlivých podskupin dat použijte kódovací
proměnné
- Je zbytečné data složitě formátovat (barvy, ohraničení, velikost buněk),
při exportu se tato informace dá použít jen obtížně
Domovská
stránka