GWAS
Genetische varianten associëren met een fenotypische eigenschap Supervised machine learning task
INHOUD
- Humane/microbiële GWAS
- Tools
- Random Forest in R
- Scoary
- Scikit learn
- GWAS van Aspergillus
- Pyseer
HUMANE GWAS
Eerste studie gepubliceerd in 2002
1133 patiënten met een hartinfarct
2 controle groepen van in totaal 1878 personen
92,788 gene-based SNP markers
Linkage disequilibrium mapping (association mapping)
Varianten van LTA risicofactor voor hartinfarct
SNP –> wijziging transcriptie niveau
BACTERIËLE GWAS
HOE TOOL(S) KIEZEN?
- Afhankelijk van de eigenschap die je wil testen:
- Binair (case = 1, control = 0)
- Numeriek (score ziekteernst; niet ziek = 0 t/m erg ziek = 10)
- Categorie (categorie ziekteernst; ‘mild’, ‘moderate’, ‘severe’)
- Binair (case = 1, control = 0)
- Afhankelijk van genetische variant die je wil gebruiken:
- gen af/aanwezigheid
- INDELs
- k-mers
- SNPs
SCOARY
Gebaseerd op gen af- en aawezigheid van ‘losse’ genen
Houdt rekening met populatiestructuur
Creëert een lijst met genen gesorteerd op associatiesterkte
Globale workflow:
PROKKA -> annotatie
ROARY -> gen af- en aanwezigheid
SCOARY
##RANDOM FOREST IN R
Gebaseerd op gen af- en aawezigheid van meerdere genen
Makkelijk te implementeren
randomForest en valSerRF libraries
Voorbeeld resultaat:
Expected error rate without correlation:
- 66.6%
- 50%
- 66.6%
##SCIKIT-LEARN MACHINE LEARNING IN PYTHON
Predictive data analysis tools
Gebouwd op NumPy, SciPy, and matplotlib
Open source
Veel voorbeelden, redelijk makkelijk te implementeren