GWAS

Genetische varianten associëren met een fenotypische eigenschap Supervised machine learning task

INHOUD

  • Humane/microbiële GWAS
  • Tools
  • Random Forest in R
  • Scoary
  • Scikit learn
  • GWAS van Aspergillus
  • Pyseer

HUMANE GWAS

  • Eerste studie gepubliceerd in 2002

  • 1133 patiënten met een hartinfarct

  • 2 controle groepen van in totaal 1878 personen

  • 92,788 gene-based SNP markers

  • Linkage disequilibrium mapping (association mapping)

  • Varianten van LTA risicofactor voor hartinfarct

  • SNP –> wijziging transcriptie niveau

BACTERIËLE GWAS

HOE TOOL(S) KIEZEN?

  • Afhankelijk van de eigenschap die je wil testen:
    • Binair (case = 1, control = 0)
    • Numeriek (score ziekteernst; niet ziek = 0 t/m erg ziek = 10)
    • Categorie (categorie ziekteernst; ‘mild’, ‘moderate’, ‘severe’)
  • Afhankelijk van genetische variant die je wil gebruiken:
    • gen af/aanwezigheid
    • INDELs
    • k-mers
    • SNPs

SCOARY

  • Gebaseerd op gen af- en aawezigheid van ‘losse’ genen

  • Houdt rekening met populatiestructuur

  • Creëert een lijst met genen gesorteerd op associatiesterkte

  • Globale workflow:

  • PROKKA -> annotatie

  • ROARY -> gen af- en aanwezigheid

  • SCOARY

##RANDOM FOREST IN R

  • Gebaseerd op gen af- en aawezigheid van meerdere genen

  • Makkelijk te implementeren

  • randomForest en valSerRF libraries

  • Voorbeeld resultaat:

  • Expected error rate without correlation:

    • 66.6%
    • 50%

##SCIKIT-LEARN MACHINE LEARNING IN PYTHON

Download gwas_bacteria.pdf