Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques
Analyses biostatistiques en recherche clinique, Conseils méthodologiques

Expertises biostatistiques & datamining


      Conseils méthodologiques & formation

  

D M D A

Datamining Discovery Algorithms >> Flexibilité >> Proximité >> Compétences

Cet espace est dédié aux étudiants du Master II ECD (Extraction des Connaissances à partir des Données) de l'Université Lyon2 (campus de Bron), pour lequel  j'interviens dans le cadre du module statistiques inférentielles.


Vous trouverez sur cette page tous les jeux de données utilisés en séance ainsi que quelques références bibliographiques très utiles en Statistique et Datamining.


 

Les jeux de données étudiés proviennent de l'ouvrage de référence de Pierre Dagnelie: "Statistique théorique et appliquée" (données téléchargeables ci-dessous avec l'autorisation de l'auteur).







  

Maîtriser les techniques statistiques dans des situations réelles est autant affaire de connaissances théoriques que d'expériences personnelles accumulées au fil des années. Certains auteurs disent d'ailleurs au sujet de la modélisation statistique qu'il s'agit plus d'un art que d'un enchaînement de techniques plus ou moins élaborées. Quoi qu'il en soit, je vous conseille vivement l'acquisition d'une bibliographie technique solide qui vous permettra d'appuyer vos démonstrations et résultats. Je vous ai compilé ci--dessous ce que je considére être le minimum de lecture scientifique et technique qui vous permettra de gagner en compétences.

    "Statistique Théorique et appliquée" - tome 2 - 3 eme édition - Pierre Dagnelie - 736 pages


Sans nul doute l'ouvrage de référence pour la description et le traitement des modèles linéaires : plus de 400 pages sont développées rien que sur l'ANOVA! Le texte est clair, de nombreux exemples sont illustrés chapitre par chapitre. Une présentation de l'ANCOVA est aussi disponible avec présentation du modèle mathématique et deux exemples. On appréciera aussi les premiers chapitres du livre au sujet du choix d'une méthodologie statistique ainsi que sur l'épineuse question du nettoyage des données.

    "Datamining et statistique décisionnelle" - Edition 2010 - Stéphane Tufféry - 705 pages


Un ouvrage extrèmement bien écrit, didactique, à conseiller pour tous ceux qui souhaitent une vue d'ensemble des techniques de statistique et de datamining avec juste ce qu'il faut de formalisation mathématique. L'auteur a écrit un imposant chapitre sur la régression linéaire avec un développement sur les méthodes de régressions robustes. En fin d'ouvrage, le développement d'un modèle de score (credit scoring) est particulièrement bien décrit avec la préparation des variables et l'ajustement du modèle à l'aide du critère AUC. A noter aussi, une présentation du panorama logiciel disponible pour les traitements statistiques ou le datamining.

    "Etude de cas en statistique décisionnelle" - Edition 2009 - Stéphane Tufféry - 366 pages


Voici l'ouvrage complémentaire de l'ouvrage ci-dessus. A nouveau une réussite, avec le developpement complet d'une analyse de datamining (un clustering suivi d'un modèle de score). Le lecteur est invité à suivre pas à pas et en détail les différentes étapes qui constituent une fouille de données. Ce type de développement est unique dans la littérature française. En prime, le code SAS est donné tout au long de l'ouvrage pour refaire les calculs depuis son propre éditeur de script.

    "Statistique - Méthodes pour décrire expliquer et prévoir" - Edition 2006 - Michel Tenenhaus - 667 pages


Très complet et didactique. A noter, un développement très intéressant sur la régression logistique polytomique ordinale. Comme toujours avec cet auteur, des clefs méthodologiques sont données au fil des pages, à noter et à utiliser sans reserves!

    "La régression PLS, théorie et pratique" - Edition 1998 - Michel Tenenhaus - 254 pages


Ouvrage quasi mono-technique sur les techniques de regressions non paramétriques (PLS1 et PLS2). Permettant de régresser sur données corrélées avec données manquantes, les regressions PLS sont des modèles "passe-partout" dont on appréciera l'application aux données qualitatives (Scoring par exemple).

    "Handbook of parametric and non parametric statistical procedures - Fifth edition - D.J.Sheskin - 1886 pages!!!


Voila l'ouvrage de référence pour quiconque souhaite mettre en pratique les tests statistiques. Cet ouvrage est tout simplement incroyable: tous les tests statistiques y sont repertoriés, détaillés, illustrés d'exemples, les sources sont systématiquement recoupées, un ouvrage d'une telle qualité est rarissime, avec presque 200 tests statistiques expliqués.

    "Approche pragmatique de la classification" - Edition 2005 - Jean-Pierre Nakache & Josiane Confais - 256 pages


Pour celles et ceux qui sont confrontés à des problemes de clustering, cet ouvrage fait l'inventaire de la plupart des techniques avec le contenu mathématique minimum. K-means, K-modes, K-prototypes, K-médoids, CAH, algorithme EM, DBSCAN, ne sont que quelques exemples présentés dans l'ouvrage.

    "Statistique explicative appliquée" - Edition 2003 - Nakache / Confais - 278 pages


Cet ouvrage présente avec précision les trois grandes techniques de scoring (Analyse discriminante, Modèle logistique et arbres de décision). Il constituera un compagnon efficace si vous souhaitez appronfondir l'étude de ces modèles de score.

    "SAS Introduction pratique: du data management au reporting" - 2 eme édition - Sébastien Ringuedé - 466 pages


Il existe de nombreux cours sur le web concernant le logiciel SAS et présentant les bases de programmation. Je conseille néanmoins de ne pas hésiter à faire l'acquisition d'un ouvrage sur le sujet pour le coté structurant. En particulier, cet ouvrage est très complet (jusqu'au langage macro). A en juger au nombre d'offres d'emploi demandant la maitrise du langage de programmation SAS, cet achat vous sera utile.

    "Modèles statistiques pour données qualitatives" - Edition 2005 - Droesbeke / Lejeune / Saporta - 288 pages


Ouvrage spécialisé dans le traitement des données qualitatives nécessitant une culture statistique déja assimilée. On notera un développement important sur les modèles loglinéaires ainsi que sur la régression logistique PLS.

    "Statistique exploratoire multidimentionnelle" - Edition 2006 - Ludovic Lebart & Marie Piron & Alain Morineau - 464 pages


Encore un ouvrage de référence: le seul à ma connaissance qui présente les techniques d'inférence en analyse factorielle et en classification. Dans l'ensemble, le contenu est clair, très compréhensible et passionnant. La lecture de cet ouvrage vous apportera une prise de recul importante sur les techniques statistiques multidimentionnelles et vous aidera efficacement pour le dépouillement de vos jeux de données.

    "Probabilité, Analyse des données et Statistiques" - Edition 2006 - Gilbert Saporta - 622 pages


Un "annuaire" de la statistique et de l'analyse des données. Un ouvrage à posséder dans sa bibliographie car il présente un contenu presque exhaustif sur les techniques multidimentionnelles. Le texte est assez sobre dans l'ensemble mais le point fort de l'ouvrage est à mes yeux de présenter les formules dans le détail permettant de reproduire les sorties logiciels par des calculs "à la main" (les développeurs informatiques y trouveront leur bonheur). ** Un ouvrage déconseillé aux débutants **

    "Applied logistic regression" - Edition 2000 - David Hosmer & Stanley Lemeshow - 375 pages


Cet ouvrage est presque indispensable pour celles et ceux qui souhaitent utiliser la regression logistique. Il présente les bases mathématiques necessaires a la compréhension de ce modèle puis developpe en détail les critères d'ajustement et de selection de variables sans oublier les developpements aux cas polytomique et ordinal. Les trucs et astuces donnés par les auteurs au long des chapitres beneficieront au plus grand nombre.

    "Statistical power analysis" - Seconde édition - Jacob Cohen - 567 pages


Un ouvrage entièrement dédié aux calculs de puissance statistique, réservé aux experts qui sont confrontés régulièrement à ce type de calcul. Bien écrit, de nombreux exemples et beaucoup de tables! Un lien à noter avec la librairie pwr du logiciel R qui implémente les fonctions de calcul de puissance.

    "Probabilités et statistique de A à Z" - Edition 2004 - Francois Dress - 199 pages


Extremement bien écrit, ce dictionnaire fournit très rapidement l'information technique dont on a besoin. Très appréciable également, la traduction en Anglais de tous les termes techniques.

    "Le choix bayésien" - Edition 2006 - Christian P.Robert - 638 pages


Pour les passionnés de méthodes bayésiennes cet ouvrage est une véritable référence. Cité par de nombreux autres sources sur le sujet, ce livre est réservé aux personnes familières avec les démonstrations mathématiques de niveau parfois très avancé. Ceci dit, l'essentiel de l'ouvrage est assez abordable, bien écrit et passionnant.

J'ai particulièrement apprécié le développement sur les méthodes MCMC (Markov Chain Monte Carlo).

    "Le raisonnement bayésien" - Edition 2007 - Parent / Bernier - 357 pages


Toujours sur le thème bayésien, cet ouvrage est intéressant car il présente une approche différente du sujet, moins théorique mais plus pratique avec les premiers chapitres dédiés à la construction d'un modèle brique par brique.

    "Réseaux Bayésiens" - 3 eme édition - Naim / Wuillemin / Leray / Pourret / Becker - 423 pages


Je termine cette petite série bayésienne par cet ouvrage de référence très bien construit et très facile d'approche. J'ai apprécié les nombreux cas pratiques développés notamment le cas de scoring commercial en ligne et le développement du réseau bayésien "Prostanet" pour la détection du cancer de la prostate. Un complément indispensable du cours de Master sur les réseaux bayésiens.

 Bien d'autres ouvrages ou parutions, dont je vous recommande la lecture approfondie:


    "Bagged clustering" - 1999 - Friedrich Leisch

    "Pratique de l’analyse statistique des données" – Richard Bertrand et Claude Valiquette

    "Clustering Validity Checking Methods" - Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis

    "Clustering of the Self-Organizing Map" - 1999 - Juha Vesanto and Esa Alhoniemi

    "A clustering method based on boosting" - 2003 - D. Frossyniotis, A. Likas b, A. Stafylopatis

    "Introduction to Data Mining" - Vipin Kumar, University of Minnesota

    "Discovering Knowledge in data - An introduction to Data Mining" - Daniel Larose - Central Connecticut State University

    "From Data Mining to Knowledge Discovery in Databases" - 1996 - Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth

    "Linear Discriminant Dimensionality Reduction" - Quanquan Gu, Zhenhui Li, and Jiawei Han - University of Illinois

    "The boosting : A new idea of building models" - Dong-Sheng Cao, Qing-Song Xu, Yi-Zeng Liang, Liang-Xiao Zhang a, Hong-Dong Li - China

Programme des TD de statistiques inférentielles

Références bibliographiques : pour approfondir les notions

poussins.txt

moulins.txt

veaux.txt

prairies.txt

potassium.txt

© Mai 2014 - Copyrights dmda.fr