INF7210 - Nouvelles perspectives en bases de données (3 cr.) Hiver 2013

Groupe 10

Professeur : Robert Godin

Bureau : PK-4520, téléphone: 514-987-3000 poste 3088, télécopieur: 514-987-8477

Courriel : godin.robert@uqam.ca

URL : http://www.labunix.uqam.ca/~godin

Horaire : Lundi de 17h30 à 20h30

Lieu : à confirmer

 

DESCRIPTION (du cours selon l'annuaire)

Concepts avancés des bases de données. Gestion de transactions. Contrôle et optimisation des performances. Bases de données parallèles et réparties. Développement d’applications de bases de données Web et multitiers. Bases de données objet et objet-relationnel. Gestion de données semi-structurées et multimédia. Entrepôts de données et analyse de données (OLAP). Fouille de données (data mining). Bases de données déductives. Repérage de l’information.

 

Contenu du cours

Ce cours est destiné aux étudiants ayant suivi au préalable un ou des cours de bases de données au niveau baccalauréat et/ou qui ont une expérience pertinente en conception et utilisation de bases de données. Les sujets suivants seront abordés :

 

·         Gestion de transaction

·         Optimisation de requêtes

·         Développement d’applications de bases de données Web et multitiers

·         Bases de données parallèles et réparties

·         Bases de données orientées objet (BDOO)

·         Transformation objet-relationnel

·         Relationnel-objet

·         Entrepôts de données et analyse OLAP

·         Fouille de données (data mining)

·         Organisations multidimentionnelles

·         Données semi-structurées (XML)

·         Repérage de l’information

·         Bases de données déductives

 


Évaluation

 

§  Résumé d’article (travail individuel) : 10%

R. Agrawal, et al., 2008. The Claremont report on database research. SIGMOD Rec., vol. 37, no. 3, pp. 9-19. DOI = http://doi.acm.org/10.1145/1462571.1462573.

 

NB Le résumé doit avoir une taille d’environ trois pages. Les normes de présentation de travaux (ex. largeur des marges (2,5 cm), double interligne (double), taille des caractères (Times 12)) doivent être respectées.

 

Le site suivant propose des gabarits Word et Latex qui peuvent servir pour la présentation des travaux :

http://www.sciences.uqam.ca/etudiants/reglements-et-formulaires.html

 

 

§  Présentation orale d’un article de recherche (travail individuel) : 20%

Choisir un article de la conférence SIGMOD 2012 excluant les sessions de démonstrations et de tutoriels, ou un autre article récent et en faire une présentation sommaire (10 minutes).

Envoyer au professeur par courriel la référence de l’article choisi avant le 21 janvier, pour la faire approuver.

Décrire sommairement

-       la problématique

-       la contribution

-       l’originalité de la contribution par rapport à la littérature

-       la méthodologie employée

 

§  Projet de session (en équipe)

 

   Ébauche : résumé, bibliographie et plan de travail                                   10%

   Présentation orale                                                                                      20%

   Rapport final                                                                                              40%

 

Des sujets sont proposés dans la liste ci-bas. Vous pouvez proposer un autre sujet mais vous devez le faire approuver en envoyant un courriel au professeur à cet effet.

 

NB La présentation orale et le rapport doivent faire ressortir clairement les liens avec la matière vue au cours mais sans la répéter. Un exposé scientifique doit faire ressortir des faits basés sur des sources crédibles et non pas des opinions sans fondement. Il est important d’identifier clairement les sources d’information par des références bibliographiques précises et complètes. Un outil de gestion bibliographique est très utile à cet effet (vous pouvez vous procurer ces outils gratuitement à la bibliothèque : http://www.bibliotheques.uqam.ca/endnote).

 

Les dates de remise sont précisées dans le calendrier proposé.

Tout retard dans la remise des travaux entraîne une pénalité de 5% par jour sur la note attribuée au travail. Un retard de plus de quatre jours ouvrables ne sera pas accepté.

La qualité du français sera considérée dans la correction des travaux (pour un maximum de 10%).

 

 

 

 

PLAGIAT
Règlement no 18 sur les infractions de nature académique

 

Tout acte de plagiat, fraude, copiage, tricherie ou falsification de document commis par une étudiante, un étudiant, de même que toute participation à ces actes ou tentative de  les commettre, à l’occasion d’un examen ou d’un travail faisant l’objet d’une évaluation ou dans toute autre circonstance, constituent une infraction au sens de ce règlement

 

 

La liste non limitative des infractions est définie comme suit :

·       la substitution de personnes ;

·       l’utilisation totale ou partielle du texte d’autrui en le faisant passer pour sien ou sans indication de référence ; 

·       la transmission d’un travail pour fins d’évaluation alors qu’il constitue essentiellement un travail qui a déjà été transmis pour fins d’évaluation académique à l’Université ou dans une autre institution d’enseignement, sauf avec l’accord préalable de l’enseignante, l’enseignant ;

·       l’obtention par vol, manœuvre ou corruption de questions ou de réponses d’examen ou de tout autre document ou matériel non autorisés, ou encore d’une évaluation non méritée ;

·       la possession ou l’utilisation, avant ou pendant un examen, de tout document non autorisé ;

·       l’utilisation pendant un examen de la copie d’examen d’une autre personne ;

·       l’obtention de toute aide non autorisée, qu’elle soit collective ou individuelle ;

·       la falsification d’un document, notamment d’un document transmis par l’Université ou d’un document de l’Université transmis ou non à une tierce personne, quelles que soient les circonstances ;

·       la falsification de données de recherche dans un travail, notamment une thèse,  un mémoire, un mémoire-création, un rapport de stage ou un rapport de recherche.

 

Les sanctions reliées à ces infractions sont précisées à l’article 3 du Règlement no 18

Pour plus d’information sur les infractions académiques et comment les prévenir : www.integrite.uqam.ca


Sujets pour le projet de session

·   Comparaison de SGBD par rapport à une facette particulière de leur fonctionnalité e.g. :

-          entreposage de données (services ETL) et services OLAP

-          fouille de données (data mining)

-          gestion de transactions (contrôle de concurrence, mécanismes de reprise, gestion de flux de traitement (workflow))

-          optimisation des requêtes

-          traitement de données multimédia (texte, image, son, vidéo, données spatiales, temporelles)

-          intégration de XML

-          indexation de textes

-          compression des données

-          sécurité

-          support d'architectures parallèles/réparties

-          outils d’administration

 

·   Survol de la littérature récente d'un thème (synthèse d'une dizaine d'articles). Exemples de thèmes :

-          entrepôts de données

§  intégration de données hétérogènes

§  nettoyage de données

§  conception

§  normes

-          OLAP

§  organisation physique, optimisation

·         méthodes de calcul de cubes OLAP

·         choix des vues matérialisées et des index

·         compression du cube

·         optimisation de requêtes iceberg

·         représentation verticale des données (par colonne)

§  visualisation

§  langages et normes

-          fouille de données

§  découverte de patrons fréquents

§  découverte de représentations condensées de patrons fréquents

§  découverte de patrons fréquents approximatifs

§  découverte d’associations

§  regroupement (clustering)

§  bi-clustering (co-clustering)

§  classification (supervisée)

§  fouille de séquences

§  fouille de patrons complexes fréquents (arbres, graphes, …)

§  fouille de patrons dans un flux de données

§  prédiction numérique

§  langages et normes

§  fouille de textes

§  fouille d’images

§  Web log mining

§  analyse de réseaux sociaux

-          repérage multimédia

-          XML et BD

§  indexation, optimisation

§  langages

-          optimisation de requêtes parallèles/réparties

-          bancs d’essais pour l’évaluation des performances

-          BD temporelles, spatiales, spatio-temporelles

-          BD déductives

-          systèmes de gestion de flux de données (Data Stream Management Systems)

-          tables de hachage distribuées dans les systèmes pair à pair

-          traitement de l’imprécision dans les bases de données

-          sécurité des données

-          bases de données dans le nuage

-          bases de données NoSQL à haut débit

·   Expérimenter une nouvelle technologie BD

-          Implémenter une application en utilisant une nouvelle technologie BD (EJB3/JPA, outil ETL, outil OLAP, data mining, XML/BD, base de données dans le nuage, base de données NoSQL, outils d’orchestration de processus, gestion de règles d’affaires, …)

 

Références

·   Page Web du cours à consulter régulièrement pour les informations à jour: http://www.labunix.uqam.ca/~godin/INF7210

 

·   Monographies

Elmasri, R. & Navathe, S. B. (2011). Fundamentals of Database Systems (1172 p.). Boston: Pearson/Addison Wesley.

Garcia-Molina, H., Ullman, J. D. & Widom, J. (2009). Database systems : the Complete Book (1203 p.). Upper Saddle River, N.J.: Pearson Prentice Hall.

Godin, R. (2006). Systèmes de gestion de bases de données par l’exemple (1195 p.). Longueuil, Canada: Loze-Dion.

Silberschatz, A., Korth, H. F. & Sudarshan, S. (2011). Database System Concepts (1349 p.). New York: McGraw-Hill.

 

·   Revues

ACM Computing surveys

ACM Transactions on Database Systems (TODS)

ACM Transactions on Information Systems (TIS)

ACM Transactions on Knowledge Discovery from Data (TKDD)

ACM SIGMOD Record

IEEE Database Engineering Bulletin, IEEE Computer

IEEE Transactions on Knowledge and Data Engineering

 

·   Actes de conférences

ACM International Conference on Management of Data (SIGMOD)

ACM Symposium on Principles of Database Systems (PODS)

ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD)

Very Large Data Base (VLDB) Conference

IEEE International Conference on Data Engineering

International Conf. on Extending Database Technology (EDBT)

 

·   Quelques sites web utiles

http://www.bibliotheques.uqam.ca/ (NB vous avez accès à de nombreuses ressources électroniques dont IEEE Xplore, ACM Digital Library, Springer, …)

http://academic.research.microsoft.com/ (Microsoft Academic Search)

http://www.acm.org/dl/ (ACM Digital Library)

http://ieeexplore.ieee.org/Xplore/DynWel.jsp (IEEE Xplore)

http://scholar.google.ca/ (Google scholars)

http://www.sigmod.org/ (Groupe d’intérêt SIGMOD de l’ACM)

http://www.acm.org/sigmod/dblp/db/welcome.html (Bibliographie de l'informatique - auparavant centré sur BD maintenu par Michael Ley)

http://www-sal.cs.uiuc.edu/~hanj/ (site de Prof. Jiawei Han)

http://www.daniel-lemire.com/OLAP/index.html (Bibliographie sur les entrepôts de données et OLAP maintenue par Daniel Lemire)

http://citeseer.nj.nec.com/cs (Research Index)

http://www-rocq.inria.fr/qui/Philippe.Deschamp/divers/metalexis.html (quelques lexiques et dictionnaires).

http://www.bibsonomy.org/ (logiciel « social » de gestion de références bibliographiques)

 

Calendrier prévu (susceptible d’être modifié)

 

Sem.

 

Contenu et références dans Godin(2006)

Transparents disponibles à http://www.labunix.uqam.ca/~godin/SiteWebGodin2006/

 

Travaux

Poids

1

7 jan.

Introduction, présentation du cours, entente d’évaluation, rappels (optimisation requête, gestion de transactions, transformation objet-relationnel, …)

Rappels JDBC, SQLJ (Chap. 5)

 

 

2

14 jan.

Développement d'applications de BD Web multi-couches, persistance transparente avec JEE (début) (Chap.15)

 

 

3

21 jan.

Développement d'applications de BD Web multi-couches, persistance transparente avec JEE (suite) (Chap.15)

Résumé d’article et choix d’article

10%

4

28 jan.

Bases de données parallèles et réparties (Chap.18)

5

4 fév.

Entrepôts de données et OLAP (Chap.19)

 

 

6

11 fév.

Présentation d’article

Présentation orale d’un article

Ébauche

20%

 

10%

7

18 fév.

Fouille de données (Chap. 19)

 

8

25 fév.

Relâche

 

9

4 mars

Bases de données orientées objet (OO) (Chap.16)

Relationnel-objet (Chap.17)

 

10

11 mars

Organisations multidimensionnelles (Chap. 9)

 

 

11

18 mars

Gestion de données semi-structurées (Chap. 20)

12

25 mars

Repérage de l’information (Chap. 21)

 

 

13

1er avril

Congé

 

 

14

8 avril

Bases de données déductives (Chap. 22)

 

 

15

15 avril

Présentation orale du projet de session

Présentation orale

20%

16

22 avril

Présentation orale du projet de session

Rapport final

40%