INF7210 - Nouvelles perspectives en bases de
données (3 cr.) Hiver 2013
Groupe 10
Professeur : Robert Godin
Bureau :
PK-4520, téléphone: 514-987-3000 poste 3088, télécopieur: 514-987-8477
Courriel : godin.robert@uqam.ca
URL : http://www.labunix.uqam.ca/~godin
Horaire : Lundi
de 17h30 à 20h30
Lieu : à
confirmer
Concepts avancés
des bases de données. Gestion de transactions. Contrôle et optimisation des
performances. Bases de données parallèles et réparties. Développement
d’applications de bases de données Web et multitiers.
Bases de données objet et objet-relationnel. Gestion de données
semi-structurées et multimédia. Entrepôts de données et analyse de données
(OLAP). Fouille de données (data mining).
Bases de données déductives. Repérage de l’information.
Ce cours est destiné aux étudiants ayant suivi au
préalable un ou des cours de bases de données au niveau baccalauréat et/ou qui
ont une expérience pertinente en conception et utilisation de bases de données.
Les sujets suivants seront abordés :
· Gestion de transaction
· Optimisation de requêtes
· Développement d’applications de bases de données Web
et multitiers
· Bases de données parallèles et réparties
· Bases de données orientées objet (BDOO)
· Transformation objet-relationnel
· Relationnel-objet
· Entrepôts de données et analyse OLAP
· Fouille de données (data mining)
· Organisations multidimentionnelles
· Données semi-structurées (XML)
· Repérage de l’information
· Bases de données déductives
§ Résumé
d’article (travail individuel) : 10%
R. Agrawal, et al., 2008. The Claremont report on database research. SIGMOD Rec., vol. 37, no. 3, pp. 9-19. DOI = http://doi.acm.org/10.1145/1462571.1462573.
NB Le résumé doit avoir une taille
d’environ trois pages. Les normes de présentation de travaux (ex. largeur des
marges (2,5 cm), double interligne (double), taille des caractères (Times 12))
doivent être respectées.
Le site suivant propose des gabarits
Word et Latex qui peuvent servir pour la présentation des travaux :
http://www.sciences.uqam.ca/etudiants/reglements-et-formulaires.html
§ Présentation orale d’un article de
recherche (travail individuel) :
20%
Choisir un article de
la conférence SIGMOD 2012 excluant les sessions de démonstrations et de tutoriels,
ou un autre article récent et en faire une présentation sommaire (10 minutes).
Envoyer au professeur
par courriel la référence de l’article choisi avant le 21 janvier, pour la
faire approuver.
Décrire sommairement
- la
problématique
- la
contribution
- l’originalité
de la contribution par rapport à la littérature
- la
méthodologie employée
§ Projet de
session (en équipe)
Ébauche : résumé, bibliographie et plan de
travail 10%
Présentation orale
20%
Rapport final 40%
Des sujets sont proposés dans la liste ci-bas. Vous pouvez proposer un autre sujet mais vous devez
le faire approuver en envoyant un courriel au professeur à cet effet.
NB La présentation orale et le rapport doivent faire
ressortir clairement les liens avec la matière vue au cours mais sans la
répéter. Un exposé scientifique doit faire ressortir des faits basés sur des
sources crédibles et non pas des opinions sans fondement. Il est important
d’identifier clairement les sources d’information par des références
bibliographiques précises et complètes. Un outil de gestion bibliographique est
très utile à cet effet (vous pouvez vous procurer ces outils gratuitement à la
bibliothèque : http://www.bibliotheques.uqam.ca/endnote).
Les dates de remise sont précisées dans le calendrier
proposé.
Tout
retard dans la remise des travaux entraîne une pénalité de 5% par jour sur la note
attribuée au travail. Un retard de plus de quatre jours ouvrables ne sera pas
accepté.
La qualité du français sera considérée dans la
correction des travaux (pour un maximum de 10%).
PLAGIAT |
Tout acte
de plagiat, fraude, copiage, tricherie ou falsification de document commis
par une étudiante, un étudiant, de même que toute participation à ces actes
ou tentative de les commettre, à l’occasion d’un examen ou d’un travail
faisant l’objet d’une évaluation ou dans toute autre circonstance,
constituent une infraction au sens de ce règlement |
La liste
non limitative des infractions est définie comme suit : · la substitution de personnes ; ·
l’utilisation totale ou partielle du texte d’autrui en le faisant
passer pour sien ou sans indication de référence ; ·
la transmission d’un travail pour fins d’évaluation alors qu’il
constitue essentiellement un travail qui a déjà été transmis pour fins
d’évaluation académique à l’Université ou dans une autre institution
d’enseignement, sauf avec l’accord préalable de l’enseignante, l’enseignant ;
·
l’obtention par vol, manœuvre ou corruption de questions ou de
réponses d’examen ou de tout autre document ou matériel non autorisés, ou
encore d’une évaluation non méritée ; ·
la possession ou l’utilisation, avant ou pendant un examen, de tout
document non autorisé ; ·
l’utilisation pendant un examen de la copie d’examen d’une autre
personne ; ·
l’obtention de toute aide non autorisée, qu’elle soit collective ou
individuelle ; ·
la falsification d’un document, notamment d’un document transmis par
l’Université ou d’un document de l’Université transmis ou non à une tierce
personne, quelles que soient les circonstances ; ·
la falsification de données de recherche dans un travail, notamment
une thèse, un mémoire, un mémoire-création, un rapport de stage ou un
rapport de recherche. Les
sanctions reliées à ces infractions sont précisées à l’article 3 du Règlement
no 18 Pour plus
d’information sur les infractions académiques et comment les prévenir : www.integrite.uqam.ca |
· Comparaison
de SGBD par rapport à une facette particulière de leur fonctionnalité e.g. :
- entreposage de données (services ETL) et
services OLAP
-
fouille de données
(data mining)
- gestion de transactions (contrôle de
concurrence, mécanismes de reprise, gestion de flux de traitement (workflow))
-
optimisation des
requêtes
- traitement de données multimédia (texte,
image, son, vidéo, données spatiales, temporelles)
-
intégration de XML
-
indexation de textes
-
compression des données
-
sécurité
-
support d'architectures
parallèles/réparties
-
outils d’administration
· Survol de la
littérature récente d'un thème (synthèse d'une dizaine d'articles). Exemples de
thèmes :
- entrepôts de données
§ intégration de données hétérogènes
§ nettoyage de données
§ conception
§ normes
- OLAP
§ organisation physique, optimisation
· méthodes de calcul de cubes OLAP
· choix des vues matérialisées et des index
· compression du cube
· optimisation de requêtes iceberg
· représentation verticale des données (par colonne)
§ visualisation
§ langages et normes
- fouille de données
§ découverte de patrons fréquents
§ découverte de représentations condensées de patrons fréquents
§ découverte de patrons fréquents approximatifs
§ découverte d’associations
§ regroupement (clustering)
§ bi-clustering
(co-clustering)
§ classification (supervisée)
§ fouille de séquences
§ fouille de patrons complexes fréquents (arbres, graphes, …)
§ fouille de patrons dans un flux de données
§ prédiction numérique
§ langages et normes
§ fouille de textes
§ fouille d’images
§ Web log mining
§ analyse de réseaux sociaux
-
repérage multimédia
- XML et BD
§ indexation, optimisation
§ langages
- optimisation de requêtes
parallèles/réparties
- bancs d’essais pour l’évaluation des
performances
-
BD temporelles,
spatiales, spatio-temporelles
-
BD déductives
- systèmes de gestion de flux de données (Data
Stream Management Systems)
- tables de hachage distribuées dans les
systèmes pair à pair
- traitement de l’imprécision dans les bases
de données
- sécurité des données
- bases de données dans le nuage
- bases de données NoSQL
à haut débit
· Expérimenter une nouvelle technologie BD
- Implémenter une application en utilisant
une nouvelle technologie BD (EJB3/JPA, outil ETL, outil OLAP, data mining, XML/BD, base de données dans le nuage, base de
données NoSQL, outils d’orchestration de processus,
gestion de règles d’affaires, …)
· Page Web du cours à consulter régulièrement pour les informations
à jour: http://www.labunix.uqam.ca/~godin/INF7210
· Monographies
Elmasri, R. & Navathe, S. B. (2011). Fundamentals of Database Systems (1172 p.). Boston:
Pearson/Addison Wesley.
Garcia-Molina, H., Ullman, J. D. & Widom, J. (2009). Database systems
: the Complete Book (1203 p.). Upper Saddle River, N.J.: Pearson
Prentice Hall.
Godin, R. (2006). Systèmes de gestion de bases de données par l’exemple (1195 p.). Longueuil, Canada: Loze-Dion.
Silberschatz, A., Korth,
H. F. & Sudarshan, S. (2011). Database
System Concepts (1349 p.). New York: McGraw-Hill.
· Revues
ACM
Computing surveys
ACM
Transactions on Database Systems (TODS)
ACM
Transactions on Information Systems (TIS)
ACM
Transactions on Knowledge Discovery from Data (TKDD)
ACM SIGMOD
Record
IEEE
Database Engineering Bulletin, IEEE Computer
IEEE
Transactions on Knowledge and Data Engineering
· Actes de conférences
ACM International Conference on Management
of Data (SIGMOD)
ACM Symposium on
Principles of Database Systems (PODS)
ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining (KDD)
Very Large Data Base
(VLDB) Conference
IEEE International
Conference on Data Engineering
International Conf. on
Extending Database Technology (EDBT)
· Quelques sites web utiles
http://www.bibliotheques.uqam.ca/
(NB vous avez accès à de nombreuses ressources électroniques dont IEEE Xplore, ACM Digital Library, Springer, …)
http://academic.research.microsoft.com/ (Microsoft Academic Search)
http://www.acm.org/dl/
(ACM Digital Library)
http://ieeexplore.ieee.org/Xplore/DynWel.jsp
(IEEE Xplore)
http://scholar.google.ca/ (Google scholars)
http://www.sigmod.org/
(Groupe d’intérêt SIGMOD de l’ACM)
http://www.acm.org/sigmod/dblp/db/welcome.html
(Bibliographie de l'informatique - auparavant centré sur BD maintenu par Michael Ley)
http://www-sal.cs.uiuc.edu/~hanj/ (site de Prof. Jiawei Han)
http://www.daniel-lemire.com/OLAP/index.html
(Bibliographie sur les entrepôts de données et OLAP maintenue par Daniel
Lemire)
http://citeseer.nj.nec.com/cs
(Research Index)
http://www-rocq.inria.fr/qui/Philippe.Deschamp/divers/metalexis.html
(quelques lexiques et dictionnaires).
http://www.bibsonomy.org/
(logiciel « social » de gestion de références bibliographiques)
Sem.
|
Contenu et références dans Godin(2006) Transparents disponibles à http://www.labunix.uqam.ca/~godin/SiteWebGodin2006/ |
Travaux |
Poids |
1 7 jan. |
Introduction, présentation
du cours, entente d’évaluation, rappels (optimisation requête, gestion de
transactions, transformation objet-relationnel, …) Rappels JDBC, SQLJ (Chap.
5) |
|
|
2 14 jan. |
Développement
d'applications de BD Web multi-couches, persistance
transparente avec JEE (début) (Chap.15) |
|
|
3 21 jan. |
Développement
d'applications de BD Web multi-couches, persistance
transparente avec JEE (suite) (Chap.15) |
Résumé
d’article et choix d’article |
10% |
4 28 jan. |
Bases de données
parallèles et réparties
(Chap.18) |
||
5 4 fév. |
Entrepôts de
données et OLAP (Chap.19) |
|
|
6 11 fév. |
Présentation
d’article |
Présentation
orale d’un article Ébauche |
20% 10% |
7 18 fév. |
Fouille de données (Chap.
19) |
|
|
8 25 fév. |
Relâche |
|
|
9 4 mars |
Bases de données orientées
objet (OO) (Chap.16) Relationnel-objet (Chap.17) |
|
|
10 11 mars |
Organisations
multidimensionnelles (Chap. 9) |
|
|
11 18 mars |
Gestion de
données semi-structurées (Chap. 20) |
||
12 25 mars |
Repérage de l’information (Chap. 21) |
|
|
13 1er avril |
Congé |
|
|
14 8 avril |
Bases de
données déductives (Chap. 22) |
|
|
15 15 avril |
Présentation
orale du projet de session |
Présentation orale |
20% |
16 22 avril |
Présentation
orale du projet de session |
Rapport final |
40% |