Projet de Fin d’Etudes 2011-2012
Proposé par : Dr NOUALI (Directeur de recherche, CERIST).
H. OUFAIDA (Enseignante, ESI)
EMAIL : [email protected].
1. Intitulé du sujet
Application des méthodes statistiques pour le résumé automatique de documents
2. Description
La forte augmentation de documents disponible en format numérique a fait ressortir la nécessité de concevoir des outils spécifiques pour accéder à l’information pertinente. Parmi ces outils on trouve les systèmes de résumé automatique.
Le but du résumé automatique est de produire une version condensée du document source à l’aide de techniques informatiques. Ceci afin d’aider le lecteur à décider si le document en question contient l’information recherchée ou pas.
Les techniques utilisées pour le résumé automatique sont inspirées de diverses orientations. En effet, plusieurs techniques ont été explorées en linguistique (basée sur l’analyse du discours et de sa structure) et en statistique (basée sur la distribution des occurrences des mots). Ces techniques peuvent être classées en deux grandes approches : par abstraction et par extraction. La première approche, par abstraction, vise à rédiger un résumé en générant des phrases pas forcément contenues dans le document original. La deuxième approche, par extraction, se limite à extraire des phrases complètes censées être les plus pertinentes du document et à les concaténer de façon à produire un extrait.
La plupart des travaux dans le domaine du résumé automatique sont basés sur l’extraction, bien que la lecture des résumés par extraction puisse être difficile en raison du manque de cohérence.
3. Objectif
L’objectif de ce travail est de réaliser un système de résumé automatique par extraction. Il s’agit d’appliquer les méthodes statistiques pour attribuer des scores à chaque mot/phrase reflétant son importance dans le texte. Le résumé final ne gardera que les phrases avec un score élevé.
4. Mots Clés
Résumé automatique, extraction de l’information
5. Références bibliographiques
[1] M. Amini, “Apprentissage automatique et recherche de l’information : application à l’extraction d’information de surface et au résumé de texte ”, thèse de doctorat de l’université Paris 6, 2001.
[2] H. P. Edmundson, “New Methods in Automatic Extracting”, Journal of the ACM (JACM) 16(2), 264–285, 1969.
[3] U. Hahn and I.Mani,” The Challenges of Automatic Summarization”, Computer, IEEE, Vol. 33, No. 11. (November 2000), pp. 29-36.
[4] D. Marcu, “The rhetorical parsing, summarization, and generation of natural language texts”, PhD Thesis, University of Toronto, December 1997.
[5] D.R. Radev, E. Hovy, K. McKeown, “Introduction on the Special Issue on Summarization”. ACL 2002.
[6] J. Minel, « Résumé automatique de textes », Traitement automatique des langues, Hermes Lavoisier, vol. 45, n°1, 2004.