Thème:
Amélioration de la correction d’orthographe Open source:
Application pour l’Arabe et les langues africaines.
Sujet d’ingéniorat
Promoteur : Amar Balla
Co-promoteur : Taha Zerrouki
Objectif : Amélioration de la correction d’orthographe Open source, application sur le logiciel Hunspell.
Description :
Un correcteur est, en informatique, un outil logiciel permettant d’analyser un texte afin de détecter, et éventuellement de corriger, les fautes d’orthographe qu’il contient.
Hunspell est un correcteur orthographique open source, basé sur Myspell, il est rétro compatible avec les dictionnaires Myspell. L’amélioration apportée à Hunspell est l’encodage des dictionnaires en UTF-8 (Unicode) à la place de l’encodage en ASCII utilisé par Myspell.
Hunspell est utilisé par:
· OpenOffice.org à partir de la version 2.0.2
· Mozilla Firefox, Mozilla Thunderbird à partir de la version 3
· Texmaker, à partir de la version 1.7
· Opera, à partir de la version 10.00.
En faisant une étude comparatifs entre les correcteurs open source, le Hunspell est le meilleur, car il offre plein de possibilités pour les langues non latine, comme l’arabe, le turque, l’allemand, etc.
Mais vu les tests et le développement des dictionnaires pour la langue arabe, et certaines langues africaines, on a constaté que le correcteur Hunspell est insuffisant pour la bonne représentation de la morphologie de ces langues.
Ce projet consiste à développer les fonctionnalités de ces correcteurs afin de faciliter la réalisation des nouveaux dictionnaires pour les autres langues. D’autre part, il est demandé de faire une interface web, pour la correction d’orthographe.
Ce projet a une ampleur internationale.
Mots-clés
Correction d’orthographe, Traitement automatique de la langue. Langue arabe, Langues africaines.
Travail demandé
Etat de l’art |
|
|
La correction d’orthographe. – La correction d’orthographe. – Les correcteurs open source. La morphologie des langues. – La morphologie de la langue arabe. – La morphologie des langues africaines. Les correcteurs des langues concernés. – Les correcteurs et les travaux existants. – Les limites des correcteurs open sources. |
Conception et réalisation |
|
|
– Conception des nouvelles fonctionnalités et amélioration l’outil – Implémentation. |
Références
– Ayaspell, Le correcteur d’orthographe open source de la langue arabe,
http://ayaspell.sourceforge.net
– Ismail Hadjir, Pour un correcteur d’orthographe open source de l’arabe, mémoire magister, http://ayaspell.sourceforge.net
– Hunspell: Open source spell checker : http://hunspell.sf.net
– African Network localization http://www.africanlocalisation.net/
Outils :
– Hunspell : http://hunspell.sf.net
– Langage .de programmation C++
Procédures et méthode de travail :
– l’étudiant doit remettre des rapports mensuels sur l’avancement.
– Le travail doit être réalisé selon la philosophie OpenSource, en utilisant les logiciels libres le plus possible.
– Toutes les étapes de travail doivent être journaliser dans un fichier nommé historic.txt, en mentionnant l’avancement et les corrections faites par date.
– Toutes les notes, commentaires, remarques et noms de variables doivent être écrit en anglais.
– Tous les messages et affichage doit être en arabe en premier lieu. Les messages sont classés dans un fichier de langue facile à changé et traduire vers d’autres langues.
– Le mémoire en français, les manuels et les résumés en arabe et en anglais.