[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[sdx-developers] StopWords
From: |
Pierre Dittgen |
Subject: |
[sdx-developers] StopWords |
Date: |
Mon, 05 Jul 2004 18:56:56 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7) Gecko/20040616 |
Bonsoir,
J'ai passé 3 heures à comprendre pourquoi je n'arrivai pas à rechercher
le mot "thèse" en plein-texte français dans mon application SDX. Je suis
heureux de vous faire part de mon expérience, surtout si cela peut
éviter à quelqu'un d'autre de perdre du temps aussi.
Voici le problème détecté : Dans la classe Java d'analyse en français
(fr.gouv.culture.sdx.search.lucene.analysis.Analyser_fr), on hérite des
mots non pertinents (traduction approximative de "stop words") de la
classe mère DefaultAnalyser.
Or la classe DefaultAnalyser définit un ensemble de stopwords anglais
par défaut. Parmi ceux-ci, on trouve "that", "this", "those" et "these"
entre autres. Or "these" est la version non accentuée du mot français
"thèse".
Le mot clef "thèse" est, par la même, exclu de l'indexation d'un texte
français. J'ai testé (retiré "these" de la liste des stopwords de la
classe Java, recompilé SDX, copié le jar obtenu dans WEB-INF/lib) et la
correction fonctionne.
J'utilise SDX2.2 / JDK 1.4 sous WinXPPro.
Je suppose qu'il y a moyen de configurer l'analyseur français pour qu'il
exploite une liste de stop words contenu dans un fichier XML et non la
liste par défaut de la classe DefaultAnalyser, ceci règlerait le problème.
Cependant, il serait, à mon avis, intéressant de ne pas rencontrer le
problème avec la configuration par défaut fournie avec une installation
fraîche de SDX.
Bonne soirée
Pierre
P.S. : J'ai toujours un patch en l'air qui permet aux analyseurs de SDX
d'indexer aussi les chiffres/nombres. Je serai heureux de pouvoir
l'intégrer dans SDX 2.3 à l'occasion. Par contre, je n'ai pas avancé sur
cette idée d'analyseur générique et configurable, Pierrick.
--
Pierre Dittgen, address@hidden
PASS Technologie http://www.pass-tech.fr
- [sdx-developers] StopWords,
Pierre Dittgen <=