sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: [sdx-developers] StopWords


From: Emmanuel Bégué
Subject: RE: [sdx-developers] StopWords
Date: Mon, 5 Jul 2004 19:35:45 +0200

Bonjour,

Deux applis qui utilisent la config SDX 2.2 standard permettent
de chercher "thèse":
http://www.la-croix.com/sdx/alc/rech.xsp?q=these
http://www.la-croix.com/sdx/alzon/rech.xsp?q=these

et même
http://www.la-croix.com/sdx/alc/rech.xsp?q=that

mais pas des stopwords français comme "et" ou "a":
http://www.la-croix.com/sdx/alc/rech.xsp?q=a+et

...?

Cdt,
EB

-----Message d'origine-----
De : address@hidden
[mailto:address@hidden
De la part de Pierre Dittgen
Envoyé : lundi 5 juillet 2004 18:57
À : address@hidden
Objet : [sdx-developers] StopWords


Bonsoir,

J'ai passé 3 heures à comprendre pourquoi je n'arrivai pas à rechercher
le mot "thèse" en plein-texte français dans mon application SDX. Je suis
heureux de vous faire part de mon expérience, surtout si cela peut
éviter à quelqu'un d'autre de perdre du temps aussi.

Voici le problème détecté : Dans la classe Java d'analyse en français
(fr.gouv.culture.sdx.search.lucene.analysis.Analyser_fr), on hérite des
mots non pertinents (traduction approximative de "stop words") de la
classe mère DefaultAnalyser.
Or la classe DefaultAnalyser définit un ensemble de stopwords anglais
par défaut. Parmi ceux-ci, on trouve "that", "this", "those" et "these"
entre autres. Or "these" est la version non accentuée du mot français
"thèse".
Le mot clef "thèse" est, par la même, exclu de l'indexation d'un texte
français. J'ai testé (retiré "these" de la liste des stopwords de la
classe Java, recompilé SDX, copié le jar obtenu dans WEB-INF/lib) et la
correction fonctionne.

J'utilise SDX2.2 / JDK 1.4 sous WinXPPro.
Je suppose qu'il y a moyen de configurer l'analyseur français pour qu'il
exploite une liste de stop words contenu dans un fichier XML et non la
liste par défaut de la classe DefaultAnalyser, ceci règlerait le problème.
Cependant, il serait, à mon avis, intéressant de ne pas rencontrer le
problème avec la configuration par défaut fournie avec une installation
fraîche de SDX.

Bonne soirée
Pierre
P.S. : J'ai toujours un patch en l'air qui permet aux analyseurs de SDX
d'indexer aussi les chiffres/nombres. Je serai heureux de pouvoir
l'intégrer dans SDX 2.3 à l'occasion. Par contre, je n'ai pas avancé sur
cette idée d'analyseur générique et configurable, Pierrick.
--
Pierre Dittgen, address@hidden
PASS Technologie http://www.pass-tech.fr




_______________________________________________
sdx-developers mailing list
address@hidden
http://lists.nongnu.org/mailman/listinfo/sdx-developers





reply via email to

[Prev in Thread] Current Thread [Next in Thread]