sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-developers] StopWords


From: Pierre Dittgen
Subject: [sdx-developers] StopWords
Date: Mon, 05 Jul 2004 18:56:56 +0200
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7) Gecko/20040616

Bonsoir,

J'ai passé 3 heures à comprendre pourquoi je n'arrivai pas à rechercher le mot "thèse" en plein-texte français dans mon application SDX. Je suis heureux de vous faire part de mon expérience, surtout si cela peut éviter à quelqu'un d'autre de perdre du temps aussi.

Voici le problème détecté : Dans la classe Java d'analyse en français (fr.gouv.culture.sdx.search.lucene.analysis.Analyser_fr), on hérite des mots non pertinents (traduction approximative de "stop words") de la classe mère DefaultAnalyser. Or la classe DefaultAnalyser définit un ensemble de stopwords anglais par défaut. Parmi ceux-ci, on trouve "that", "this", "those" et "these" entre autres. Or "these" est la version non accentuée du mot français "thèse". Le mot clef "thèse" est, par la même, exclu de l'indexation d'un texte français. J'ai testé (retiré "these" de la liste des stopwords de la classe Java, recompilé SDX, copié le jar obtenu dans WEB-INF/lib) et la correction fonctionne.

J'utilise SDX2.2 / JDK 1.4 sous WinXPPro.
Je suppose qu'il y a moyen de configurer l'analyseur français pour qu'il exploite une liste de stop words contenu dans un fichier XML et non la liste par défaut de la classe DefaultAnalyser, ceci règlerait le problème. Cependant, il serait, à mon avis, intéressant de ne pas rencontrer le problème avec la configuration par défaut fournie avec une installation fraîche de SDX.

Bonne soirée
Pierre
P.S. : J'ai toujours un patch en l'air qui permet aux analyseurs de SDX d'indexer aussi les chiffres/nombres. Je serai heureux de pouvoir l'intégrer dans SDX 2.3 à l'occasion. Par contre, je n'ai pas avancé sur cette idée d'analyseur générique et configurable, Pierrick.
--
Pierre Dittgen, address@hidden
PASS Technologie http://www.pass-tech.fr






reply via email to

[Prev in Thread] Current Thread [Next in Thread]