[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] Conservation des nombres dans la recherche plein-te
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte |
Date: |
Tue, 30 Mar 2004 11:52:43 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02 |
Salut,
Pierre Dittgen a écrit:
Je travaille actuellement sur une application SDX où la recherche des
chiffres et des nombres dans le plein-texte est une fonctionnalité
importante. Hors, chiffres et nombres ne sont par défaut pas indexés par
SDX (en mode word), me trompe-je ?
Euh... plus compliqué : en "word", tout dépend de l'analyseur. Et le
choix de l'analyseur *peut* dépendre de la langue.
J'ai regardé un peu plus le code Java des analyseurs. Dans le
DefaultAnalyser, on utilise comme analyseur lexical la classe
LowerCaseTokenizer de Lucene. Hors celle-ci hérite de la classe
LetterTokenizer qui ne prend en compte que les lexemes de type mots
(composés de lettre), c'est cela ?
Oui. Tu as peut-être plutôt intérêt à écrire ton propre CharTokenizer
http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/analysis/CharTokenizer.html
... ou à utiliser un WhiteCharAnalyzer qui, lui, laisse peut-être passer
trop de choses :-)
Voir en tout cas :
http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/
Si je voulais prendre en compte les chiffres dans l'analyse, il faudrait
que je remplace l'utilisation de la classe LowerCaseTokenizer par la
classe StandardTokenizer
Euh... ton standard tokenizer est normalement généré par un fichier .jj.
Si tu t'en sens capable... n'hésite pas :-)
A+
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78