sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Conservation des nombres dans la recherche plein-te


From: Pierrick Brihaye
Subject: Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Date: Tue, 30 Mar 2004 11:52:43 +0200
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Salut,

Pierre Dittgen a écrit:

Je travaille actuellement sur une application SDX où la recherche des chiffres et des nombres dans le plein-texte est une fonctionnalité importante. Hors, chiffres et nombres ne sont par défaut pas indexés par SDX (en mode word), me trompe-je ?

Euh... plus compliqué : en "word", tout dépend de l'analyseur. Et le choix de l'analyseur *peut* dépendre de la langue.

J'ai regardé un peu plus le code Java des analyseurs. Dans le DefaultAnalyser, on utilise comme analyseur lexical la classe LowerCaseTokenizer de Lucene. Hors celle-ci hérite de la classe LetterTokenizer qui ne prend en compte que les lexemes de type mots (composés de lettre), c'est cela ?

Oui. Tu as peut-être plutôt intérêt à écrire ton propre CharTokenizer
http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/analysis/CharTokenizer.html

... ou à utiliser un WhiteCharAnalyzer qui, lui, laisse peut-être passer trop de choses :-)

Voir en tout cas :
http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/

Si je voulais prendre en compte les chiffres dans l'analyse, il faudrait que je remplace l'utilisation de la classe LowerCaseTokenizer par la classe StandardTokenizer

Euh... ton standard tokenizer est normalement généré par un fichier .jj. Si tu t'en sens capable... n'hésite pas :-)

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78





reply via email to

[Prev in Thread] Current Thread [Next in Thread]