Re: [sdx-developers] Conservation des nombres dans la recherche plein-te

sdx-developers

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Conservation des nombres dans la recherche plein-te

From:	Pierrick Brihaye
Subject:	Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Date:	Tue, 30 Mar 2004 11:52:43 +0200
User-agent:	Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Salut,

Pierre Dittgen a écrit:

Je travaille actuellement sur une application SDX où la recherche deschiffres et des nombres dans le plein-texte est une fonctionnalitéimportante. Hors, chiffres et nombres ne sont par défaut pas indexés parSDX (en mode word), me trompe-je ?

Euh... plus compliqué : en "word", tout dépend de l'analyseur. Et lechoix de l'analyseur *peut* dépendre de la langue.

J'ai regardé un peu plus le code Java des analyseurs. Dans leDefaultAnalyser, on utilise comme analyseur lexical la classeLowerCaseTokenizer de Lucene. Hors celle-ci hérite de la classeLetterTokenizer qui ne prend en compte que les lexemes de type mots(composés de lettre), c'est cela ?


Oui. Tu as peut-être plutôt intérêt à écrire ton propre CharTokenizer
http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/analysis/CharTokenizer.html

... ou à utiliser un WhiteCharAnalyzer qui, lui, laisse peut-être passertrop de choses :-)


Voir en tout cas :
http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/

Si je voulais prendre en compte les chiffres dans l'analyse, il faudraitque je remplace l'utilisation de la classe LowerCaseTokenizer par laclasse StandardTokenizer

Euh... ton standard tokenizer est normalement généré par un fichier .jj.Si tu t'en sens capable... n'hésite pas :-)


A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-developers] Conservation des nombres dans la recherche plein-texte, Pierre Dittgen, 2004/03/30
- Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte, Pierrick Brihaye <=
  - Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte, Pierre Dittgen, 2004/03/30
    - Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte, Pierrick Brihaye, 2004/03/30

Prev by Date: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Next by Date: Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Previous by thread: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Next by thread: Re: [sdx-developers] Conservation des nombres dans la recherche plein-texte
Index(es):
- Date
- Thread