sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-developers] Re: RE : [sdx-users] Analyseur arabe


From: Pierrick Brihaye
Subject: [sdx-developers] Re: RE : [sdx-users] Analyseur arabe
Date: Tue, 18 Nov 2003 09:47:51 +0100
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Salut,

Je n'ai pas encore mis au point un protocole de test sur cette affaire, mais je pense avoir avancé sur la compréhension du problème.

On a :

startOffset = token.startOffset();
endOffset = token.endOffset();

Le problème, c'est qu'on n'est pas sûr que l'analyseur renvoie les "bons" offsets. Je m'explique : si je dois analyser :

some plural words
1    6      13

dans un "MakeSingularAnalyzer", ça me donne :

a singular word

Quelle attitude adopter sur les offests de tokens ?

a singular word
1 3        12

ou bien, une copie du flux d'origine ?
a singular word
1 6(!)     13(!)

Notre highlighter semble préférer la copie :-)

Ca paraît être la solution facile, mais comment faire le jour où on aura des analyseurs de phrase du style :

Lucene is nice
1      8  11

résultant de l'analyse de :

Is Lucene nice
1  4      11

???

Je pense donc que le highlighter ne devrait pas travailler avec les offsets de *tokens* mais avec les offset du texte, la "String text" qui est passée dans l'argument de la méthode, i.e.

endOffset = 0;
while ((token = stream.next()) != null) {
  startOffset = endOffset++;
  endOffset = endOffset + token.termText().length;
  ...
}

... ou similaire.

Est-ce que mon analyse est bonne ?

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden





reply via email to

[Prev in Thread] Current Thread [Next in Thread]