sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: RE : [sdx-developers] Etat des questions


From: Pierrick Brihaye
Subject: Re: RE : [sdx-developers] Etat des questions
Date: Sun, 2 Nov 2003 20:12:37 +0100

Salut,

On poursuit la conversation de doctrine. Bien sûr, l'aspect codage reste en
suspens :-)

> Je n'ai pas étudié le code d'assez prêt (manque de temps)

Pas compliqué : le diff du QueryParser est assez explicite : le QueryParser
de Lucene ne sait *pas* travailler avec autre chose que des tokens dont le
PositionIncrement est différent de 1, autrement dit des tokens qui se
suivent les uns les autres. J'ai simplement fait en sorte qu'il puisse gérer
des PositionIncrement égaux à 0 (i.e. des tokens qui occupent la même
position).

> La langue n'est pas une
> série de tokens.

Je ne te le fais pas dire :-)

> L'arabe pose le problème brutalement avec ses consonnes, en basque ou
> autres langues agglutinantes en pourrait se débrouiller avec les jokers

Mes réflexions sur l'analyse, mes recherches sur les technologie POS (Part
Of Speech) m'indiquent que les troncatures devraient disparaître dans les
poubelles de l'histoire de l'informatique documentaire :-) Je vous ferai un
topo là-dessus... Entre nous : quand vous faites "sex*", vous recherchez des
instruments de marine ou bien vous posez la question la plus posée à Google
? :-))

> Pierrick nous offre un concept (et du code!) qui fait faire un grand pas
> à SDX vers le langage naturel (au niveau du mot).

Potentiellement, on peut aller plus loin : certains outils (dont, hélas,
très peu sont libres mais il en existe :
http://web.media.mit.edu/~hugo/montytagger/) permettent même d'envisager une
analyse au niveau de l'énoncé (phrase). Au vu des infos récoltées, ça ne
serait même pas trop difficile à mettre en oeuvre.

> Il s'agit par contre de s'assurer que des requêtes statistiquement plus
> courantes continuent à tourner, sans trop perdre de performances.

Sur ce sujet, Lucene ne descend hélas pas au-dessous du champ pour établir
ses scores de pertinence. Dans une requête de proximité par exemple, il me
paraîtrait naturel que des termes proches rapportent une plus grande
pertinence que des termes éloignés.

A+

p.b.






reply via email to

[Prev in Thread] Current Thread [Next in Thread]