sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] mise en évidence des termes recher chés (long)


From: Pierrick Brihaye
Subject: Re: [sdx-users] mise en évidence des termes recher chés (long)
Date: Mon, 26 May 2003 12:42:29 +0200
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Salut,

CLAVAUD Florence a écrit:

je constate que tout cela est compliqué

En fait, ça ne devrait pas l'être, en tout cas pas sur la partie qui concerne l'extraction des termes pertinents pour la requête Lucene. Sur l'autre partie, identifier les dits termes dans le document... c'est une autre histoire :-) Ce n'est pas nécessairement compliqué à mettre en oeuvre (avec des expressions régulières) mais ça a des chances d'être un gouffre à performances pour un résultat qui ne sera sans doute pas à la hauteur.

(en l'occurrence je ne vois pas comment je pourrais faire autrement pour des noms de famille anciens, souvent composés, dont l'utilisateur ignore souvent la forme exacte)

La solution devrait normalement être une "fuzzy search" Lucene : http://jakarta.apache.org/lucene/docs/queryparsersyntax.html

On peut aussi concevoir des fonctions SOUNDEX/PHONEX (v.p.e. http://sqlpro.developpez.com/Soundex/SQL_AZ_soundex.html) qui permettent des requêtes sur des orthographes approchantes... en ne tenant pas compte des espaces. Des volontaires ?

> et avec l'analyseur par défaut cette fonction marche très bien,

Pas autant que si les 2 approches ci-dessus étaient fonctionnelles :-)

euh, pour ce qui est du "traitement des caractères d'un attribut" : dans l'absolu, je trouve que ce serait plutôt intéressant en effet de pouvoir chercher et marquer des valeurs d'attribut

+1 :-)

longs, conformes à des DTD avec des modèles de contenu mixte, où l'on peut encoder dans le texte, avec des éléments spécifiques, des termes dont la forme normalisée est en attribut

Ce qui n'est normalement pas le rôle d'un attribut : pour moi, attribut = information pour une machine. Eternel dilemne...

et pour lesquels très naturellement on imagine d'indexer ces valeurs d'attribut dans SDX.

Personnellement, j'indexe des attributs... même si ça ne me plait pas.

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden





reply via email to

[Prev in Thread] Current Thread [Next in Thread]