[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] mise en évidence des termes recher chés (long)
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-users] mise en évidence des termes recher chés (long) |
Date: |
Mon, 26 May 2003 12:42:29 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02 |
Salut,
CLAVAUD Florence a écrit:
je constate que tout cela est compliqué
En fait, ça ne devrait pas l'être, en tout cas pas sur la partie qui
concerne l'extraction des termes pertinents pour la requête Lucene. Sur
l'autre partie, identifier les dits termes dans le document... c'est une
autre histoire :-) Ce n'est pas nécessairement compliqué à mettre en
oeuvre (avec des expressions régulières) mais ça a des chances d'être un
gouffre à performances pour un résultat qui ne sera sans doute pas à la
hauteur.
(en l'occurrence je ne
vois pas comment je pourrais faire autrement pour des noms de famille
anciens, souvent composés, dont l'utilisateur ignore souvent la forme
exacte)
La solution devrait normalement être une "fuzzy search" Lucene :
http://jakarta.apache.org/lucene/docs/queryparsersyntax.html
On peut aussi concevoir des fonctions SOUNDEX/PHONEX (v.p.e.
http://sqlpro.developpez.com/Soundex/SQL_AZ_soundex.html) qui permettent
des requêtes sur des orthographes approchantes... en ne tenant pas
compte des espaces. Des volontaires ?
> et avec l'analyseur par défaut cette fonction marche très bien,
Pas autant que si les 2 approches ci-dessus étaient fonctionnelles :-)
euh, pour ce qui est du "traitement des caractères d'un attribut" : dans
l'absolu, je trouve que ce serait plutôt intéressant en effet de pouvoir
chercher et marquer des valeurs d'attribut
+1 :-)
longs, conformes à des DTD avec des modèles de contenu mixte, où l'on
peut encoder dans le texte, avec des éléments spécifiques, des termes
dont la forme normalisée est en attribut
Ce qui n'est normalement pas le rôle d'un attribut : pour moi, attribut
= information pour une machine. Eternel dilemne...
et pour lesquels très
naturellement on imagine d'indexer ces valeurs d'attribut dans SDX.
Personnellement, j'indexe des attributs... même si ça ne me plait pas.
A+
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
- [sdx-users] mise en évidence des termes recherchés, CLAVAUD Florence, 2003/05/23
- Re: [sdx-users] mise en évidence des termes recherchés, Pierrick Brihaye, 2003/05/23
- Re: [sdx-users] mise en évidence des termes recherchés, CLAVAUD Florence, 2003/05/23
- Re: [sdx-users] mise en évidence des termes recherchés, Pierrick Brihaye, 2003/05/23
- Re: [sdx-users] mise en évidence des termes recher chés (long), Pierrick Brihaye, 2003/05/24
- Re: [sdx-users] mise en évidence des termes recher chés (long), CLAVAUD Florence, 2003/05/26
- Re: [sdx-users] mise en évidence des termes recher chés (long),
Pierrick Brihaye <=
- RE : [sdx-users] mise en évidence des termes reche r chés (long), Martin Sevigny, 2003/05/26
- Re: RE : [sdx-users] mise en évidence des t ermes recher chés (long), Pierrick Brihaye, 2003/05/26
- RE : RE : [sdx-users] mise en évidence des termes re cher chés (long), Martin Sevigny, 2003/05/26
- Re: RE : RE : [sdx-users] mise en évidence de s termes recher chés (long), Pierrick Brihaye, 2003/05/26
- RE : RE : RE : [sdx-users] mise en évidence des term es recher chés (long), Martin Sevigny, 2003/05/26
- Re: RE : RE : [sdx-users] mise en évidence des terme s recher chés (long), Pierrick Brihaye, 2003/05/26
- RE : RE : RE : [sdx-users] mise en évidence des term es recher chés (long), Martin Sevigny, 2003/05/26
- Re: [sdx-users] mise en évidence des termes recher chés (long), CLAVAUD Florence, 2003/05/26