[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-developers] Le developpement de SDX
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-developers] Le developpement de SDX |
Date: |
Fri, 04 Feb 2005 11:00:41 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.6) Gecko/20040113 |
Salut,
Mes 2 centimes dans cette discussion...
Frédéric Glorieux a écrit :
La logique est bien d'utiliser la démonstration lucene d'un indexeur XML
générique ?
C'est bien le noeud du problème IMHO car ça induit 3 choses qui ont tout
intérêt à être clairement segmentées :
- quoi indexer ?
- où l'indexer ?
- comment exploiter l'indexation ?
Dans SDX, la première question est traitée de façon assez élégante : on
passe un document, on en isole éventuellement les sémantiques désirées
(via une transformation le plus souvent) et on passe à l'indexeur. Bref,
on en arrive bien à ce que je désire : un document d'indexation pouvant,
le cas échéant, n'avoir rien à voir avec le document d'origine.
Sur la deuxième, tout le monde sera d'accord : Lucene qui, pour moi,
réprésente ce que l'on fait de mieux et que l'on devrait trouver plus
souvent dans différents projets Open Source (v. par exemple
http://sourceforge.net/tracker/index.php?func=detail&aid=1069335&group_id=17691&atid=367691
;-).
La dernière question est un peu plus compliquée car elle découle du
choix même de Lucene, ce qui nous impose de reprendre son architecture
(champs stockés, tris pré-programmés, analyseurs, Queryparser). Il fût
un temps où il n'était pas évident de persuader les gars de Lucene de
mettre un peu d'abstraction là-dedans ; heureusement, les développements
récents me semblent aller dans le bon sens.
En clair, l'architecture actuelle de Lucene nous oblige à renoncer à
avoir un contrôle total sur l'index, tant dans la façon dont il est
alimenté, que dans la façon de l'exploiter (recherche).
Cela demande à ne plus faire rentrer n'importe quel XML à l'indexation,
mais cela fait des index mieux contôlés, et donc plus précisément
interrogeables (recherche avancée).
C'est, personnellement, ce qui m'intéresse même si je reconnais que ces
exigences vont très au-delà des besoins courants.
A+
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78
- Re: [sdx-developers] Le developpement de SDX, Pierrick Brihaye, 2005/02/01
- Re: [sdx-developers] Le developpement de SDX, Frédéric Glorieux, 2005/02/01
- Re: [sdx-developers] Le developpement de SDX, Sylvain Wallez, 2005/02/04
- Re: [sdx-developers] Le developpement de SDX,
Pierrick Brihaye <=
- Re: [sdx-developers] Le developpement de SDX, Frédéric Glorieux, 2005/02/04
- Re: [sdx-developers] Le developpement de SDX, Pierrick Brihaye, 2005/02/04
- Re: [sdx-developers] Le developpement de SDX, Frédéric Glorieux, 2005/02/04
- Re: [sdx-developers] Le developpement de SDX, Pierrick Brihaye, 2005/02/04
- Re: [sdx-developers] Le developpement de SDX, Frédéric Glorieux, 2005/02/04
- Re: [sdx-developers] Le developpement de SDX, Pierrick Brihaye, 2005/02/04
- Re: [sdx-developers] Le developpement de SDX, Frédéric Glorieux, 2005/02/04
Re: [sdx-developers] Le developpement de SDX, Frédéric Glorieux, 2005/02/03