sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Le developpement de SDX


From: Pierrick Brihaye
Subject: Re: [sdx-developers] Le developpement de SDX
Date: Fri, 04 Feb 2005 11:00:41 +0100
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.6) Gecko/20040113

Salut,

Mes 2 centimes dans cette discussion...

Frédéric Glorieux a écrit :

La logique est bien d'utiliser la démonstration lucene d'un indexeur XML générique ?

C'est bien le noeud du problème IMHO car ça induit 3 choses qui ont tout intérêt à être clairement segmentées :

- quoi indexer ?
- où l'indexer ?
- comment exploiter l'indexation ?

Dans SDX, la première question est traitée de façon assez élégante : on passe un document, on en isole éventuellement les sémantiques désirées (via une transformation le plus souvent) et on passe à l'indexeur. Bref, on en arrive bien à ce que je désire : un document d'indexation pouvant, le cas échéant, n'avoir rien à voir avec le document d'origine.

Sur la deuxième, tout le monde sera d'accord : Lucene qui, pour moi, réprésente ce que l'on fait de mieux et que l'on devrait trouver plus souvent dans différents projets Open Source (v. par exemple http://sourceforge.net/tracker/index.php?func=detail&aid=1069335&group_id=17691&atid=367691 ;-).

La dernière question est un peu plus compliquée car elle découle du choix même de Lucene, ce qui nous impose de reprendre son architecture (champs stockés, tris pré-programmés, analyseurs, Queryparser). Il fût un temps où il n'était pas évident de persuader les gars de Lucene de mettre un peu d'abstraction là-dedans ; heureusement, les développements récents me semblent aller dans le bon sens.

En clair, l'architecture actuelle de Lucene nous oblige à renoncer à avoir un contrôle total sur l'index, tant dans la façon dont il est alimenté, que dans la façon de l'exploiter (recherche).

Cela demande à ne plus faire rentrer n'importe quel XML à l'indexation, mais cela fait des index mieux contôlés, et donc plus précisément interrogeables (recherche avancée).

C'est, personnellement, ce qui m'intéresse même si je reconnais que ces exigences vont très au-delà des besoins courants.

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78




reply via email to

[Prev in Thread] Current Thread [Next in Thread]