sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Une base de documents sans entrepot?


From: Pierrick Brihaye
Subject: Re: [sdx-developers] Une base de documents sans entrepot?
Date: Fri, 16 Jul 2004 15:11:30 +0200
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.6) Gecko/20040113

Re,

Martin Sevigny a écrit :

Les repos qui verraient les bases de documents (aka index).

Ah...

En fait, pour ceux qui ont bien suivi mon propos ;-) je dis simplement (et sous une forme différente de celle que j'ai utilisée jusqu'à maintenant) que le "scope" (j'adore !) peut partir des repos vers les idnex et des idnex vers les repos.

Moralité : le "scope" est à géométrie variable et *devrait* être confié à la logique applicative. En clair : repo et index sont distincts, sans aucun rapport de dépendance entre eux. Trop lourd pour SDX 2.x :-(

C'est ce postulat auquel je n'adhère pas. ID = *un* champ (Lucene), aya,t une valeur unique dans le scope qui plus est. Moi, je peux avoir besoin de N champs Lucene, éventuellement multivalués, pour construire de quoi retrouver mon document (idéalement, via un reader Cocoon).

Je comprends. Je n'avais pas vu cela dans ta remarque.

Le plus dur était de trouver l'exemple :-)

En fait, au lieu de passer un "champ" (l'identifiant), on passe tous les champs stockés pour un document?

Voui : dans la mesure où ils peuvent aider à constituer un truc "univoque". J'ajoute que l'on pourrait "pipeliner" d'autres infos. Exemple (réel ;-) :

company=CRL
flight_number=881
departure=Montreal/Mirabel
arrival=Paris/Orly

Ca, ça définit un vol ;-) C'est prérenne et pas trop variable dans le temps donc... cherchable :-)

Maintenant, si je fais passer dans mon pipeline :

date=now (expandé en 2004/07/15 15:10)

... et bien je peux mettre en place un "tracker" d'avions totalement univoque !

Et as-tu besoin de plus d'un "document" dans Lucene pour retrouver un document dans tes entrepôts, ou bien seulement plusieurs champs d'un même document?

Ben... à la limite, le top du top, ça serait un vrai pipeline dans lequel on enverrait les documents d'indexation. Le document, c'est un travail de reader ou, dans le cas, que je viens de décrire d'un sérialiseur: à lui de se démerder avec les paramètres qu'il reçoit.

A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78




reply via email to

[Prev in Thread] Current Thread [Next in Thread]