sdx-developers
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-developers] Fragmenter une base de documents et un index Lucene


From: Pierrick Brihaye
Subject: Re: [sdx-developers] Fragmenter une base de documents et un index Lucene
Date: Thu, 15 Jul 2004 09:30:13 +0200
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.6) Gecko/20040113

Re,

Martin Sevigny a écrit :

On pourrait par exemple le faire ainsi:

<sdx:documentBase>
  <sdx:split size="500m" nbDocuments="500000"/>
  ...
</sdx:document>

<sdx:index> ? Mais redondant avec le pipeline du ùmême nom :-(

Pour l'indexation, et bien il indexerait toujours dans le "dernier"
index, le reste est pareil. Avant de commencer à indexer un lot de
documents, il vérifie si le dernier index dépasse pas les
caractéristiques indiquées ; si non, il les indexe dans celui-ci, si oui
il en crée un nouveau et il indexe dans ce nouveau, qui devient le
"dernier" ou l'index en cours.

Ici aussi, prévoir des variables "de maintenance" ? IsIndexFull, GetIndexDocumentCount...

Toutefois, s'il y en a plusieurs, comment faire pour savoir dans quel
index il se trouve? A mon avis, il y deux stratégies "naïves":

a) on fait une recherche dans chaque index et dès qu'on le trouve on le
supprime... S'il y a beaucoup d'index ce n'est pas très efficace.

b) je garderais l'identité de l'index Lucene qui contient un document
dans les "métadonnées SDX" (database) sur ce document. On a déjà
l'entrepôt, et donc on doit déjà chercher dans cette database lors d'une
suppression, il s'agit d'ajouter ce nouveau paramètre et d'en tenir
compte. Sauf que cela pose la question de la compatibilité, car pour
l'instant cette information ne s'y trouve pas. Donc il faudrait
peut-être une seconde stratégie si elle ne s'y trouve pas, c'est-à-dire
on les cherche un par un... Et évidemment, s'il y a un seul index, on ne
s'embête pas à vérifier tout cela...

Vous voyez une autre approche?

Mmmh... pas pour l'instant mais on rejoint la discussion suivante IMHO. A tout de suite donc...

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78




reply via email to

[Prev in Thread] Current Thread [Next in Thread]