Re: [sdx-users] Fichiers temporaires et mémoire qui exploise

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Fichiers temporaires et mémoire qui exploise

From:	Nader Boutros
Subject:	Re: [sdx-users] Fichiers temporaires et mémoire qui exploise
Date:	Tue, 06 Dec 2005 15:48:46 +0100
User-agent:	Mozilla Thunderbird 1.0.6 (Windows/20050716)

Bonjour,

Merci pour la réponse Martin, j'avais commencé à desespérer ;-)

Martin Sevigny a écrit :

Pour chaque enregistrement oai_dc moissonné, il y a deux fichierstemporaire, 8 enregistrements dans la table du documenttype et 2enregistrement dans la table repo correspondante. Donc dès que jedépasse 8000 documents indexés, j'arrive à 1.5Go de mémoire utiliséepuis un Out of Memory le temps que mon winXP realloue plus de mémoirevirtuelle ... Est-ce normal ?
Non, pas du tout! C'est vraiment bizarre comme comportement. 8000
documents indexés, c'est très peu. Et je ne comprends pas pourquoi il a
_deux_ fichiers temporaires par enregistrement OAI...

Ils sont en plus des fichiers vides (taille 0 octet) et si j'ouvre undans un editeur de texte, il est bien vide. Je vous ai mis un enattachement pour le fun ;-) Je me demande pourquoi SDX a besoin de créerces fichiers quand on lui indique une base données pour le stockage desdocuments.

Aussi, qu'est-ce que tu appelles la table du documenttype? Les
métadonnées de la base de documents SDX? Et quel type de repo tu as, le
nombre de ligne peut en dépendre...


J'ai suivi les instructions décrites par Pierre ici :
http://xtogen.tech.fr/wiki/sdx:configurer_sdx_pour_utiliser_mysql

S'il y a quelquechose d'erronné, tu peux corriger. J'ai téléchargé undriver MySQL et suivi la procédure... J'ai déactivé le driver MySQLfourni avec SDX parcequ'on ne sait pas comment le configurer!

Ceci étant dit, les chiffres 2, 8 et 2 ici me laissent croire que tu as
en fait les informations de deux moissons, amis je peux me tromper.


Possible ...

*2*  Fichiers temporaires dans /temp de tomcat

Je n'ai d'exemple je les supprime au fur et à mesure mais en gros pour100 documents indexés j'ai 200 fichiers temporaires ... Je vais refairele test à l'occasion et vous envoyer un extrait.


Chez moi, SDX crée deux tables pour le typedoc "metadata" de l'appli "dc" :
- dc_metadata
- dc_metadatarepo

*8* Un enregistrement OAI exemple de la table dc_metadata .... Je n'aitrouvé que 7 désolé :

INSERT INTO `dc_metadata` VALUES('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'sdxDocType','xml', 9155);INSERT INTO `dc_metadata` VALUES('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'mimetype','text/xml', 9156);INSERT INTO `dc_metadata` VALUES('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'repo','metadataRepo', 9157);INSERT INTO `dc_metadata` VALUES('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html','content-length', '1682', 9158);INSERT INTO `dc_metadata` VALUES('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'sdxDocType','xml', 9159);INSERT INTO `dc_metadata` VALUES('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'mimetype','text/xml', 9160);INSERT INTO `dc_metadata` VALUES('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'original','o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 9161);

*2* Un enregistrement OAI exemple de la table dc_metadatarepo :

INSERT INTO `dc_metadatarepo` VALUES('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', blob...);INSERT INTO `dc_metadatarepo` VALUES('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', blob...);

Est-ce que cela veut dire qu'il a été moissonné deux fois ? Si ouicomment l'éviter ?

Surtout s'il faut arrêter l'ordinateur au cours d'un moissonnage ;-)comment faire ?

Où est ce que SDX reprend le moissonnage surtout quand le premiermoissonnage d'un site n'est pas terminé ?

Pourquoi il y a autant d'enregistrements dans MySQL dans deux tablespour un seul enregistrement oai_dc?

Par ailleurs, moissonner 8000 enregistrements, même doublés, ne doit pas
demander 1,5Go de mémoire... sauf si chaque enregistrement est _très_
gros...

Tu peux nous en dire plus?

Il s'agit de moissonner (moissonnage aveugle) les enregistrements oai_dcde plusieurs entrepôts. Ils ne sont pas de gros fichiers.

J'ai alloué 1Go à JAVA. A mon avis, tomcat remplit la mémoire tant qu'ily a de la place ;-) Si vous avez des idées ... Je suis preneur.

Mais finalement pour mon objectif, j'ai trouvé un outil GPL en PHP/MySQLqui fait cette tâche de moissonnage parfaitement sans aucune surchargedu système :

http://pkp.sfu.ca/pkp-harvester/ et oui ce sont aussi des canadiens ;-)

A bientôt.
Nader Boutros

[Prev in Thread]

Current Thread

[Next in Thread]

Re: [sdx-users] Fichiers temporaires et mémoire qui exploise, Martin Sevigny, 2005/12/02
- Re: [sdx-users] Fichiers temporaires et mémoire qui exploise, Nader Boutros <=

Prev by Date: RE: [sdx-users] Suppression+ re-création d'u ne application enchainé avec une indexation (dans la foulée)
Next by Date: Re: [sdx-users] sdx branche head et le moissonnage
Previous by thread: Re: [sdx-users] Fichiers temporaires et mémoire qui exploise
Next by thread: [sdx-users] Problème de suppression
Index(es):
- Date
- Thread