sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Fichiers temporaires et mémoire qui exploise


From: Nader Boutros
Subject: Re: [sdx-users] Fichiers temporaires et mémoire qui exploise
Date: Tue, 06 Dec 2005 15:48:46 +0100
User-agent: Mozilla Thunderbird 1.0.6 (Windows/20050716)

Bonjour,

Merci pour la réponse Martin, j'avais commencé à desespérer ;-)

Martin Sevigny a écrit :

Pour chaque enregistrement oai_dc moissonné, il y a deux fichiers temporaire, 8 enregistrements dans la table du documenttype et 2 enregistrement dans la table repo correspondante. Donc dès que je dépasse 8000 documents indexés, j'arrive à 1.5Go de mémoire utilisée puis un Out of Memory le temps que mon winXP realloue plus de mémoire virtuelle ... Est-ce normal ?


Non, pas du tout! C'est vraiment bizarre comme comportement. 8000
documents indexés, c'est très peu. Et je ne comprends pas pourquoi il a
_deux_ fichiers temporaires par enregistrement OAI...

Ils sont en plus des fichiers vides (taille 0 octet) et si j'ouvre un dans un editeur de texte, il est bien vide. Je vous ai mis un en attachement pour le fun ;-) Je me demande pourquoi SDX a besoin de créer ces fichiers quand on lui indique une base données pour le stockage des documents.

Aussi, qu'est-ce que tu appelles la table du documenttype? Les
métadonnées de la base de documents SDX? Et quel type de repo tu as, le
nombre de ligne peut en dépendre...

J'ai suivi les instructions décrites par Pierre ici :
http://xtogen.tech.fr/wiki/sdx:configurer_sdx_pour_utiliser_mysql
S'il y a quelquechose d'erronné, tu peux corriger. J'ai téléchargé un driver MySQL et suivi la procédure... J'ai déactivé le driver MySQL fourni avec SDX parcequ'on ne sait pas comment le configurer!

Ceci étant dit, les chiffres 2, 8 et 2 ici me laissent croire que tu as
en fait les informations de deux moissons, amis je peux me tromper.

Possible ...

*2*  Fichiers temporaires dans /temp de tomcat
Je n'ai d'exemple je les supprime au fur et à mesure mais en gros pour 100 documents indexés j'ai 200 fichiers temporaires ... Je vais refaire le test à l'occasion et vous envoyer un extrait.

Chez moi, SDX crée deux tables pour le typedoc "metadata" de l'appli "dc" :
- dc_metadata
- dc_metadatarepo

*8* Un enregistrement OAI exemple de la table dc_metadata .... Je n'ai trouvé que 7 désolé :

INSERT INTO `dc_metadata` VALUES ('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'sdxDocType', 'xml', 9155); INSERT INTO `dc_metadata` VALUES ('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'mimetype', 'text/xml', 9156); INSERT INTO `dc_metadata` VALUES ('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'repo', 'metadataRepo', 9157); INSERT INTO `dc_metadata` VALUES ('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'content-length', '1682', 9158); INSERT INTO `dc_metadata` VALUES ('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'sdxDocType', 'xml', 9159); INSERT INTO `dc_metadata` VALUES ('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'mimetype', 'text/xml', 9160); INSERT INTO `dc_metadata` VALUES ('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'original', 'o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 9161);
*2* Un enregistrement OAI exemple de la table dc_metadatarepo :

INSERT INTO `dc_metadatarepo` VALUES ('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', blob...); INSERT INTO `dc_metadatarepo` VALUES ('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', blob...);

Est-ce que cela veut dire qu'il a été moissonné deux fois ? Si oui comment l'éviter ?

Surtout s'il faut arrêter l'ordinateur au cours d'un moissonnage ;-) comment faire ?

Où est ce que SDX reprend le moissonnage surtout quand le premier moissonnage d'un site n'est pas terminé ?

Pourquoi il y a autant d'enregistrements dans MySQL dans deux tables pour un seul enregistrement oai_dc?

Par ailleurs, moissonner 8000 enregistrements, même doublés, ne doit pas
demander 1,5Go de mémoire... sauf si chaque enregistrement est _très_
gros...

Tu peux nous en dire plus?

Il s'agit de moissonner (moissonnage aveugle) les enregistrements oai_dc de plusieurs entrepôts. Ils ne sont pas de gros fichiers.

J'ai alloué 1Go à JAVA. A mon avis, tomcat remplit la mémoire tant qu'il y a de la place ;-) Si vous avez des idées ... Je suis preneur.

Mais finalement pour mon objectif, j'ai trouvé un outil GPL en PHP/MySQL qui fait cette tâche de moissonnage parfaitement sans aucune surcharge du système :
http://pkp.sfu.ca/pkp-harvester/ et oui ce sont aussi des canadiens ;-)

A bientôt.
Nader Boutros





reply via email to

[Prev in Thread] Current Thread [Next in Thread]