sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation de pages HTML


From: Frédéric Glorieux
Subject: Re: [sdx-users] indexation de pages HTML
Date: Tue, 30 Sep 2003 22:24:55 +0200
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916


Bonjour,

Ca n'a peut être pas de rapport en l'espèce, mais j'avais
rencontré le problème d'un html contenant des balises
propriétaires, qui est refusé par Tidy en standard (rejet
pur et simple du traitement); si le html à "tidyifier" contient
des balises propriétaires celles-ci doivent en principe être
déclarées dans un fichier de configuration.

Il y a peut-être un moyen de désactiver ce comportement par
défaut, mais je ne l'ai pas trouvé: en attendant, on doit au
préalable faire l'inventaire des balises propriétaires du
corpus à indexer.

Cdt,
EB

Le tidy livré avec SDX a été un peu réécrit, en particulier pour supporter les instructions de traitements MS.word. Pour savoir quel est la configuration qui colle avec vos HTML (sans scripts mal commodes), je connais bien ce client

http://perso.wanadoo.fr/ablavier/TidyGUI/#download

Celui là semble plus récent
        
http://users.rcn.com/creitzel/tidy.html#tidyui





reply via email to

[Prev in Thread] Current Thread [Next in Thread]