sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-users] html2xml


From: Emmanuel Bégué
Subject: [sdx-users] html2xml
Date: Sun, 11 May 2003 22:18:33 +0200

Bonjour,

Je cherche un outil capable de m'aider à transformer
du html mal-formé (très mal-formé) en xml. Je sais bien
que cette liste n'est pas l'endroit idoine pour poser la
question mais, à l'appui de ma demande:
- le xml généré sera utilisé dans une appli SDX
- SDX étant capable d'indexer du html natif, les participants
à la liste doivent s'être posé la question et avoir des
réponses intéressantes...

Mon raisonnement est de transformer d'abord le html en xhtml
puis d'écrire une xsl ad hoc pour obtenir l'xml voulu.

J'ai commencé à m'intéresser à tidy qui semblait être l'outil
parfait pour cela; malheureusement je n'arrive pas à obtenir
autre chose que "This document has errors that must be fixed
before using HTML Tidy to generate a tidied up version." Or
par définition, si je dois commencer par "réparer" les documents
à transformer, on n'est pas rendus! (comme disait ma grand'mère).

=> quelqu'un a-t-il rencontré cette erreur et sait-il à
quoi elle est due ou au moins comment la cerner? (apparemment
tidy devrait être capable de survivre à n'importe quel html?
donc c'est un bug?)

Ensuite, j'ai regardé index-html.xsl de sdxworld qui est
apparemment capable de transformer du html en xml; mais je ne
comprends pas comment elle peut réussir à transformer du html
mal-formé, ce qui est en principe impossible (et refusé par
les éditeurs commerciaux ou par sablotron (erreur expat))?

=> comment est-ce que index-html.xsl fonctionne dans sdx?
Est-ce une bonne piste pour écrire un convertisseur?

Enfin, dernière question: quelqu'un connait-il un outil
(windows de préférence...) pour transformer du html en xhtml,
voire directement en xml?

Cordialement,
EB





reply via email to

[Prev in Thread] Current Thread [Next in Thread]