sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: [sdx-users] html2xml


From: Emmanuel Bégué
Subject: RE: [sdx-users] html2xml
Date: Sun, 11 May 2003 22:33:53 +0200

... en fait j'ai réussi à utiliser tidy: il faut déclarer les
tags non-html pour qu'il accepte la transformation; c'est écrit
dans la doc, mais tout en bas, et seulement en commentaire de
l'option "new-inline-tags" où on lit "Unless you declare new
tags, Tidy will refuse to generate a tidied file if the input
includes previously unknown tags."

Cdt,
EB

> -----Message d'origine-----
> De : address@hidden
> [mailto:address@hidden la part
> de Emmanuel Bégué
> Envoyé : dimanche 11 mai 2003 22:19
> À : Sdx
> Objet : [sdx-users] html2xml
>
>
> Bonjour,
>
> Je cherche un outil capable de m'aider à transformer
> du html mal-formé (très mal-formé) en xml. Je sais bien
> que cette liste n'est pas l'endroit idoine pour poser la
> question mais, à l'appui de ma demande:
> - le xml généré sera utilisé dans une appli SDX
> - SDX étant capable d'indexer du html natif, les participants
> à la liste doivent s'être posé la question et avoir des
> réponses intéressantes...
>
> Mon raisonnement est de transformer d'abord le html en xhtml
> puis d'écrire une xsl ad hoc pour obtenir l'xml voulu.
>
> J'ai commencé à m'intéresser à tidy qui semblait être l'outil
> parfait pour cela; malheureusement je n'arrive pas à obtenir
> autre chose que "This document has errors that must be fixed
> before using HTML Tidy to generate a tidied up version." Or
> par définition, si je dois commencer par "réparer" les documents
> à transformer, on n'est pas rendus! (comme disait ma grand'mère).
>
> => quelqu'un a-t-il rencontré cette erreur et sait-il à
> quoi elle est due ou au moins comment la cerner? (apparemment
> tidy devrait être capable de survivre à n'importe quel html?
> donc c'est un bug?)
>
> Ensuite, j'ai regardé index-html.xsl de sdxworld qui est
> apparemment capable de transformer du html en xml; mais je ne
> comprends pas comment elle peut réussir à transformer du html
> mal-formé, ce qui est en principe impossible (et refusé par
> les éditeurs commerciaux ou par sablotron (erreur expat))?
>
> => comment est-ce que index-html.xsl fonctionne dans sdx?
> Est-ce une bonne piste pour écrire un convertisseur?
>
> Enfin, dernière question: quelqu'un connait-il un outil
> (windows de préférence...) pour transformer du html en xhtml,
> voire directement en xml?
>
> Cordialement,
> EB
>
>
>
> _______________________________________________
> sdx-users mailing list
> address@hidden
> http://mail.nongnu.org/mailman/listinfo/sdx-users





reply via email to

[Prev in Thread] Current Thread [Next in Thread]