sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE : [sdx-users] Re: Le problème avec le codage wind ows -1251


From: Frédéric Glorieux
Subject: RE : [sdx-users] Re: Le problème avec le codage wind ows -1251
Date: Thu, 31 Jul 2003 09:20:17 +0200

> Bonjour!

Comment dit-on bonjour en russe ?

> Je demande aux pardons pour le  mien français!

You can also ask in english if you prefer.

> J'utilise SDX2, Jdk1 .3.1.
> à sdxtest - si j'utilise le codage UTF-8 dans les documents HTML et à 
> XML les formes, tout travaille en russe bien. 

D'où l'avantage d'UTF-8.

> Mais à l'utilisation du 
> codage windows-1251 à HTML les documents dans le nom, ainsi que dans 
> le contenu de ceux-ci, à après l'indexation sur la forme selon 
> URL:http://localhost:8080/sdx/sdxtest/admin.xsp je reçois le code 
> incompréhensible. S'il vous Plaît, vous m'aidez, pour comprendre ce 
> problème!

Je ne suis pas certain de bien comprendre.
Utilisez-vous SDX pour indexer un site HTML statique ? L'indexation
d'HTML n'est qu'un service annexe pour lequel peut de développements ont
été faits. Il faut savoir que SDX ne travaille que sur du XML. Pour
indexer un document HTML, il doit d'abord être transformé, travail
effectué par Tidy (http://www.w3.org/People/Raggett/tidy/
http://tidy.sourceforge.net/). Or Tidy ne supporte pas les formats
propriétaires (windows-*). Je cite la doc des paramètres 

char-encoding: raw, ascii, latin1, utf8 or iso2022

Determines how Tidy interprets character streams. For ascii, Tidy will
accept Latin-1 character values, but will use entities for all
characters whose value > 127. For raw, Tidy will output values above 127
without translating them into entities. For latin1 characters above 255
will be written as entities. For utf8, Tidy assumes that both input and
output is encoded as UTF-8. You can use iso2022 for files encoded using
the ISO2022 family of encodings e.g. ISO 2022-JP. The default is ascii.


A mon avis, pour la pérennité même de vos pages HTML, je vous conseille
de toutes les convertir, soit en ISO, et au mieux, en UTF-8. Est-ce chez
vous les utilisateurs de macintosh ou de linux sont capables de
correctement lire le windows-1251 ?


Frédéric Glorieux.





reply via email to

[Prev in Thread] Current Thread [Next in Thread]