sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-users] SDX peut désormais indexer de l'a rabe


From: Pierrick Brihaye
Subject: [sdx-users] SDX peut désormais indexer de l'a rabe
Date: Tue, 30 Sep 2003 19:05:50 +0200

Bonsoir,

J'ai rédigé un analyseur arabe pour Lucene et j'ai intégré son support dans
le code de SDX. Cet analyseur arabe est une adaptation à un contexte
d'indexation et de recherche plein-texte de l'analyseur morphologique arabe
v. 1.0 de Tim Buckwalter
(http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2002L49), à
l'origine écrit dans l'horrible langage Perl :-).

Le tout est en GPL à l'instar de SDX.

A l'analyseur, j'ai ajouté un moteur très basique d'équivalences
anglais/arabe.

Les heureux bénéficiaires d'un accès CVS peuvent d'ores et déjà télécharger
la branche HEAD de SDX qui contient tout le matériel nécessaire (y compris
certains patches qui ont du être appliqués à SDX).

Ceux qui ne disposent pas d'accès CVS peuvent se contenter de télécharger
l'analyseur (et ses applis de démo) à partir d'ici :
http://perso.wanadoo.fr/pierrick.brihaye/ArabicAnalyzer.jar. Cet accès est
naturellement provisoire car je compte ouvrir un projet chez Savannah ou
ailleurs.

Je précise 2 choses :

1) Je comptais offrir la partie Lucene de l'analyseur au projet Jakarta
Lucene, mais il semblerait que les projets Apache aient du mal à héberger du
code en GPL. Ceci explique l'utilisation désormais provisoire de packages
org.apache.lucene ; ne comptez donc pas trop sur ce plan de nommage...
2) Ceux qui sont intéressés par la maintenance et l'animation d'un site
dédié à l'analyseur peuvent me contacter :-)

Comme SDX ne sert à rien sans application, j'ai placé une appli de démo très
basique dans le CVS de SDX, module : demos/quran. Je préviens de suite qu'il
y a un problème dans le surligneur arabe d'une recherche... en anglais. J'y
travaillerai... quand je pourrai.

Toute critique/suggestion/CSS/patch sont bienvenus. Pour ma part, je suis
près à donner toutes les précisions nécessaires.

A bientôt,

p.b.







reply via email to

[Prev in Thread] Current Thread [Next in Thread]