freecats-dev
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[Freecats-Dev] Zebra et Free CATS (suite)


From: Henri Chorand
Subject: [Freecats-Dev] Zebra et Free CATS (suite)
Date: Fri, 17 Jan 2003 01:35:13 +0100
User-agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.0.1) Gecko/20020830

Bonjour Philippe,

Je suis l'évolution de ton projet qui prend tournure petit à petit.

Oui - grâce aux efforts de notre petite équipe, comme à la disponibilité et à la gentillesse de développeurs confirmés comme toi qui, chacun dans leur domaine, apportent un recul enrichissant et plein de bonnes idées.

Si tu permets, je mets en copie sur notre liste de discussion toute neuve sur Savannah - oui, ils ont accepté notre projet :-)) et sur laquelle je ne peux que t'inviter à t'inscrire, sur:
http://savannah.nongnu.org/projects/freecats/
En principe elle est en anglais mais bon... ce soir je fais des exceptions.

> > Connais-tu:
> > http://www.indexdata.dk/zebra/

Je ne connais pas ce système d'indexation.
Parmi les free, GNU ou autres, on trouve quelques applications comme
> Htdig qui gèrent de grosses quantités de données. En général ils
> utilisent la base de données Berkekey DB (www.sleepycat.com)  qui est
> ce qui se fait de mieux dans le domaine si l'on utilise pas de
> requêtes SQL.

Nous voulons créer un serveur de mémoire de traduction (base de données), comme de juste en adaptant à moindres frais un existant et non en réinventant la roue.

Basiquement, nous avons besoin de stocker et d'indexer des informations de type chaîne de caractères, de longueur variable. Note que si nous prévoyons de mémoriser des données de type texte balisé (XML et HTML), il s'agit de "bouts" (segments, ou phrases), accompagnés:
- de quelques données simples (horodatages, + quelques valeurs)
- de la traduction (texte variable itou).

Comme pour SPIRIT, la mise à jour de l'existant n'est pas le souci, par contre il nous faudra optimiser les requêtes en lecture.

La grosse faiblesse de ces systèmes est le mode d'interrogation qui
> est très fruste. Au mieux, ils compensent par une prise en compte
> assez fine de la structure du document qui est possible en XML.
> C'est semble t-il le cas de zebra.

Oui, il a l'air bien pour ça (et pour l'optimisation).

Par ailleurs, ces produits sont essentiellement destinés au monde
> anglophone pour lequel un mode fruste d'interrogation n'est pas
> trop pénalisant en première approche.

Nous n'avons pas besoin de traitement sémantique (intelligent). Notre indexation devra inclure:
- chacun des mots de la phrase source, ainsi que leur séquence
- les sous-chaînes (n-grammes, je crois) de chacun de ces mots (pas besoin d'intelligence ici, c'est pour les mots composés et nous voulons ajouter le plus grand nombre possible de langues sans que cela représente un trop grop travail)
- les balises de mise en forme
(probablement sous une forme simplifiée, par exemple uniquement "balise X" ou "balise de début Y" (...) "balise de fin Y" car nous n'avons besoin de rien d'autre: les véritables balises insérées dans la traduction proviendront non de la mémoire de traduction, mais de la phrase)

La dite intelligence du système sera donc présente au niveau de l'indexation. Les requêtes fonctionneront en concordances floues (fuzzy matching). Nous prévoyons donc des pondérations empiriques qui devraient donner des résultats tout à fait satisfaisants.

A mon avis, il peut être très intéressant d'en prendre un comme
> zebra qui a un système d'interrogation assez ouvert mais fruste
> et de l'enrichir via un processeur frontal de questions.

En fait, nous pensons prendre le système (bien modulaire et performant) le plus fruste possible, en ce sens Zebra est peut-être déjà trop compliqué. Disons que dans notre recherche, nous avons commencé par penser à un SGBD XML, mais à la réflexion, l'aspect structure XML semble un souci (complexité) inutile. D'une part nous n'allons stocker que des petits bouts de phrase et non la structure de documents XML complets, d'autre part nous ne voulons pas rentrer dedans. En effet, pour les documents HTML par exemple, il est de notoriété publique que la structure de la plupart des documents publiés couramment est invalide du point de vue du XML (or nous voulons néanmoins les traduire) et de plus nous ne devons PAS toucher à cette structure, quelle qu'elle soit.

Tu trouveras sur http://xmlfr.org d'autres produits intéressants
> qui ne sont pas tous gratuits.

Bref, encore merci pour tes suggestions, et n'hésite pas à nous faire part de toutes tes bonnes idées!

Je crois que je t'ai déjà transmis notre document de spécifications (en cours d'élaboration). Dans le doute, je te remets en pièce jointe (RTF - je ne sais pas si tu as Open Office).


Cordialement,

Henri Chorand

Attachment: Development_Roadmap_0.0.rtf
Description: RTF file


reply via email to

[Prev in Thread] Current Thread [Next in Thread]