[Freecats-Dev] Zebra et Free CATS (suite)

freecats-dev

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[Freecats-Dev] Zebra et Free CATS (suite)

From:	Henri Chorand
Subject:	[Freecats-Dev] Zebra et Free CATS (suite)
Date:	Fri, 17 Jan 2003 01:35:13 +0100
User-agent:	Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.0.1) Gecko/20020830

Bonjour Philippe,

Je suis l'évolution de ton projet qui prend tournure petit à petit.

Oui - grâce aux efforts de notre petite équipe, comme à la disponibilitéet à la gentillesse de développeurs confirmés comme toi qui, chacun dansleur domaine, apportent un recul enrichissant et plein de bonnes idées.

Si tu permets, je mets en copie sur notre liste de discussion touteneuve sur Savannah - oui, ils ont accepté notre projet :-)) et surlaquelle je ne peux que t'inviter à t'inscrire, sur:

http://savannah.nongnu.org/projects/freecats/
En principe elle est en anglais mais bon... ce soir je fais des exceptions.

> > Connais-tu:
> > http://www.indexdata.dk/zebra/

Je ne connais pas ce système d'indexation.
Parmi les free, GNU ou autres, on trouve quelques applications comme

> Htdig qui gèrent de grosses quantités de données. En général ils
> utilisent la base de données Berkekey DB (www.sleepycat.com)  qui est
> ce qui se fait de mieux dans le domaine si l'on utilise pas de
> requêtes SQL.

Nous voulons créer un serveur de mémoire de traduction (base dedonnées), comme de juste en adaptant à moindres frais un existant et nonen réinventant la roue.

Basiquement, nous avons besoin de stocker et d'indexer des informationsde type chaîne de caractères, de longueur variable. Note que si nousprévoyons de mémoriser des données de type texte balisé (XML et HTML),il s'agit de "bouts" (segments, ou phrases), accompagnés:

- de quelques données simples (horodatages, + quelques valeurs)
- de la traduction (texte variable itou).

Comme pour SPIRIT, la mise à jour de l'existant n'est pas le souci, parcontre il nous faudra optimiser les requêtes en lecture.

La grosse faiblesse de ces systèmes est le mode d'interrogation qui

> est très fruste. Au mieux, ils compensent par une prise en compte
> assez fine de la structure du document qui est possible en XML.
> C'est semble t-il le cas de zebra.

Oui, il a l'air bien pour ça (et pour l'optimisation).

Par ailleurs, ces produits sont essentiellement destinés au monde

> anglophone pour lequel un mode fruste d'interrogation n'est pas
> trop pénalisant en première approche.

Nous n'avons pas besoin de traitement sémantique (intelligent). Notreindexation devra inclure:

- chacun des mots de la phrase source, ainsi que leur séquence

- les sous-chaînes (n-grammes, je crois) de chacun de ces mots (pasbesoin d'intelligence ici, c'est pour les mots composés et nous voulonsajouter le plus grand nombre possible de langues sans que celareprésente un trop grop travail)

- les balises de mise en forme

(probablement sous une forme simplifiée, par exemple uniquement "baliseX" ou "balise de début Y" (...) "balise de fin Y" car nous n'avonsbesoin de rien d'autre: les véritables balises insérées dans latraduction proviendront non de la mémoire de traduction, mais de la phrase)

La dite intelligence du système sera donc présente au niveau del'indexation. Les requêtes fonctionneront en concordances floues (fuzzymatching). Nous prévoyons donc des pondérations empiriques qui devraientdonner des résultats tout à fait satisfaisants.

A mon avis, il peut être très intéressant d'en prendre un comme

> zebra qui a un système d'interrogation assez ouvert mais fruste
> et de l'enrichir via un processeur frontal de questions.

En fait, nous pensons prendre le système (bien modulaire et performant)le plus fruste possible, en ce sens Zebra est peut-être déjà tropcompliqué. Disons que dans notre recherche, nous avons commencé parpenser à un SGBD XML, mais à la réflexion, l'aspect structure XML sembleun souci (complexité) inutile.D'une part nous n'allons stocker que des petits bouts de phrase et nonla structure de documents XML complets, d'autre part nous ne voulons pasrentrer dedans.En effet, pour les documents HTML par exemple, il est de notoriétépublique que la structure de la plupart des documents publiés courammentest invalide du point de vue du XML (or nous voulons néanmoins lestraduire) et de plus nous ne devons PAS toucher à cette structure,quelle qu'elle soit.

Tu trouveras sur http://xmlfr.org d'autres produits intéressants

> qui ne sont pas tous gratuits.

Bref, encore merci pour tes suggestions, et n'hésite pas à nous fairepart de toutes tes bonnes idées!

Je crois que je t'ai déjà transmis notre document de spécifications (encours d'élaboration). Dans le doute, je te remets en pièce jointe (RTF -je ne sais pas si tu as Open Office).



Cordialement,

Henri Chorand

Development_Roadmap_0.0.rtf
Description: RTF file

[Prev in Thread]

Current Thread

[Next in Thread]

[Freecats-Dev] Zebra et Free CATS (suite), Henri Chorand <=

Prev by Date: [Freecats-Dev] OSCATS Project Road Map document
Next by Date: [Freecats-Dev] Splitting Specifications Document - comments?
Previous by thread: [Freecats-Dev] OSCATS Project Road Map document
Next by thread: [Freecats-Dev] Splitting Specifications Document - comments?
Index(es):
- Date
- Thread