sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE : [sdx-users] Ressemblance?


From: Martin Sevigny
Subject: RE : [sdx-users] Ressemblance?
Date: Tue, 11 Mar 2003 06:21:26 +0100

Bonjour,

> On étudie la possibilité de construire une solution 
> documentaire globale autour de SDX; apparemment il remplit la 
> plupart des critères, surtout grâce aux fonctions de thesaurus.

Tant mieux, vos efforts ne sont pas vains!

> SDX n'a certainement pas vocation à être un éditeur XML (et
> il en existe d'excellents gratuits); en revanche, on attend 
> du système futur (à l'instar du système documentaire actuel) 
> d'être capable, pour chaque nouveau document, d'effectuer une 
> proposition de sur-indexation à partir d'une analyse 
> statistique du corpus existant; en d'autres termes, le 
> système doit pouvoir suggérer les mots du thesaurus qui 
> conviendraient pour un document non- indexé, à partir des 
> documents présents dans l'index (et qui ont fait l'objet 
> d'une sur-indexation manuelle).

Oui, mais cela peut (doit?) se faire hors SDX, avant l'indexation, comme
l'enrichissement manuel, non?

> Une façon de l'implémenter pourrait être de rechercher dans
> le corpus les documents qui "ressemblent" le plus au document 
> en cours; si par exemple il existait un "coefficient de 
> ressemblance" (c) il suffirait de rechercher 10 premiers 
> documents du corpus dont le coefficient de ressemblance est 
> supérieur à c=telle valeur, et d'extraire les mots-clé des 
> documents trouvés pour les suggérer pour le document en 
> cours. (Il s'agit bien de suggérer: le documentaliste choisit 
> de retenir la suggestion ou non).

Pour approcher cela avec SDX tel qu'il est, vous pouvez faire une
requête Lucene/SDX qui contient tous les mots du document à indexer.
Normalement, le tri de pertinence devrait faire en sorte que les
premiers résultats seront les plus semblables au nouveau document. Il
suffit d'une petite XSLT pour extraire les mots clés qui auront été
ajoutés à ces documents trouvés, les ajouter au nouveau, et faire
valide.

En XSLT, trouver tous les mots du document, ça se fait ainsi :
<xls:value-of select="normalize-space(/*)"/>. Donc ça peut s'automatiser
très facilement.

A bientôt,

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]