sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-users] indexation automatique full te xt : état de l'art (incomple


From: maisonneuve nico
Subject: [sdx-users] indexation automatique full te xt : état de l'art (incomplet)
Date: Wed, 14 May 2003 13:07:08 +0000

je voulais faire le point sur les méthodes d'indexation automatique full-text
ce que l'on peut faire pour l'indexation et ce que permet SDX
(de façon très brève)


on a 2 modes d'indexation :

-Indexation manuelle : porte sur des concepts pouvant être des termes n'étant pas dans le document, représentés par des mots-clé résultants de l'analyse humaine du document. Indexation = représentation extérieure, forcément réductrice du contenu.

- Indexation automatisée sur un texte intégral : porte sur l'analyse des mots des documents
**************************************************************
=>but :arriver à extraire les concepts caractéristiques du document et à les transformer dans un langage documentaire permettant la recherche et la classification
***************************************************************


c'est ce dernier qui nous interessse ici


POUR INDEXATION AUTOMATIQUE *FULL-TEXT*

dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes

2 types d'analyses : linguistique, statistique

***** linguistique (surement la plus complexe) ******

- segmentation du texte en termes :segmentation en termes simples ou composées limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme de terre' sera indexé en 2 concepts 'pomme' et 'terre'


je voulais faire le point sur les méthodes d'indexation automatique full-text
ce que l'on peut faire pour l'indexation et ce que permet SDX
(de façon très brève)

on a 2 modes d'indexation :

-Indexation manuelle : porte sur des concepts pouvant être des termes n'étant pas dans le document, représentés par des mots-clé résultants de l'analyse humaine du document. Indexation = représentation extérieure, forcément réductrice du contenu.

- Indexation automatisée sur un texte intégral : porte sur les mots des documents
**************************************************************
=>but :arriver à extraire les concepts importants du document.
***************************************************************


c'est ce dernier qui nous interessse ici


DANS INDEXATION AUTOMATIQUE FULL-TEXT
dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes

2 types d'analyses : linguistique, statistique

***** linguistique (surement la plus complexe) ******

- segmentation du texte en termss :segmentation en termes simples ou composées limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme de terre' sera indexé en 2 concepts 'pomme' et 'terre'

- suppression des mots vides de sens
OK

-contrôle des terms à indexer
par directement mais possible

- analyse morphologique
lemmatisation non gérée par SDX

- analyse syntaxique non gérée par SDX
- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simples seulement...!) trouvés par rapport au thésaurus mais ne gere pas l'ambiguité du sens, ni le regroupement en concepts plus globals


****** Statistique ******
cacul de fréquence
méthode TF-IDF  : oui par SDX (lucene)




bon mon truc est vraiment tres trés bref..

j'attend vos remarques

nico

_________________________________________________________________
Téléchargez gratuitement MSN Messenger ! http://www.msn.fr/msger/default.asp





reply via email to

[Prev in Thread] Current Thread [Next in Thread]