[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[sdx-users] indexation automatique full te xt : état de l'art (incomple
From: |
maisonneuve nico |
Subject: |
[sdx-users] indexation automatique full te xt : état de l'art (incomplet) |
Date: |
Wed, 14 May 2003 13:07:08 +0000 |
je voulais faire le point sur les méthodes d'indexation automatique
full-text
ce que l'on peut faire pour l'indexation et ce que permet SDX
(de façon très brève)
on a 2 modes d'indexation :
-Indexation manuelle : porte sur des concepts pouvant être des termes
n'étant pas dans le document, représentés par des mots-clé résultants de
l'analyse humaine du document. Indexation = représentation extérieure,
forcément réductrice du contenu.
- Indexation automatisée sur un texte intégral : porte sur l'analyse des
mots des documents
**************************************************************
=>but :arriver à extraire les concepts caractéristiques du document et à les
transformer dans un langage documentaire permettant la recherche et la
classification
***************************************************************
c'est ce dernier qui nous interessse ici
POUR INDEXATION AUTOMATIQUE *FULL-TEXT*
dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes
2 types d'analyses : linguistique, statistique
***** linguistique (surement la plus complexe) ******
- segmentation du texte en termes :segmentation en termes simples ou
composées
limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme de
terre' sera indexé en 2 concepts 'pomme' et 'terre'
je voulais faire le point sur les méthodes d'indexation automatique
full-text
ce que l'on peut faire pour l'indexation et ce que permet SDX
(de façon très brève)
on a 2 modes d'indexation :
-Indexation manuelle : porte sur des concepts pouvant être des termes
n'étant pas dans le document, représentés par des mots-clé résultants de
l'analyse humaine du document. Indexation = représentation extérieure,
forcément réductrice du contenu.
- Indexation automatisée sur un texte intégral : porte sur les mots des
documents
**************************************************************
=>but :arriver à extraire les concepts importants du document.
***************************************************************
c'est ce dernier qui nous interessse ici
DANS INDEXATION AUTOMATIQUE FULL-TEXT
dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes
2 types d'analyses : linguistique, statistique
***** linguistique (surement la plus complexe) ******
- segmentation du texte en termss :segmentation en termes simples ou
composées
limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme de
terre' sera indexé en 2 concepts 'pomme' et 'terre'
- suppression des mots vides de sens
OK
-contrôle des terms à indexer
par directement mais possible
- analyse morphologique
lemmatisation non gérée par SDX
- analyse syntaxique non gérée par SDX
- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simples
seulement...!) trouvés par rapport au thésaurus
mais ne gere pas l'ambiguité du sens, ni le regroupement en concepts plus
globals
****** Statistique ******
cacul de fréquence
méthode TF-IDF : oui par SDX (lucene)
bon mon truc est vraiment tres trés bref..
j'attend vos remarques
nico
_________________________________________________________________
Téléchargez gratuitement MSN Messenger ! http://www.msn.fr/msger/default.asp
- [sdx-users] indexation automatique full te xt : état de l'art (incomplet),
maisonneuve nico <=