sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation automat ique full text : état de l'art (inc


From: Pierrick Brihaye
Subject: Re: [sdx-users] indexation automat ique full text : état de l'art (inc omplet)
Date: Wed, 14 May 2003 15:52:50 +0200
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Re,

maisonneuve nico a écrit:

on a 2 modes d'indexation :

-Indexation manuelle : porte sur des concepts pouvant être des termes n'étant pas dans le document, représentés par des mots-clé résultants de l'analyse humaine du document. Indexation = représentation extérieure, forcément réductrice du contenu.

Mmmh... on peut fortement *suggérer* une représentation extérieure à partir du contenu du document (v. l'exemple que j'avais donné sur le contrôle de l'appartenance à tel ou tel thésaurus).

- Indexation automatisée sur un texte intégral : porte sur l'analyse des mots des documents

Pour un analyseur, le concept de "mot" n'est pas inné. On parle plutôt de "jeton" (token). Ainsi, address@hidden n'est qu'un seul jeton si l'on prend l'approche EMAIL et 3, 4, 5 ou 6 jetons si on prend l'approche MOT, elle même déclinable en NOM, PRENOM, (SITUATION), DOMAINE (PAYS, TYPEDOMAINE, SOUSTYPEDOMAINE)...

Concept important : un analyseur utilise une *grammaire* : v. dans le code SDX celle qui est proposée...

POUR INDEXATION AUTOMATIQUE *FULL-TEXT*

dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes

Il manque la première : la *génération* (qui peut se faire par extraction et/ou par une action utilisateur... ou par tout autre moyen d'ailleurs).

2 types d'analyses : linguistique, statistique

Il y en a beaucoup plus à mon avis :-) Est-ce que l'analyse de code informatique est du ressort de l'analyse linguistique p.e. ? Ceci dit, si par "lingistique" vous entendez "utilisation d'une grammaire", je serais assez d'accord :-)

- segmentation du texte en termes :segmentation en termes simples ou composées limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme de terre' sera indexé en 2 concepts 'pomme' et 'terre'

Ce n'est pas une limitation SDX (qui ne fait que recopier le code Lucene) : c'est un choix d'analyse ! Rien ne vous empêche de disposer d'un analyseur capable de faire coller l'étiquette MOT au jeton "pomme de terre". On peut même concevoir de lui coller l'étiquette LEGUME ou TUBERCULE ou VOCABULAIREDELAFRITE

-contrôle des terms à indexer
par directement mais possible

Ici, c'est une problème de génération, pas d'analyse. Enfin, on peut le résoudre en affectant une valeur arbitrairement vide (ex. MOTVIDE) àau jeton et faire en sorte que l'index ne prenne pas ce type de jeton.

- analyse morphologique
lemmatisation non gérée par SDX

Ca pourrait se concevoir. Encore une fois, c'est une question de grammaire.

- analyse syntaxique non gérée par SDX

Un exemple ?

- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simples seulement...!)

Euh... si vous avez un thésaurus, vous faites ce que vous voulez avec, non ?

mais ne gere pas l'ambiguité du sens

Une suggestion ?

Sujet passionnant : à bientôt :-)

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden





reply via email to

[Prev in Thread] Current Thread [Next in Thread]