otras alternativas...

bsf-devel

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

otras alternativas...

From:	Aldrin Martoq
Subject:	otras alternativas...
Date:	Wed, 8 Jan 2003 05:24:30 -0300 (CDT)

Chicos,

        Estuve viendo y me parece a simple vista que esto de naive bayes es
una real burrada :-) Hace poco le agregue soporte de MIME a lo que tengo en
CVS, pero mis pruebas en mis correos fueron mas falsos-{neg,pos} y mas
lento aun :-/ Cada dia le creo menos (ifile dejo de funcionar en anakena
ya a estas alturas, todo es INBOX para el).


        Como buscaba algo que tratara de identificar "semantica" (clasificar
en base a que diablos dicen los correos), ernesto me dio la idea de usar
tecnicas de IR (Information Retrieval). IR es usualmente usado en buscadores
de web (hay mucho sobre eso), pero calza perfectamente para lo que queremos.

        En estricto rigor no es semantica, sino que "contexto". De manera
burda, lo que indexa es la cercania de una palabra dentro de otra. Considera
datos como frecuencia por documento (mensaje) y frecuencia total de cada token.
Hay varios algoritmos para index, dependiendo de la app, incluyendo naive-bayes
AFAIK.

        Primero se indexan los documentos. Despues, para "consultar" (buscar
en www) se utiliza un documento (hasta aqui vamos bien, la entrada es un
nuevo mensaje a clasificar). Con IR, podemos dar un ranking de que documentos
ya indexados estan mas relacionados con el mensaje nuevo (google utiliza entre
otras cosas el numero de links, pero podemos cambiar otras cosas para nuestro
caso). Podemos usar el ranking para clasificar.

        Construir el indice es relativamente caro y no es facil crear
actualizaciones incrementales sin sacrificar espacio ... Creo que lo que hacen
es generar clusters de indices en el tiempo, si me entienden la idea.

        Con los programas que he jugado, los indices inversos quedan super
chicos (usan stop-words y el indice esta en binario). Alrededor de 300KiB para
50MiB de mail! Y por ende es muy rapido para clasificar. He estado buscando
algo para perl, pero no encuentro nada estable y todo esta demasiado centrado
en el web; aparte que me falta en knowhow de IR (habria que hacer el curso).




        Una prueba util es remembrance-agent, algo muy choro para Emacs. Uno
indexa documentos (mail en este caso), y a medida que escribe aparecen
documentos relacionados con el tema...

        Bueno, es solo otra idea mas... Me gustaria saber si seguimos de alguna
forma, creo que nos falta mas comunicacion si queremos sacar esto adelante
o quizas mas gente.

Nos vemos/leemos,

-- 
Aldrin

"ID10T Error: Please remove user and try again"

[Prev in Thread]

Current Thread

[Next in Thread]

otras alternativas..., Aldrin Martoq <=

Index(es):
- Date
- Thread