Filtrage de l'Information

O. Nouali
CERIST, Département Informatique,
Division Intelligence Artificielle.
Rue des 3 frères Aïssiou, Ben Aknoun, Alger
Algérie
nouali@tassili.cerist.dz csai@tassili.cerist.dz

1. Introduction :

Avec l'avènement de l'Internet, la très grande masse d'informations devenue disponible nécessite aujourd'hui de consacrer une partie considérable de notre temps à l'extraction de l'information pertinente.

L'utilisateur équipé seulement d'outils de recherche d'information sur les réseaux tels que WAIS, ARCHIE, WWW et GOPHER, ne peut pas faire face au flux d'information générée. Au lieu de laisser l'utilisateur dépenser son temps à chercher l'information dont il a besoin, la tendance actuelle est de concevoir des mécanismes qui permettent de lui faciliter la tâche en lui faisant parvenir continuellement l'information qui l'intéresse, c'est ce qu'on appelle les services de Dissémination Sélective de l'Information [1].

Le filtrage de l'information est un nom donné à une variété de processus dont le but est de faire parvenir, à partir de larges volumes d'informations générées dynamiquement, les informations aux personnes qui en ont besoin.

Les domaines d'application du filtrage de l'information sont assez variés, et d'une grande importance économique, parmi eux : mailing list, Usenet News, filtrage des e-mails, filtrage dans les webs[2],...

2. Filtrage d'information et recherche d'information :

La distinction entre la recherche d'information et le filtrage d'information n'est souvent pas claire. Un système de recherche d'information a pour fonction de guider l'utilisateur à retrouver les documents qui lui permettent de répondre à ses besoins. D'une part, l'utilisateur soumet une requête au système (figure l a). D'autre part, les sources d'informations sont une collection de textes représentés sous forme de bases de données et souvent indexés en un ensemble de mots clés. Ces derniers sont comparés à la requête de l'utilisateur pour aboutir à un ensemble de documents répondant à sa requête.

La figure l.b schématise un modèle de filtrage d'information. Il débute avec des individus ou groupe d'individus qui ont des intérêts relativement stables à long terme : profils. La source d'informations provient des producteurs de textes (exemple : journaux). Ces derniers doivent distribuer ces informations aux personnes intéressées. Cette opération est réalisée en comparant les textes aux profils des différents individus.

Figure 1 : Comparaison entre les Processus de Recherche et de Filtrage d'Information
Figure 1 : Comparaison entre les Processus de Recherche et de Filtrage d'Information

En comparant les figures 1.a et 1.b, nous constatons une analogie entre les processus de filtrage et de recherche d'information, et les principales différences sont résumées comme suit :

3. Méthodes de Filtrage :

Le filtrage de l'information n'est ni un nouveau concept ni un concept exclusivement limité aux documents électroniques. L'une des toutes premières formes de filtrage de l'information se trouve être la dissémination sélective et automatique de l'information. De ce fait et vu que le processus de filtrage est relativement analogue à la recherche d'information, ce sont les mêmes techniques de recherche d'information qui ont été adoptées à ce filtrage et c'est seulement l'approche ou la vision qui diffère.

 Figure 2 : Indexation dans les Processus de Recherche et de Filtrage d'Information
Figure 2 : Indexation dans les Processus de Recherche et de Filtrage d'Information

Suivant des approches diversifiées, plusieurs outils de filtrage ont été développés et à chaque fois, il y a eu une évaluation systématique des caractéristiques les plus efficaces pour le filtrage de l'information; seulement, des questions restent posées :

  1. quelles sont les méthodes les plus efficaces pour la correspondance (matching) des intérêts des utilisateurs avec l'information disponible ?
  2. comment devrait-on décrire les intérêts d'un utilisateur ?

Dans ce qui suit, nous allons aborder ces deux points, en concernant par la présentation des techniques de recherche d'information appliquées au filtrage de l'information les plus utilisées avant de passer en revue certaines manières de représenter les intérêts d'un utilisateur.

3.1. Les techniques traditionnelles :

Elles se basent sur l'occurrence d'un ensemble de mots clés pour identifier ou reconnaître les documents pertinents.

La requête est représentée de la même façon. Pour un couple (Document, Requête), un traitement de mesure de similarité est effectué pour déterminer si le document est intéressant ou non.

3.2. Les techniques utilisant l'information sémantique :

3.3. Modélisation du profil de l'utilisateur :

  1. Un moyen très simple pour filtrer l'information semi-structurée, par exemple dans les emails, est de ressortir la liste des rubriques structurées "Headers" en utilisant divers moyens : par date, par sujet, par envoyeur,... etc. [8].
  2. Pour savoir comment configurer les modèles des utilisateurs pour un système de filtrage de l'information, une étude d'observation peut être entreprise pour noter comment font les lecteurs pour décider des messages intéressants [9].
  3. Décrire les intérêts d'un utilisateur est une tâche difficile. Généralement, un utilisateur fournit un ensemble de mots clés. Néanmoins, cette technique est ambiguë du fait : C'est pourquoi, plusieurs autres sources d'informations peuvent être utilisées, telles que :

4. Conclusion

Dans cet article, nous avons présenté la définition, le rôle et les différentes méthodes du processus de filtrage de l'information. Du fait que ce dernier soit étroitement lié à la recherche d'information, les méthodes de filtrage actuelles sont basées d'une façon directe ou indirecte sur les techniques des méthodes traditionnelles de recherche d'information.

Néanmoins, ce domaine reste très ouvert vers diverses autres tendances. Ainsi, certains chercheurs utilisent les techniques traditionnelles en essayant toujours de les améliorer en proposant de nouvelles approches qui tentent de capter le plus d'information sémantique.

De ce fait et vu la diversification des tendances classiques et actuelles, il n'y a pas encore de conclusion concrète. Indexer des phrases ou expressions au lieu de mots clés apporte des améliorations certaines à l'efficacité du filtrage au frais d'un pré-traitement élaboré (analyse partielle ou totale et analyse syntaxique de la phrase).

Par analogie, la méthode LSI par exemple, nécessite (1) la disponibilité d'un corpus pour construire la matrice termes-profils et (2) un temps d'exécution important pour la méthode SVD pour donner un résultat assez satisfaisant.

Ainsi, la conclusion générale que l'on peut évoquer est que les méthodes les plus récentes (traitement du langage naturel, LSI et réseaux neuronaux) semblent prometteuses.

Références

[1]
Tak W. Tan, Hector Garcia-Molina
SIFT, A Tool for Wide-Area Information Dissemination
In Proceedings of the 1995 USENIX Technical Conference, pp. 177-186, 1995
[2]
Steve Gant
A Sample Information Filter for the Web
10 Avril 1995
[3]
Belkin Nicholas J. Croft W Bruce
Information Filtering and Information Retrieval : Two sides of the same coin ?
Communication of the ACMs volume 35. N° 12* pp. 29-38, Décembre 1992
[4]
Juha Takkinen
Introduction to Course
Information Retrieval and Information Filtering (IRIF), Spring 1996
http://www.ida.liu.se/labs/iislab/courses/IRIF/IRIF_introduktion.html
[5]
Information Filtering Defined
Douglas Oard
12 Décembre 1995
[6]
Croft
[7]
Foltz, P. W.
Using Latent Semantic Indexing for information filtering
In Proceedings of the ACM Conference on Office Information Systems
ACM/SIGOIS, New York, Avril 1990, pp. 40-47.
[8]
Roland Hjerppe, Juha Takkinen
Personalized Information Filtering and ML
Information Retrieval and Information Filtering (IRIF), Spring 1996
http://www.ida.liu.se/labs/iislab/courses/IRIF/IRIF_ml.html
[9]
Stadnyk Irene, Kass Robert
Modeling Decision Making of USENET News Readers
Technology Representation, CFAR, pp. 91-103, 1991
[10]
Stadnyk Irene, Kass Robert
Modeling Users. Interests in Information Filters
Communication ofthe ACM. volume 35. N° 12, pp. 49-50, Décembre 1992
[11]
Frederik Kilander
Message Classification and Filtering
Sweden, 4 Janvier 1995
http://www.dsv.su.se/~fk
[12]
Goldberg David, Nichols David, Oki Brian M., Terry Douglas
Using Collaborative Filtering to Weave an Information Tapestry
Communication of the ACM, volume 35, N° 12, pp. 61 70, Décembre 1992