dimanche 29 décembre 2013

BIG DATA & TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL

A lire sur: http://www.decideo.fr/Big-Data-Traitement-Automatique-du-Langage-Naturel_a6593.html

25 NOVEMBRE 2013

Le Traitement Automatique du Langage Naturel (TALN ou NLP en Anglais pour Natural Langage Processing), est une branche de l'informatique, centrée sur le développement de systèmes qui permettent aux ordinateurs de communiquer avec les humains, en utilisant le langage courant. Le TALN est considéré comme un sous-domaine de l'intelligence artificielle, et a un chevauchement important avec le domaine de la linguistique informatique ou computationnelle. 




Michel Bruley, Directeur Marketing International de Teradata Aster
Michel Bruley, Directeur Marketing International de Teradata Aster
Concrètement il s’agit : de systèmes de compréhension du langage naturel qui convertissent le langage humain en représentations qui sont plus faciles à manipuler pour les programmes informatiques, ou de systèmes de génération de langage naturel qui convertissent les informations de bases de données informatiques en langage lisible par l'homme. Le TALN concerne à la fois le texte et la parole, mais le travail sur le traitement de la parole a évolué dans un champ distinct. 

Pourquoi le TALN, à quoi cela sert-il ? Les applications qui ont à traiter de grandes quantités de textes nécessitent une expertise en TALN. C’est expressément le cas lorsque l’on veut : 
- classer des textes en catégories, indexer et mener des recherches dans de grands ensembles de textes (classer les documents par thèmes, langue, auteur, filtrer les spam, rechercher des informations pertinentes, déterminer les sentiments (positif, négatif), 
- extraire des données de textes en convertissant des données non structurés en données structurées, 
- extraire des informations, comme par exemple de lister les noms des personnes et des événements auxquels ils participent, à partir d'un document. 
- automatiser la production de résumés (condenser 1 livre en 1 page, ...), 
- trouver des réponses à des questions en langage naturel dans une collection de texte ou base de données, 
- corriger l’orthographe, la grammaire, 
- détecter des plagiats, 
- traduire automatiquement, 
- etc. 

Pour les systèmes informatiques la tâche est rude. Quand les humains de 2013 voient un texte, ils le lisent et le comprennent (sous réserve de connaître le langage utilisé), quand les ordinateurs ‘voient’ un texte, ils ne perçoivent que des chaînes de caractères (ou des balises HTML). Le TALN est difficile, car la langue est souple, il y a constamment de nouveaux mots, de nouvelles significations, des significations différentes dans des contextes différents, la langue est subtile, la langue est complexe, il y a de nombreuses variables cachées (connaissances sur le monde, connaissances sur le contexte, connaissance des techniques de la communication humaine, problème d'échelle, …). 

Dans ce domaine Teradata propose des solutions analytiques associant Aster et Attensity, elles permettent de traiter facilement de gros volumes de données textuelles, de les analyser et de leur donner du sens. Concrètement il s’agit de faciliter l’application des principes linguistiques pour extraire du contexte, des entités et des relations, de façon similaires à ce qu’un humain ferait ; faciliter la détection automatique et l’extraction d’entités telles que nom, lieu, … ; faciliter l’utilisation de règles de classification personnalisés pour classer les textes par leur contenu, trier par pertinence, et découvrir des informations. Il s’agit aussi de rapprocher ces données des historiques des transactions ou des contacts, et de comprendre en fonction de ce que les clients ont exprimés sur le web, ce qui ne va pas ou par quoi ils sont intéressés, de définir des communications, des offres appropriées, ou d’identifier des clients, des cibles à fort potentiel. 

Pour aller plus loin sur ce sujet vous pouvez utilement consulter le lien ci-dessous : 
http://www.teradata.com/partners/Attensity-Group/

Aucun commentaire:

Enregistrer un commentaire