De nombreux liens url n’aboutissent plus
car ils ne sont plus répertoriés. Un chercheur propose une méthode pour
savoir de quoi il s’agissait s’appuyant sur les réseaux sociaux.
Retrouver le contenu dont il était question
sur une page web devenue inaccessible, c’est ce qu’a tenté de faire une
équipe menée par un chercheur en sciences de l’informatique,
Hany SalahEldeen Khalil de la
Old Dominion University.
Sa méthode consiste
en l’étude des contenus relatifs au lien qui n’est plus disponible.
Pour ce faire, il s’est servi des réseaux sociaux afin de trouver des
messages en rapport avec un message d’origine dans lequel se situait le
lien désormais inactif. Avec cette méthode,les chercheurs ont réussi à
obtenir un contenu similaire à hauteur de 70% à celui se trouvant sur la
page web originale, et ce pour 41% des liens perdus qu’ils ont essayé.
Une technique à développer
La recherche d’une telle technique s’effectue alors que les liens
arrivant sur le web peuvent rapidement devenir inaccessibles. En effet,
les données seraient perdues pour 11% d’entre elles dès la première
année et 27% ne passeraient pas le cap de deux ans. Les chercheurs ont
donc pensé que ces données en apparence perdu pouvaient être retrouvées à
partir des différentes traces qu’elles avaient laissées sur internet.
Ils ont pour cela utilisé le moteur de recherche de Twitter, Topsy. Sur
ce dernier ils cherchaient la ressource manquante et consultait les
tweets en relations avec cette dernière. Puis, les termes les plus
fréquents relevés étaient entrés sur Google et les résultats
correspondaient à des documents remplaçant potentiellement la ressource
perdue.
Des contenus parfois de nouveau accessibles
Toutefois, les chercheurs ont remarqué un phénomène intéressant :
plusieurs des ressources qui étaient déclarées manquantes et sont par la
suite devenues accessibles. En effet, tous les contenus disparus ne le
sont pas forcément de manière définitive. Ainsi, s’il s’agit d’un
domaine interrompu puis restauré ou du compte d’un utilisateur qui a été
suspendu puis rétabli, alors les contenus seront de nouveaux
accessibles. Pour les contenus qui ne sont pas réactivés, leur méthode
est pour l’instant la seule qui ait été mise au point, mais elle
pourrait être suivie par d’autres, la marge de progression étant
importante.
Aucun commentaire:
Enregistrer un commentaire