La fin des modèles ?

Chris Anderson (Wired) parle d'une nouvelle méthodologie scientifique, à la Google, où le modèle serait obsolète. Dans l'age du Perabyte, ce qui importe vraiment c'est les corrélations cachées dans la masse quasi-infinie de données, les patterns que seule une hyper-machine peut révéler. Plus besoin de modèles, parce que de toute façon un modèle n'est qu'une approximation de la réalité, et il est faux par définition.

John Timmer (Ars Technica) rétorque que c'est vrai, la Machine peut aider, et elle aide énormément à trouver ces corrélations cachées. Mais de là à déclarer la mort du modèle, il y a des étapes que Anderson semble brûler trop vite :

Where Anderson stumbles is in his conclusions about what this means for science. The fact is that we couldn't have even reached this Google-level understanding without the models and mechanisms that he suggests are doomed to irrelevance. But, more importantly, nobody, including Anderson himself if he had thought about it, should be happy with stopping at this level of understanding of the natural world.

Bien sûr. Que serait la science sans modèles, aussi imparfaits soient-ils ? C'est la base même de notre soif humaine d'appréhender le monde qui nous entoure. C'est clair que l'approche statistique d'analyse de données fait des merveilles dans la marée de données qui nous est disponible aujourd'hui. Pensez Google Translate. Mais pouvons-nous, en tant que humains, nous contenter de résultats inexplicables sortis des entrailles d'une machine ? Je ne le crois pas.
sujets :
  • jeudi le 26 juin 2008 à 13:02

Commentaires

... Pouvons-nous, aussi, construire de telles machines sans avoir un minimum de compréhension du travail qu'elles vont faire? Et ce minimum de compréhension, pouvons-nous l'acquérir sans modèle?
  • Bechir
  • à 13:17, jeudi le 26 juin 2008 #
je ne le crois pas non plus. L'approche statistique est très efficace mais ironiquement c'est surtout pour valider/justifier des modèles :). En plus l'exemple de Google Ads repris par Andreson est un peu tire par les cheveux, car il y a bien de la "taxonomy" quand on choisit les mots cles pour les Ads, non?
  • samsoum
  • à 13:32, jeudi le 26 juin 2008 #
Je ne comprends pas l'article d'Anderson (qui selon wikipedia est physicien de formation).

Premier point: la recherche d'information est essentiellement un domaine de recherche empirique. Avec un ensemble de documents, comment peut-on trouver la meilleure reponse a une requete dans un temps minimal. Le modeles sont donc assez vieux, mais fortement optimises pour prendre en compte plusieurs facteurs. L'abondance des facteurs permet d'optimiser les modeles.

En effet, Google utilise des modeles de langue pour a peu pret tous ses outils (du moins la recherche et possiblement la traduction). Avec toutes les donnees qu'il a, il entraine ses modeles pour maximiser la performance.

Deuxieme point: Comme le dit Popper, on veut avoir le modele qui est le moins faux. Avec une abondance d'observations, il est possible de trouver les limitations des modeles existants, mais fondamentalement, les resultats seront limites par la qualite de la modelisation.

Par exemple, avec un TB d'observation de pommes qui tombent, on aurait tres bien pu trouver precisement l'acceleration avec la loi de Newton. Ce modele n'est toutefois pas aussi puissant que celui la relativite. Donc, les observations peut valider et perfectionner un modele existant, mais la science cherche le meilleur modele.
  • SV
  • à 11:09, lundi le 30 juin 2008 #

Écrire un commentaire