Faux, WordPress ce n’est pas 25% “des sites web” du monde entier
Le lundi 9 novembre 2015 une partie des médias a annoncé d’une même voix que WordPress, système de gestion du contenu open source et gratuit, était utilisé par “25% des sites web” du monde entier ou “un quart du web total” ou “25% du web”, selon les auteurs. Dans la frénésie presque totale les fans et utilisateurs du CMS ont partagé les chiffres comme des enfants de chœur ; le terme “wordpress” s’est fait aussitôt une belle place dans les tendances de Twitter.
De toute évidence Matt Mullenweg, co-auteur de WordPress et PDG de la société américaine Automattic, n’a pas craché dans la soupe, il s’est félicité de ces chiffres. Le PDG a encore l’espoir de conquérir les 57% de sites web qui n’utilisent pas encore de CMS identifiable.
Les chiffres de cette étude ne sont pas exacts. Ils sont faux et peut-être très loin de la réalité même si toutes les statistiques s’accordent à dire que WordPress apparaît comme le n°1 des CMS. La tendance est fort probablement vraie, ce sont les chiffres qui sont faux !
La méthode de W3Techs pose problème
Google ne peut pas tout trouver
Si Google Search, leader de la recherche web, n’a pas accès à ce web mystérieux, peut-on penser qu’Alexa y ait facilement accès ? Il faut croire que non.
Le web profond – deep web, en anglais – désigne la partie du Net accessible en ligne, mais non indexée par les moteurs de recherche du web surfacique comme Google.fr. D’après une étude de BrightPlanet, publiée en 2001, le web profond faisait 400 à 500 fois la taille du web surfacique, c’est-à-dire le web indexé et indexable par les moteurs de recherche. En 2001 il y avait approximativement 3 millions de domaines différents ; en 2013 il y en avait plus de 555 millions. Le web continue de croître, on peut considérer que le web profond aussi.
Pour BrightPlanet le moteur de recherche de Google est très bon pour trouver des sites web sur le web surfacique. Il fournit des réponses rapides aux questions de base. Toutefois, les entreprises et les organisations se posent des questions beaucoup plus difficiles que “Où trouver un Mac Donald ouvert ?”. BrightPlanet pense que des questions complexes nécessitent plus qu’un moteur de recherche. A noter que depuis 2013 le moteur de recherche de Google a beaucoup évolué : Hummingbrid et plus récemment RankBrain, système d’intelligence artificielle qui interprète et affine les requêtes de recherche complexes, sont des exemples.
Le contenu du web invisible est fort probablement de très bonne qualité, riche en informations pertinentes. On peut le segmenter en plusieurs catégories dont le web privé – private web, en anglais – et le web opaque. Il s’agit de sites web protégés par des mots de passe, interdits de référencement par leur gérant et autres restrictions volontaires ou involontaires.
Le nombre de sites du web profond est estimé à plus de 200 000 sites – cf. Web-based Support Systems, de JingTao Yao, 2010. Les sites Alexa.com et Amazon.com en font partie. Même si la totalité des sites du web profond était comptée par W3Techs, les résultats de l’étude n’auraient peut-être pas changé de manière significative.
“25%” de sites web à sécuriser
Même si les résultats de cette étude sont biaisés, ils ne sont pas moins vrais. Toutes les études s’accordent sur un point : WordPress est le CMS le plus populaire… du web surfacique. Quand bien même les résultats de cette étude sont biaisés il faut les sécuriser ces sites WordPress. La popularité du CMS est devenue tellement grande que les pirates en font une cible privilégiée. La sécurité c’est son talon d’Achille. Ses détracteurs utilisent cette faille comme argument. A la différence des autres CMS il y a une forte communauté et une réelle conscience en matière de sécurité.
Je vous conseille de lire ces deux articles :
- Piratage WordPress : Voici les risques en cas de site piraté
- WordPress : CMS le plus populaire, mais pas le meilleur ?
Ressources :
- http://w3techs.com/technologies (méthode de W3Techs pour réaliser ses études)
- http://w3techs.com/technologies/history_overview/content_management/all/y (usage des CMS)
- https://fr.wikipedia.org/wiki/Web_profond#Web_priv.C3.A9 (“Web privé”, dans Wikipédia)
- https://fr.wikipedia.org/wiki/Web_surfacique (“Web surfacique”, dans Wikipédia)
- https://www.brightplanet.com/ (Le site de BrightPlanet, outil de récolte du Big Data dans le web profond)
- http://ma.tt/2015/11/seventy-five-to-go/ (Seventy-Five to Go, Matt Mullenweg)
- http://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-lucrative-web-search-over-to-ai-machines (Google Turning Its Lucrative Web Search Over to AI Machines, par Jack Clark)
- http://quod.lib.umich.edu/j/jep/3336451.0007.104?view=text;rgn=main (White Paper: The Deep Web: Surfacing Hidden Value, Michael K. Bergman)
Mister WordPress
21 novembre 2015 12 h 56 minLes 10 premiers millions de sites web classés sur Alexa, ça me semble déjà pas mal 😀
Je pense que si on part de ton principe, peu de statistiques sont 100% fiables dans ce monde.
Si 25% de 10 millions de sites surfaciques sont en WP, pourquoi pas aussi un bon 20% des 500 millions de sites “non indexés” par Google ? Dans tous les cas, si on parle seulement du Web de surface, le classement n’en est pas beaucoup moins révélateur du succès du CMS. On parle bien, sur ton blog, du Web de surface, de l’objectif d’être présent sur Google justement… On ne parle pas beaucoup ici, il me semble des intranets d’université, ou de darknet, etc.
Là où je veux bien te rejoindre (en plus de ta conclusion), c’est concernant l’élimination (si elle est bien réelle) de toutes les sites avec sous-domaine, qui fausse les stats, c’est vrai (beaucoup de blogger en sous-domaine par exemple).
Cela ne rend pas les chiffres faux, mais il aurait fallu communiquer sur « 25% des racines de noms de domaine propulsées par WP », c’est moins joli par contre. 😀
Ya-graphic.com
21 novembre 2015 13 h 50 min10 millions de sites ce n’est pas rien, mais à côté de 600 millions de sites c’est une goûte d’eau. Ça me paraît discriminatoire, surtout si on ajoute la méthode de W3Techs. Ignorer les sites en sous-domaine est une erreur.
On ne peut pas dire que les chiffres sont vrais et en même temps critiquer cette élimination. 🙂 Quoi qu’il en soit les statistiques ne sont toujours que des probabilités.
Concernant le Deep Web, c’est discutable, mais il faut savoir de quoi on parle. Le web surfacique ce n’est pas tout le web.
Mister WordPress
21 novembre 2015 13 h 55 minC’est vrai. Je critique l’élimination des sous-domaines car le classement prend en compte des plateformes comme Blogger dont les utilisateurs sont principalement en sous-domaine.
Après, les chiffres, ils sont vrais.
C’est juste l’appellation “25% du Web mondiale” qui ne l’est pas, ou alors elle est trop vague.
Note que celui qui veut vraiment avoir la méthode de calcul la trouvera, puisque tu y es bien arrivé 🙂
La précision était dans tous les cas intéressante 😉 Je n’aurais pas pris le temps d’aller voir la méthode de calcul si je ne t’avais pas vu la partager sur Twitter.
Ya-graphic.com
21 novembre 2015 14 h 11 minOn parle de 25% de sites WordPress mais ça peut être plus. Les sous-domaines ce n’est pas que Blogger… sans compter les sites auto-hébergés, par exemple des sites dont le sous-domaine est sous WordPress. 🙂
Je veux juste souligner que ce chiffre “25%” n’est pas représentatif de la réalité. Il est très certainement au-dessus ou en-dessous de la réalité.
Mister WordPress
21 novembre 2015 14 h 31 minJ’avoue… Je n’avais pas pensé aux nombreux “blog.example.com” qui sont motorisés par WordPress alors que le site principal peut-être du développement spécifique.
Dans tous les cas, malgré tes remarques très pertinentes, je crois que ce classement est d’ores et déjà adopté comme “le baromètre standard”.
Daniel
1 décembre 2015 8 h 28 minBonjour Yassine,
Je ne reviens pas sur ton travail de calcul et de vérification de ceux-ci. Beau boulot de recherche. Le succès de cet outil de blog est indéniable.
Je voudrais réagir sur ta dernière phrase (celle qui est sensée laisser l’impression la plus forte).
“A la différence des autres CMS il y a une forte communauté et une réelle conscience en matière de sécurité.”
Une forte communauté, c’est une communauté nombreuse ou une communauté active ?
Dans le premier cas et pour avoir une vision objective, il faudrait reporter cette communauté (on parle ici des personnes impliquées dans le projet, pas des utilisateurs, hein) aux nombres de sites en circulation (aïe..).
Mais si tu parles de communauté active, il faut participer à des events organisés par d’autres CMS pour voir ce qu’est une communauté réellement active (aïe aïe).
Et pour ce qui est de la conscience en matière de sécurité, cette partie maladroite pourrait laisser sous-entendre que ce n’est pas le cas pour les autres CMS. Sans doute un complexe de supériorité WordPressien 😉
Yohann
10 décembre 2015 11 h 18 minJe trouve vos contre-arguments plutôt bancals et les techniques utilisées pour le calcul assez justifiées en fait.
Laurent Bour
18 décembre 2015 17 h 17 minBonsoir Yacine,
Etant tombé par hasard sur ce billet, je rebondis tout de même sur le titre et le fond qui remettrais en question un sacré nombre d’études basées ne serait-ce que sur des échantillons d’une population. Le net offre tout de même une meilleure visibilité sur les données.
Avec les outils online on a au moins la fiabilité d’un accès, d’une trace laissée sur le net. Sinon il faudrait revoir tous les chiffres et pas seulement ceux de WordPress. J’aurais plutôt vu un article sur les écarts de stats ou leurs interprétations, plus qu’un article qui vise WordPress, et qui du coup fait perdre la pertinence du sujet de fond.
De nombreuses études ne peuvent offrir une exactitude absolue en terme de chiffre, sauf certaines qui sont spécifiques à une solution. On y voit davantage des proportions significatives.
Ya-graphic.com
18 décembre 2015 17 h 58 minBonsoir Lauren,
Les statistiques c’est toujours au mode conditionnel qu’il faut les annoncer. Je ne remets aucunement en question les sondages et études. Et même si je les remettrais en question, est-ce que ça changerait les choses ? 😀
La critique c’est du cas par cas. Dans le cas précis de cette étude de W3Techs les gens peuvent continuer de croire que le chiffre est exact. Pour moi IL EST LOIN D’ÊTRE EXACT. Peut-être que je me trompe mais jusqu’à présent personne ne m’a prouvé le bien-fondé de ce chiffre. Il a été absorbé comme une viande de cheval qui était censée être du bœuf !
L’argument de l’échantillon pourrait me faire changer d’avis, mais j’avance d’autres arguments irréfutables, notamment la méthode de calcul de W3Techs. Une large part des sous-domaines sont ignorés. Un exemple concret : mon site dispose de 2 sous-domaines, un Tumblr et un Blogger et ils ne font pas partie de l’étude. C’est tout simple. 🙂
Laurent Bour
18 décembre 2015 22 h 20 minSur ce coup je suis entièrement d’accord Yacine, mais je visais surtout que bon nombre d’études serait à remettre en question sur ce même principe et pas seulement vis à vis de WordPress.
Après il est vrai que c’est du cas par cas comme tu le soulignes, et que là c’était l’occasion de rebondir sur le CMS le plus populaire.
Disons que l’idée était plutôt de rédiger un post sur ce principe de statistiques erronées comme sujet de fond.
Ya-graphic.com
18 décembre 2015 23 h 13 minDe quel principe parles-tu exactement ? Et quelles sont les autres études qui utilisent la même méthode de calcul que W3Techs ?
Laurent Bour
18 décembre 2015 23 h 42 minL’interprétation des résultats…
Sinon après il y a tout ce qui concerne les études à priori : http://w3techs.com mais je n’étais pas sur la méthode à proprement parlé au vu du titre.
Tu soulevais un point intéressant qui s’appliquait sur de nombreux domaines en disant ça : La tendance est fort probablement vraie, ce sont les chiffres qui sont faux !
Mais bon c’est pas l’endroit pour entamer un débat qui se détache un peu du post au final. Merci pour ces échanges en tout cas et félicitations pour ton travail au sein du blog.