Pages

Pour Google, il y aurait 129.864.880 livres différents


Google, qui est déterminé à numériser les livres du monde entier, a pensé qu’il serait prudent de savoir combien il y a de livres en tout. Ils ont créé un algorithme spécial, et ont obtenu le chiffre de 129.864.880 livres.


Ce billet sur Inside Google Books blog explique le processus complet.  D’abord, il faut déterminer ce qu’est un livre (la notion de Google est assez similaire à l’ensemble des textes qui se voient attribuer un numéro ISBN). Une traduction est évidemment un livre différent de l'original. Mais même deux éditions différentes d'un même texte peuvent être considérés comme deux livres différents, par exemple si l'avant-propos ou des commentaires sont différents.

Pour finir, ils ont décidé de choisir la définition que voici : un livre est n'importe quel texte qui est publié sous forme de tome. Cette définition a certains inconvénients, comme de compter un livre relié et un livre de poche, aux textes identiques, deux fois. Mais les autres définitions avaient plus de défauts, et de cette manière un ouvrage publié un million de fois est aussi bien comptabilisé qu'une thèse obscure publiée à deux exemplaires .

Mais l’ISBN est une norme internationale de numérotation de livres assez récente, qui est apparue dans les années 60 et plutôt dans l’Ouest du monde, il restait donc un grand nombre de livres (les vieux livres et les livres étrangers n’ont pas d’ISBN).
Donc Google s’est passé de l’ISBN et a téléchargé les métadonnées de plus de 150 sources (incluant les « bibliothèques, WorldCat, les catalogues, et les fournisseurs commerciaux » puis a éliminé les doublons. Ils sont arrivés au chiffre de 600 millions. Après avoir éliminé d’autres doublons comme les microfiches, cartes, enregistrements audio et autres non-livres, et après avoir ajusté le nombre pour prendre en compte les publications en série, ils ont trouvé le chiffre de 129.864.880.

Aucun commentaire:

Enregistrer un commentaire