Sur Firefox :
une minimap !

Darknet_corpus

Arts et technologies

Afficher/ Masquer

Numérisation ( OCR / manuelle )

Dématérialisation

La dématérialisation de livres en leur équivalent numérique (les "ebooks") ont affranchi l'objet de papier de certaines contraintes, à commencer par celles d'espace de stockage. Par internet, on peut accéder d'un clic à des serveurs au bord du réseau et y récupérer le contenu d'un livre. Cela fait gagner de la place dans les étagères des bibliothèques et réduit la logistique dans les entrepôts. La "dématérialisation" et l'accès ubiquitaire qu'elle permet était au cœur de la promesse du "numérique". Comme le note et décrit Marcello Vitali-Rosati "le numérique" est rentré dans le langage commun pour désigner indistinctement toute activité informatique. Or, ce processus de modélisation et définition est très spécifique. Cette vectorisation des supports médiatiques ainsi délocalisés sur des serveurs lointains donna l'impression que le "cloud" serait écologique. Félix Treguet lui aussi critique largement cette fable qui profite d'externalités négatives invisibilisées mais bien réelles.

Marcello Vitali-Rosati,
Éloge du bug.
Éd. Zones (2024)
<bib_343>

La numérisation réduit la définition du contenu du support d'origine : les caractères et quelques éléments de mise en page rudimentaire sont convertis en points vectoriels. Ce changement d'échelle/espace rend le livre numérisé particulièrement facile à échanger entre utilisateurs d'un réseau (numérique ou informel). Le poids numérique est bien moindre que celui d'un film par exemple.

OCR : accessible à tous, apps

Google Books avait inauguré ce processus en étant longtemps la principale entreprise [source ?/historique] à réaliser massivement la numérisation de livres (en partenariat avec de nombreuses bibliothèques du monde). Depuis, le processus s'est répandu et de nombreux ateliers de doityourself initient à cette pratique redondante/répétitive : fastidieuse quand elle n'est pas automatisée. On pose le livre ouvert, isolé de la lumière extérieure, un appareil photographique prend une image des pages ouvertes puis, selon le modèle de l'appareil de numérisation, les pages sont tournées, par une main huamin ou un bras mécanique.

Applications

On peut aussi utiliser une application de reconnaissance de texte (OCR)
Certaines s'installent sur téléphone portable
https://search.f-droid.org/?q=ocr
https://alternativeto.net/software/vflat/about/ (vflat)
https://alternativeto.net/software/camscanner/about/ (camscanner)

EX/ l'application "OCR"
https://f-droid.org/en/packages/io.github.subhamtyagi.ocr/

est basée sur un Tesseract (outil libre).

En essayant plusieurs d'entre elles, on trouve des atouts spécifiques comme la suppression des doigts, la reconnaissance du bord des pages et rognage, la prise de pages 2 par 2, etc.
Un téléphone récent haut de gamme résoudra les calculs complexes sans surchauffer.

ScanOps

illu external fl Fantasies_of_the_Library.jpg fl

Dans cet ouvrage on relève les moments où le corps surgi dans la machine à numériser :

Etienne Turpin,
Fantasies of the Library.
Éd. MIT Press (2016)
<bib_295>

La couverture du livre est issue de la collection d'image réalisée par
Andrew Norman Wilson et son projet ScanOps (2012)
https://www.andrewnormanwilson.com/ScanOps.html (site du projet)
https://vimeo.com/15852288 (vidéo aux portes de Googleplex)

Il collectionne/répertorie les pages des livres scannés par Google Book dans lesquelles des doigts trahissent la présence d'humains au travail dans ce processus (qui apparaissent comme une anomalie qu'on essaie de gommer). Ce glitch humain se protège contre les coupures en recouvrant le bout de ses doigts avec du latex de couleur (à moins que ce soit pour ne pas abimer les livres). Le glitch, toujours, semble un point ouvert révélant la supercherie de la machine, ici celui de la gig-economie, un nième turc_mécanique (et donc de travail_digital).

Rhizome lui consacre une interview :
https://rhizome.org/editorial/2012/may/14/conversation-andrew-norman-wilson/ (2012)

Il nous parle de sa pratique et sources d'inspiration tel que :
https://theartofgooglebooks.tumblr.com (The Art of Google Books) (live)

ReCaptcha

Google book avait massivement investi ce champ de la numérisation et la reconnaissance de texte. Si l'entreprise est louable en cela qu'elle rend accessibles les savoirs au plus grand nombre (leur catalogue web est ouvert), on peut comprendre les levés de bouclier quand l'entreprise américaine récupère ainsi à son profit des fonds publics. Bien entendu, Google n'a pas ensuite donné accès à l'intégralité des ouvrages numérisés et respecte le droit d'auteur restrictif. L'entreprise avait toutefois été attaquée pour avoir dissimulé du travail à la tâche dans son système reCaptcha. Pour accéder à un site, les utilisateurs, devant prouver qu'ils étaient bien humains, étaient invités à reconnaitre du texte issu de scans massifs. Ils participaient ainsi à vérifier certains caractères alphanumériques du fond.

Faux positifs

Au sujet des Captcha, Weird nous rappelle que The Internet Archive en a l'usage (de l'OCR)
recap2.jpg 2007 fl external
https://www.wired.com/2007/05/recaptcha-fight-spam-and-digitize-books/ (2007)
https://web.archive.org/web/20080316201948/http://www.hackszine.com/blog/archive/2007/05/recaptcha_distributed_book_dig.html?CMP=OTC-7G2N43923558 ( source )

et nous explique comment sont départagées les solutions données aux captchas. Le captcha demande de déchiffrer plusieurs mots issus d'une reconnaissance OCR précédente (de livres). Certains mots sont bien scannés : on a une forte confiance dans le mot reconnu par l'OCR. D'autres le sont moins, on a une moindre confiance dans ce que les lettres représentent. On mélange alors des mots dont on est sûr de ce qu'ils représentent avec d'autres dont la confiance est moindre. Les résultats des utilisateurs, comparés entre eux, permettent d'affiner la reconnaissance de caractères tout en rendant la tache difficile à des "robots".

But if a computer can't read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.

Comme le rapporte Techcrunch, Google acquiert reCaptcha en 2009
https://techcrunch.com/2009/09/16/google-acquires-recaptcha-to-power-scanning-for-google-books-and-google-news/

google-cpa.jpg fl external