• La technologie OCR

    Présentation

    La technologie OCR (ou en français : ROC Reconnaissance Optique de Caractères) permet la traduction de textes imprimés / dactylographiés en texte directement éditable sur un ordinateur. C'est à dire qu'une photo contenant du texte pourra être interpretée par un logiciel ou un site internet afin de retranscrire les caractères pour vous en permettre l'édition.
    Exemple : Vous numérisez un texte donné par votre professeur (donc imprimé sur du papier) et vous utilisez un logiciel / site internet permettant la reconnaissance optique de caractères pour pouvoir ensuite le remettre en page ou même le copier dans google traduction (mais uniquement si il s'agit d'un texte d'espagnol un peu pénible à comprendre...)

    Fonctionnement

    Le logiciel de reconnaissance optique va procéder en 5 étapes avant de pouvoir vous afficher la version numérique du texte :
    • 1ère étape : Pré-analyse de l'image: le but étant est d'améliorer la qualité de l'image : redressement d'images inclinées ou déformées, corrections de contraste, passage en noir et blanc, détection de contours...
    • 2ème étape : Ségmentation : le but est d'isoler dans l'image les lignes de texte et les caractères. Cette phase peut aussi détecter le texte souligné, les cadres, les images. Une sorte de "listing" des éléments de votre fichier initial
    • 3ème étape : Reconnaissance : les caractères sont comparés à une forme connue (la forme s'apelle la police, il en existe des milliers) ou une forme qui s'approche au plus possible des caractères selon une distance ou une vraisemblance apellée "likelihood"
    • 4ème étape : Post traitement : utilisation de dictionnaires linguistiques et syntaxiques pour réduire le nombre d'erreurs de reconnaissance : systèmes à base de règles, ou méthodes statistiques basées sur des dictionnaires de mots, de syllabes, de N-grammes (séquences de caractères ou de mots).
    • 5ème étape : Génération du format de sortie : le texte a été reconnu, il s'agit maintenant de le générer dans un format permettant à l'utilisateur de l'utiliser. Le format .txt pour du texte brut qui ne tiendra pas compte de la mise en page, ou alors le format .doc ou .pdf pour des technologies plus développées tenant compte de la mise en page, des cadres, des paragraphes ...

    En pratique

    Toutes ces étapes, c'est bien beau, mais comment l'utiliser ? Mettre en place votre propre système serait bien trop complexe à faire, c'est pourquoi je vous propose deux sites internet capables de décoder pour vous les textes au format papier dont vous voulez profiter.

    --> www.free-ocr.com

    Le premier site internet que je vous propose est http://free-ocr.com. Malheuresement en anglais, le site vous permettra de d'extraire le texte de 10 images par heure. Voici un simple tutoriel :
    • Numérisez votre fichier texte et enregistrez le en format d'image ou PDF (PDF, JPG, GIF, TIFF ou BMP). ATTENTION, le fichier de doit pas exéder les 2MB.
    • Cliquez sur "Parcourir" et selectionner le fichier.
    • Selectionnez la langue de votre document. Cela permettra à la reconnaissance de perfectionner la reconnaissance (Post traitement de l'étape 4)
    • Entrez le Captcha (mesure de sécurité anti-robots


     

    • Patientez pendant le chargement de l'image

    • C'est terminé ! la reconnaissance de votre texte s'affiche en haut de la page et vous n'avez plus qu'a le récupérer avec un "copier-coller"

    --> www.onlineocr.net

    Le deuxieme site internet que je vous propose est http://onlineocr.net. Il est aussi en anglais, mais la reconnaissance est légèrement plus performante- :
    • Numérisez votre fichier texte et enregistrez le en format d'image ou PDF (JPG, JPEG, BMP, TIFF, GIF).
    • Cliquez sur "Parcourir" et selectionner le fichier.
    • Selectionnez la langue de votre document "Recognition language".
    • Entrez le Captcha dans le champ "Please enter the code"
    • Patientez pendant le chargement de l'image
    • Selectionnez le format de sortie désiré, chose que ne vous permet pas free-ocr.com (DOC pour un document word, XLS pour un fichier excel et TXT pour du texte brut
    • Cliquez sur le bouton "Recognize"
    • C'est terminé ! la reconnaissance de votre texte est à récupérer en cliquant sur "Download outpout file"

     

    Soyez méfiant, il y a souvent des erreurs dans la reconnaissance et c'est à vous de réviser le texte pour éliminer les fautes. Si vous souhaitez bénéficier d'une reconnaissance optimale, alors il vous faudra probablement acheter un logiciel tel que ABBYY FineReader 11 à partir de 99euros ! voir abby.com


    Tags Tags : , , , , , , , , , , , , ,
  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :