France Hardware : Forums de discussion - Découvrez notre nouveau comparateur d'offres Internet
Retrouvez les prix près de chez vous :  
Index du forum | Liste des membres | Liste des groupes | Inscription | F-A-Q | Recherche
Pseudo :    Password :     
29 569 membres enregistrés - 2 069 856 posts - 122 187 topics
Index des forums FH  | Index des forums DegroupNews
      Systèmes et Logiciels Alternatifs
           scanner et convertir en rtf/open document...
122 connectés(record : 2799 le 29 May 2016 - 15 h 34)

Vous devez vous connecter pour répondre au topic.
scanner et convertir en rtf/open document...

manouchk
la vache!

Messages : 1 930
Inscrit le 25/12/02
Ville : Vitória (ES) Brésil
Non connecté
  Posté le 24 October 2006 - 02 h 13 m 48 s
Comme je donne des cours maintenant, je suis à la recherche de logiciel qui permette de
- scanner
- reconnaître des textes
- reconnaître des textes mélangés avec des graphiques/tabeaux/images => convertir en rtf ou autre format libre (!) avec le texte et les images (ou graphiques), optionnellement aussi bien lire les tableau et les transformer en tableau...

Ce serait bien si ça fonctionne en Anglais, en Portugais et en Français!!


En fait j'ai une imprimante-scanner HP 1410 et le logiciel HP fait des fichiers rtf je crois
Sinon j'ai entendu parler deTesseract OCR qui est justement un ex-logiciel commercial de HP, j'ai pas encore tester.

J'ai entendu dire que ça existe pour windows, me donner des programmes windows peut aussi m'aider pour faire une recherche type équivalent linux de tel programme windows...

Je ne connais que xsane et pour l'instant je sais faire du bitmap et de la reconnaissance de caractères dans du texte simple... pour le RTF c'est pas encore ça. Si vous connaissez mieux, je suis preneur!

A+



"Je ne suis pas chauvine mais la France est quand même la reine des fromages." Brigitte Fontaine chantant dans l'Europe de l'album "Des Visages Des Figures" de Noir Désir

alaingre
Keep It Simple, Stupid

Messages : 3 556
Inscrit le 27/11/03
Ville : grenoble
Non connecté
  Posté le 25 October 2006 - 21 h 01 m 14 s
Salut

Une petite visite sur l'encyclopédie peut donner pas mal de pistes

http://fr.wikipedia.org/wiki/Reconnaissance_optique_de_caract%C3%A8res

Le module GOCR de Kooka s'avère très décevant (mais Kooka est excellent)

Sur tesseract c'est du tout récent

Tesseract-OCR a été libéré en août 2006.


Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Conscient du potentiel de ce logiciel, il a récemment été décidé de le rendre disponible pour tout le monde en le publiant sous licence Apache v2. Tesseract-OCR est loin d'être aussi performant que les logiciels propriétaires actuellement sur le marché, mais devient de fait le meilleur moteur de reconnaissance de caractères libre.
http://www.linux.com/article.pl?sid=06/09/18/191251

Il y a un paquet sur http://sourceforge.net/projects/tesseract-ocr si j'arrive à tester je te tiens au courrant



Message édité 1 fois, la dernière par alaingre le 28 October 2006 - 00 h 21.

Un système d'exploitation libre et gratuit ça n'existe pas ! c'est effectivement ce que je me dis chaque fois que j'installe un système GNU/Linux sur un ordinateur. Je suis en train d'installer un truc qui n'existe pas !

alaingre
Keep It Simple, Stupid

Messages : 3 556
Inscrit le 27/11/03
Ville : grenoble
Non connecté
  Posté le 28 October 2006 - 00 h 02 m 52 s
Salut

J'ai trouvé un peu de doc sur les solutions open sources d'ocr

Un page qui faisait le point sur le sujet (en janvier dernier) http://www.newsforge.com/article.pl?sid=05/12/15/1848236
J'y ai appris qu'il existe tout de même des solutions propriétaires sous linux

Et tout récement sur tesseract http://www.linux.com/article.pl?sid=06/09/18/191251

Pour du concret Je viens de tester la version tesseract-1.02

Je n'ai pas encore trouver la version gratuite de google qui existe ?.

J'ai donc installé à partir des sources

Pour l'installation sous ubuntu je me suis servi des indications disponible sur cette page

http://www.blognote-info.com/index.php?2006/09/28/483-ocr-open-source-grace-a-google

La premiere fois que j'ai lancer la commande make il me manquait un paquet pour compiler correctement les sources à la lecture des logs j'ai compris qu'il manquait c++ (et j'ai donc installé le paquet)

Pour passer à la pratique j'ai fait une capture sur un document pdf (avec l'outil de sélection d'acrobat) et je l'ai coller dans Gimp pour l'enregistrer au format tif

La syntaxe d'un commande pour transformer le fichier roc.tif en en un ficher texte nommé roc est simple : ./tesseract roc.tif roc

Tesseract Open Source OCR Engine
Image has 24 bits per pixel and size (1114,754)
Resolution=72

Le premier résultat est vraiment prometteur >> http://brenta.free.fr/IMG/txt/roc.txt

Par rapport à l'original http://fr.openoffice.org/Marketing/matexpo/Documents/memoire_cnam.pdf on constate tout de même la disparition de l'accentuation ( ça va faire tourner le correcteur d'orthographe d'OOo :)

Mais à coté de la bouillie que me fait gocr sur kooka il n'y a pas photos :


Lemonopoleestl??etincontestable.Aujourd'huiceluiquisouhaites'??quiperneseposem??me
paslaquestion.llutiliseraMicrosoRO_ce.

Silemonopoleeste_ectivementun??tatdefait,est-ilcependantincontournable?

Microso_,fortdesespartsdemarch??sapprochantles990Mo,imposesavisioncommercialeet
goblige_tsesclients??demultiplesmises??joursouspeinedesetrouver??cart??sdetoutsyst??mede
communication.

L'ann??e2002marqueuntournant,aveclechangementdetarircationimpos??parMicrosoRqui
estmalv??cuparlesentreprisesainsiquel'aniv??esurlemarch??,desuitesbureautiquesbeaucoup
plusabouties.

Le1ermai2002,lesanalystesduGartnergroupindiquaientquelapolitiquedelicencede
Microso_pourraitpousserlesutilisateursversStarO_ce.





Message édité 3 fois, la dernière par alaingre le 28 October 2006 - 00 h 22.

Un système d'exploitation libre et gratuit ça n'existe pas ! c'est effectivement ce que je me dis chaque fois que j'installe un système GNU/Linux sur un ordinateur. Je suis en train d'installer un truc qui n'existe pas !

manouchk
la vache!

Messages : 1 930
Inscrit le 25/12/02
Ville : Vitória (ES) Brésil
Non connecté
  Posté le 28 October 2006 - 01 h 44 m 06 s
J'ai installé tesseract sur gentoo (il y a un ebuild sur bugs.gentoo.org si ça intéresse quelqu'un, il suffit de changer le numéro du fichier de 1.0 pour 1.02 pour avoir la dernière version)

Je viens de tester la même page que toi
http://emmanuelfavrenicolin.free.fr/Public/OCR_test/roc.tif
http://emmanuelfavrenicolin.free.fr/Public/OCR_test/roc.txt

En plus tesseract accept les tifs compressé avec lzw sur mon installation. C'est plus léger.

Évidemment tesseract doit être programmé seulement pour l'Anglais c'est pour ça qu'il ne reconnais pas les accents et qu'il ne reconnait pas les "le" et écrit "ie". Il faudrait voir comment c'est codé, la partie reconnaissance de syllabes ou mots est importante, je ne sais pas comment ça marche.
Il peut aussi avoir un module qui reconnait les langues des documents ce qui permet d'aider le logiciel dans sa décision, enfin j'y connaît pas grand chose. Je crois que j'avais lu un article sur kat ou beagle qui parle de ça.

Ah si, j'ai retrouvé! KTools_Kat.pdf

je crois que c'est là : http://www.linux-magazine.com/issue/62/KTools_Kat.pdf

je cite :
The algorithm used for
guessing the language or
encoding is called ngram-
based document categori-
zation. This algorithm di-
vides the text into small
pieces, each of which has
a length between one and
five characters. The various
pieces, which are called
ngrams, are then sorted by
the number of times they
occur in the text. This
sorted list of ngrams is
called a linguistic profile. The linguistic
profile can serve as the fingerprint for a
specific language. If two documents are
written in the same language, no matter
what domain they belong to, they will
present the same linguistic profile.

désolé pour l'anglais!



"Je ne suis pas chauvine mais la France est quand même la reine des fromages." Brigitte Fontaine chantant dans l'Europe de l'album "Des Visages Des Figures" de Noir Désir

alaingre
Keep It Simple, Stupid

Messages : 3 556
Inscrit le 27/11/03
Ville : grenoble
Non connecté
  Posté le 12 November 2006 - 18 h 17 m 47 s
Salut

j'ai revue ma copie sur Kooka en installant orcad (en plus ou au lieu gorc) j'optiens de bien meilleurs résultats et des fonctionnalités plus avancées que teseract - Pour installer orcrad - synaptic ou apt-get ....

Donc avec Kooka j'avais des résultats décevant (même en utilisant l' option de numérisation lineart et du noir et blanc comme cela normalement conseillé)

Voila le genre de chose à laquelle j'arrivais (je laisse sous forme d'image)


Dans les options de kooka on peut choisir d'utiliser le moteur ocrad plutot que gocr



Le résultat et nettement meilleur !


Et l'accentuation a été respectée
:)

Et chose intéressante - il est possible d'activer la reconnaissance des colonnes (ou disposition complète du texte)



Et ça marche :) voici le résultat d'un ocr sur deux colonnes

[quote]2.2. Concernant la Woody, elle sera nommée, soit 2.3, soit 3.0,
la décision n'est pas encore prise.

Aucune date de sortie n'est encore annoncée car, contrairement
aux distributions commerciales, la Debian ne souffre pas de plan-
ning astreignant : une nouvelle distribution ne sort pas lorsque le
service marketing |'a décidé, mais lorsqu'elle est prête ! Par prête,
il faut entendre "exempte de bugs" et "conforme aux buts fixés".
Pour la woody, les buts fixés sont (sans ordre précis) :

Refonte totale du jeu de disquettes d'installation
. Kernel (Noyau) version 2.4
. GlibC (Llibrairie c standard) version 2.2
. GCC (Compilateur c) version 3.0
. XFree86 (Interface graphique) version 4.0
. Perl (Langage de script) version 5.6
A |'heure où nous écrivons ces lignes, le noyau 2.4 n'est pas
encore sorti, de même que gcc 3.0 (version atuelle 2.95.2). Les
autres buts sont déjà atteints (glibc 2.2, xfree 4.0.1, perl 5.6.0),
restent à corriger les bugs.

Les grandes nouveautés de la Woody ont déjà été exposées
brièvement ci-dessus (kernel Z.4, glibc 2.2, wfree 4.0...). Voyons
donc le reste.
[/quote]
(le texte de la seconde colonne s'est ajouter à la suite )

[quote]Le nouveau sy5tème d'impression CUPS (pour "Common Unix
Printing System") a également fa¡t son apparition. Beaucoup plus
facile à administrer et à gérer, il va satisfaire tous ceux qui ont
passé des nuits blanches sur le fichier /etc/printcap - et ils sont
nombreux ! CUPS reste, bien entendu, compatible avec |'ancien
système d'impression de type BSD, les commandes basiques
comme "lpr" se voyant redirigées vers le serveur CUPS : il faudra,
pour cela, avoir installé le package "cupsys-bsd".

De nouveaux outils d'administration sont ajoutés à cette nouvelle
mouture. Par exemple, "deborphan" se propose de |¡ster tous les
packages dont aucun autre package ne dépend. Ainsi, rechercher
et supprimer les package5 inutiles deviennent un jeu d'enfant !
Autre exemple : auto-apt. Ce package ne propose rien de moins
que d'installer automatiquement les packages dont vous avez
beso¡n ! Exemple : imaginons que vous n'ayez pas installé xmms.
Si auto-apt est installé et lancé, il vous suffit de taper "xmms" sur
la ligne de commande pour que |'installation du package xmms
vous soit proposée... Et cela ne fonrtionne pas uniquement avec
les programmes, mais avec n'importe quel fichier auquel vous
tentez d'accéder, si celui-ci est connu comme appartenant à un
package quelconque ! Il faut admettre que c'est tout bonnement
génial. C'est grâce à ce genre d'innovation que la Debian possède
cette réputation, bien méritée d'ailleurs, de "paradis des adminis-
[/quote]


Encore mieux on peut activer la vérification de l'orthographe pour valider le résultats de la roc




Au final (si l'on ne corrige rien les mots inconnus ressortent sous une autre couleur !! )




PS J'ai pris ces options sur l'encodage et le dictionnaire mais je n'ai pas trouvé comment les conserver par défaut si quelqu'un avait un tuyau ?



Message édité 1 fois, la dernière par alaingre le 12 November 2006 - 18 h 19.

Un système d'exploitation libre et gratuit ça n'existe pas ! c'est effectivement ce que je me dis chaque fois que j'installe un système GNU/Linux sur un ordinateur. Je suis en train d'installer un truc qui n'existe pas !

alaingre
Keep It Simple, Stupid

Messages : 3 556
Inscrit le 27/11/03
Ville : grenoble
Non connecté
  Posté le 12 November 2006 - 18 h 34 m 49 s
i
mprimante-scanner HP 1410


Au cas ou tu ne le connaitrait pas sur cette série on peut utiliser hpij (il déjà intégré sur ubuntu edgi)
J'ai préféré installer la version propriétaire pour disposer de la hp-toolbox (Bien pratique pour contrôler les niveau, nettoyer les têtes, lancer un scanage (xsane) etc.

Le fichier d'installation est sur cette page
(un simple sh sur le fichier d'installation suffit) mais il vaut mieux vérifier ou installer avant quelques outils supplémentaires comme expliqué ici



Par contre je ne suis pas arriver à modifier le programme de reconnaissance de caractères par défaut d' xsane (gocr) pour le remplacer par ocrad .

En installant uniquement ocrad il est bien présent dans les préférences d'xsane mais cela ne fonctionne pas

si quelqu'un avait un tuyau






Un système d'exploitation libre et gratuit ça n'existe pas ! c'est effectivement ce que je me dis chaque fois que j'installe un système GNU/Linux sur un ordinateur. Je suis en train d'installer un truc qui n'existe pas !

Page genérée en 0.2843 secondes par RahForum 2.0 | Gzip off |  Stats |  Metaforums |  RSS
© 2004 Cerbere Systems.
Prix Matériel Informatique | Informatique Lyon | Informatique Grenoble | Informatique Annecy | Informatique Marseille | Informatique Bordeaux | Forum Informatique
ADSL | Actualité ADSL | Deligo | Appareil photo | Commande Au Volant
Creative Commons
Message Boards and Forums Directory