Re : [WIKISOURCE] Scan. de livres

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

Re : [WIKISOURCE] Scan. de livres

Traroth
Un petit bonus : comparatif des logiciels d'OCR sous Linux

http://linuxfr.org/2003/03/08/11651.html

Alexis

----- Message d'origine ----
De : Emmanuel Engelhart <[hidden email]>
À : Discussion à propos de l'association Wikimédia France <[hidden email]>
Envoyé le : Jeudi, 13 Décembre 2007, 11h29mn 46s
Objet : [Wikimediafr-l] [WIKISOURCE] Scan. de livres

Salut

Je cherche une solution libre pour traiter des pages d'écritures
scannées de livres à la chaîne

Je cherche un logiciel permettant de :
* Enlever les bordures noires et de manière générale les ombres
 (effet
de transparence)
* Re-équilibrer le texte par rotation simple.
* Re-découper automatiquement la page (par exemple 50px de marges
autour du bloc de texte)

Je ne trouve malheureusement rien et j'envisage donc de m'occuper
moi-même du problème.

Sachant que je suis tout nouveau face à ce problème, tout remarque,
tout conseil est le bienvenu.

Techniquement, j'envisage de faire un truc en script-fu (langage
scheme pour TheGimp). Cela en fera un outil libre, facile à modifier
et multi-plateforme ; en plus je n'aurai pas à m'occuper de la partie
algo. de traitement d'image.

Si vous avez aussi des échantillons de pages scannées en 300 dpi
 (voir
150), je suis aussi preneur (m'envoyer directement en privé). Cela me
permettrait d'évaluer une solution sur un panel large d'exemples.

Emmanuel

PS : Je viens de faire l'achat d'un AVISION FB6080E
(http://www.avision.de/?content=FB6080E). Ce scanner offre l'avantage
de scanner directement depuis la bordure de sa dalle. Sans être la
panacée, il permet de scanner des livres en réduisant beaucoup les
efforts au niveau de la reliure et au passage l'ombre (sur l'image) à
son niveau :
ce qui permet de scanner des livres (assez gros) inscannables autrement
(avec un scanner plat typique). Le tout fonctionne sous linux
parfaitement... avec quelques efforts ;)

_______________________________________________
Wikimediafr-l mailing list
[hidden email]
http://lists.wikimedia.org/mailman/listinfo/wikimediafr-l





      _____________________________________________________________________________
Ne gardez plus qu'une seule adresse mail ! Copiez vos mails vers Yahoo! Mail http://mail.yahoo.fr

_______________________________________________
Wikimediafr-l mailing list
[hidden email]
http://lists.wikimedia.org/mailman/listinfo/wikimediafr-l
Reply | Threaded
Open this post in threaded view
|

Re: Re : [WIKISOURCE] Scan. de livres

Emmanuel Engelhart-3
Salut

Sur le chan IRC de wikisource, quelqu'un m'a indiqué le logiciel unpaper.
http://unpaper.berlios.de/

Je l'ai essayé, mais n'ai pas réussi à lui faire faire ce que je veux
: purifier l'image
Cela est peut-être possible malgré tout sachant qu'il a vraiment de
nombreux parametres.

Certains des traitements qu'il offre sont intéressants et semblent
bien fonctionner. Par contre, j'ai un peu peur que en cherchant
uniquement à enlever le bruit il n'arrive pas à son objectif dans les
meilleures conditions.

Chercher à isoler l'information pertinente, pour ensuite l'extraire,
me semble plus prometteur.

Emmanuel

Le 14/12/07, Traroth<[hidden email]> a écrit :

> Un petit bonus : comparatif des logiciels d'OCR sous Linux
>
> http://linuxfr.org/2003/03/08/11651.html
>
> Alexis
>
> ----- Message d'origine ----
> De : Emmanuel Engelhart <[hidden email]>
> À : Discussion à propos de l'association Wikimédia France <[hidden email]>
> Envoyé le : Jeudi, 13 Décembre 2007, 11h29mn 46s
> Objet : [Wikimediafr-l] [WIKISOURCE] Scan. de livres
>
> Salut
>
> Je cherche une solution libre pour traiter des pages d'écritures
> scannées de livres à la chaîne
>
> Je cherche un logiciel permettant de :
> * Enlever les bordures noires et de manière générale les ombres
>  (effet
> de transparence)
> * Re-équilibrer le texte par rotation simple.
> * Re-découper automatiquement la page (par exemple 50px de marges
> autour du bloc de texte)
>
> Je ne trouve malheureusement rien et j'envisage donc de m'occuper
> moi-même du problème.
>
> Sachant que je suis tout nouveau face à ce problème, tout remarque,
> tout conseil est le bienvenu.
>
> Techniquement, j'envisage de faire un truc en script-fu (langage
> scheme pour TheGimp). Cela en fera un outil libre, facile à modifier
> et multi-plateforme ; en plus je n'aurai pas à m'occuper de la partie
> algo. de traitement d'image.
>
> Si vous avez aussi des échantillons de pages scannées en 300 dpi
>  (voir
> 150), je suis aussi preneur (m'envoyer directement en privé). Cela me
> permettrait d'évaluer une solution sur un panel large d'exemples.
>
> Emmanuel
>
> PS : Je viens de faire l'achat d'un AVISION FB6080E
> (http://www.avision.de/?content=FB6080E). Ce scanner offre l'avantage
> de scanner directement depuis la bordure de sa dalle. Sans être la
> panacée, il permet de scanner des livres en réduisant beaucoup les
> efforts au niveau de la reliure et au passage l'ombre (sur l'image) à
> son niveau :
> ce qui permet de scanner des livres (assez gros) inscannables autrement
> (avec un scanner plat typique). Le tout fonctionne sous linux
> parfaitement... avec quelques efforts ;)
>
> _______________________________________________
> Wikimediafr-l mailing list
> [hidden email]
> http://lists.wikimedia.org/mailman/listinfo/wikimediafr-l
>
>
>
>
>
>       _____________________________________________________________________________
> Ne gardez plus qu'une seule adresse mail ! Copiez vos mails vers Yahoo! Mail http://mail.yahoo.fr
>
> _______________________________________________
> Wikimediafr-l mailing list
> [hidden email]
> http://lists.wikimedia.org/mailman/listinfo/wikimediafr-l
>

_______________________________________________
Wikimediafr-l mailing list
[hidden email]
http://lists.wikimedia.org/mailman/listinfo/wikimediafr-l