Bibliothèque d'exploration PDF
2 participants
ID87 :: Programmation :: Autres langages
Page 1 sur 1
Bibliothèque d'exploration PDF
Salut à toutes et tous,
je suis à la recherche d'une bibliothèque (librairie, API, ...) qui me permette d'explorer des PDF.
Mon but est d'extraire des blocs texte et de les insérer dans un fichier au format Excel.
Le langage utilisé peut être java, perl ou python (éventuellement, pour ce dernier, j'aurais besoin d'un peu d'aide).
je suis à la recherche d'une bibliothèque (librairie, API, ...) qui me permette d'explorer des PDF.
Mon but est d'extraire des blocs texte et de les insérer dans un fichier au format Excel.
Le langage utilisé peut être java, perl ou python (éventuellement, pour ce dernier, j'aurais besoin d'un peu d'aide).
Re: Bibliothèque d'exploration PDF
Salut,
bon, a priori c'est pas gagné ton truc, parcequ'il semble difficile de trouver du texte "plein" dans un pdf. Le plus simple serait peut etre de convertir le pdf en autre chose (xml a priori) avant de le lire. Je te passe ce que j'ai trouvé (pour du perl)
http://www.glyphandcog.com/textext.html
http://pdftohtml.sourceforge.net/
http://search.cpan.org/~areibens/PDF-API2-0.73/lib/PDF/API2.pm
http://search.cpan.org/~antro/PDF-111/PDF.pm
http://search.cpan.org/~antro/PDF-111/PDF/Parse.pm
il y a peut etre d'autres choses sur http://search.cpan.org
++
bon, a priori c'est pas gagné ton truc, parcequ'il semble difficile de trouver du texte "plein" dans un pdf. Le plus simple serait peut etre de convertir le pdf en autre chose (xml a priori) avant de le lire. Je te passe ce que j'ai trouvé (pour du perl)
http://www.glyphandcog.com/textext.html
http://pdftohtml.sourceforge.net/
http://search.cpan.org/~areibens/PDF-API2-0.73/lib/PDF/API2.pm
http://search.cpan.org/~antro/PDF-111/PDF.pm
http://search.cpan.org/~antro/PDF-111/PDF/Parse.pm
il y a peut etre d'autres choses sur http://search.cpan.org
++
Alban- Nombre de messages : 38
Age : 43
Localisation : nantes
Date d'inscription : 14/03/2008
Re: Bibliothèque d'exploration PDF
Merci Alban,
Ca me permet de bien avancer. J'ai suivi ton conseil et teste une solution qui consisterait en une transfo en xml puis un parsing. pdftohtml le fait très bien et inclu dans les balises des attributs de position relative ce qui me permet de retrouver le texte exactement où je le veux.
Ensuite, soit je retranscrit ça dans un fichier Excel pour une comparaison en VBA, c'est peut être un peu lourd, soit je vais chercher le texte dans le fichier Excel pour le monter en mémoire et faire une comparaison de tableaux par exemple.
Si vous avez des idées ou des propositions de produits, je ne suis pas contre.
L'idée ici est de me permettre d'automatiser une partie de mon travail qui est assez lourdingue : la recette de messages marketing sur des factures. Pour une recette à peu près exhaustive, j'ai entre 1500 et 4000 cas et généralement, je reçois les devs 1 semaine (au mieux) avant livraison. Comme les seuls cas que je ne recette pas sont toujours ceux qui vont planter, j'aimerai automatiser une partie de façon à me dégager du temps pour le reste.
Ca me permet de bien avancer. J'ai suivi ton conseil et teste une solution qui consisterait en une transfo en xml puis un parsing. pdftohtml le fait très bien et inclu dans les balises des attributs de position relative ce qui me permet de retrouver le texte exactement où je le veux.
Ensuite, soit je retranscrit ça dans un fichier Excel pour une comparaison en VBA, c'est peut être un peu lourd, soit je vais chercher le texte dans le fichier Excel pour le monter en mémoire et faire une comparaison de tableaux par exemple.
Si vous avez des idées ou des propositions de produits, je ne suis pas contre.
L'idée ici est de me permettre d'automatiser une partie de mon travail qui est assez lourdingue : la recette de messages marketing sur des factures. Pour une recette à peu près exhaustive, j'ai entre 1500 et 4000 cas et généralement, je reçois les devs 1 semaine (au mieux) avant livraison. Comme les seuls cas que je ne recette pas sont toujours ceux qui vont planter, j'aimerai automatiser une partie de façon à me dégager du temps pour le reste.
ID87 :: Programmation :: Autres langages
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|