ID87
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le Deal du moment : -40%
Tefal Ingenio Emotion – Batterie de cuisine 10 ...
Voir le deal
59.99 €

Bibliothèque d'exploration PDF

2 participants

Aller en bas

Bibliothèque d'exploration PDF Empty Bibliothèque d'exploration PDF

Message par Martial Lun 24 Aoû - 12:38

Salut à toutes et tous,

je suis à la recherche d'une bibliothèque (librairie, API, ...) qui me permette d'explorer des PDF.
Mon but est d'extraire des blocs texte et de les insérer dans un fichier au format Excel.
Le langage utilisé peut être java, perl ou python (éventuellement, pour ce dernier, j'aurais besoin d'un peu d'aide).
Martial
Martial

Masculin
Nombre de messages : 155
Age : 52
Localisation : TREDIAS (22)
Emploi/loisirs : Programmation, guitare, famille ... et pas nécessairement dans cet ordre :d
Date d'inscription : 13/03/2008

https://id87.superforum.fr

Revenir en haut Aller en bas

Bibliothèque d'exploration PDF Empty Re: Bibliothèque d'exploration PDF

Message par Alban Lun 31 Aoû - 15:05

Salut,
bon, a priori c'est pas gagné ton truc, parcequ'il semble difficile de trouver du texte "plein" dans un pdf. Le plus simple serait peut etre de convertir le pdf en autre chose (xml a priori) avant de le lire. Je te passe ce que j'ai trouvé (pour du perl)
http://www.glyphandcog.com/textext.html
http://pdftohtml.sourceforge.net/
http://search.cpan.org/~areibens/PDF-API2-0.73/lib/PDF/API2.pm
http://search.cpan.org/~antro/PDF-111/PDF.pm
http://search.cpan.org/~antro/PDF-111/PDF/Parse.pm
il y a peut etre d'autres choses sur http://search.cpan.org

++

Alban

Nombre de messages : 38
Age : 43
Localisation : nantes
Date d'inscription : 14/03/2008

Revenir en haut Aller en bas

Bibliothèque d'exploration PDF Empty Re: Bibliothèque d'exploration PDF

Message par Martial Mer 2 Sep - 11:44

Merci Alban,

Ca me permet de bien avancer. J'ai suivi ton conseil et teste une solution qui consisterait en une transfo en xml puis un parsing. pdftohtml le fait très bien et inclu dans les balises des attributs de position relative ce qui me permet de retrouver le texte exactement où je le veux.
Ensuite, soit je retranscrit ça dans un fichier Excel pour une comparaison en VBA, c'est peut être un peu lourd, soit je vais chercher le texte dans le fichier Excel pour le monter en mémoire et faire une comparaison de tableaux par exemple.
Si vous avez des idées ou des propositions de produits, je ne suis pas contre.
L'idée ici est de me permettre d'automatiser une partie de mon travail qui est assez lourdingue : la recette de messages marketing sur des factures. Pour une recette à peu près exhaustive, j'ai entre 1500 et 4000 cas et généralement, je reçois les devs 1 semaine (au mieux) avant livraison. Comme les seuls cas que je ne recette pas sont toujours ceux qui vont planter, j'aimerai automatiser une partie de façon à me dégager du temps pour le reste. Very Happy
Martial
Martial

Masculin
Nombre de messages : 155
Age : 52
Localisation : TREDIAS (22)
Emploi/loisirs : Programmation, guitare, famille ... et pas nécessairement dans cet ordre :d
Date d'inscription : 13/03/2008

https://id87.superforum.fr

Revenir en haut Aller en bas

Bibliothèque d'exploration PDF Empty Re: Bibliothèque d'exploration PDF

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
Ne ratez plus aucun deal !
Abonnez-vous pour recevoir par notification une sélection des meilleurs deals chaque jour.
IgnorerAutoriser