Utiliser Power Query avec un fichier PDF à l’aide de Word 2013

Récemment, j’ai dû récupérer des données provenant d’un tableau inclus dans un fichier Adobe Acrobat (PDF). Évidemment, suite à toutes ces belles démos, mon premier réflexe était d’y aller avec la famille et utiliser Power Query.

strike

Je ne sais pas si la fonctionnalité viendra mais pour le moment, le format PDF n’est pas supporté.

Si vous n’avez aucune idée de ce qu’est Power Query, il s’agit d’un logiciel « compagnon » (add-in) gratuit (pour le moment, du moins) pour Excel, qui facilite la récupération de données à partir de plusieurs sources, l’aspect le plus intéressant étant sûrement la récupération de données à partir de tableaux dans une page Web. Power Query peut être téléchargé à partir du site Web de Microsoft: http://www.microsoft.com/fr-ca/download/details.aspx?id=39933.

Qu’à cela ne tienne, ma solution se trouve dans un autre produit Office: Word 2013.

  1. Ouvrir le document PDF à partir de Word 2013 . Dans la fenêtre de sélection de fichier, vous pouvez sélectionner le type de fichier PDF, ce qui accélérera votre recherche. Pour cette démonstration, j’utilise le rapport d’indice des prix à la consommation pour le Canada en octobre 2013:  http://www.statcan.gc.ca/pub/62-001-x/62-001-x2013010-fra.pdf.
  2. Il est probable que vous obteniez le message suivant. Tout va bien, vous pouvez en prendre connaissance et faire OK.
    2013-11-28 15_29_13-Microsoft Word
  3. Si vous avez un avertissement selon quoi le document est protégé, activez la modification.
  4. Maintenant, sauvegardez le document en prenant soin de spécifier le format Page Web (HTML). C’est ce qui rendra possible la lecture à partir de Power Query.
  5. C’est ce qui termine la portion Word. Maintenant, ouvrez Excel et créez un nouveau classeur.
  6. Sélectionnez l’onglet Power Query et choisissez l’option « Depuis le Web ».
    2013-11-28 21_15_14-Classeur1 - Excel
  7. Une fenêtre modale vous demandera de saisir l’URL de la page. Cette adresse peut être un fichier local.
    2013-11-28 21_17_26-
  8. Le navigateur apparaîtra à droite, affichant les différents tableaux trouvés sur cette page. Pour les besoins de cette démonstration, j’ai choisi le premier tableau puis j’ai appuyé sur le bouton Charger (situé au bas du Navigateur).
    2013-11-28 21_21_03-Classeur1 - Excel
    2013-11-28 21_34_40-Clipboard

Au moment d’écrire cet article, j’utilisais la mise à jour de Novembre 2013 de Power Query. Comme vous pouvez le voir, Power Query a détecté des caractères supplémentaires. Ceux-ci n’apparaissent pas dans le document HTML, alors on peut espérer que cette situation sera corrigée dans une version future. Ici, j’ai tout simplement la fonction Chercher/Remplacer pour enlever les caractères indésirables et ajouté manuellement les caractères accentués manquants. J’ai aussi corrigé certaines imperfections mais c’était plus rapide que de recopier la tableau au complet. Ce n’est pas la solution la plus élégante, je l’admets, mais elle fonctionne.

Si votre tableau est une image, vous êtes laissé à vous-même et la seule solution qu’il vous reste est d’utiliser un logiciel de reconnaissance des caractères.