Using Power Query on a PDF with some help from Word

Recently, I had to import data from a Adobe Acrobat file (PDF). Of course, with all those wonderful demos I had seen, my first reflex was to go with Power Query.

strike

I don’t know if the option will come in a future update but for the moment, the PDF file format is not supported.

In case you haven’t heard yet of Power Query, it’s a free (for the moment, at least) add-in for Excel which eases the task of discovering and accessing data from various sources, the most interesting aspect surely being the possibility to catch data from tables on a web page. Power Query can be downloaded from Microsoft: http://www.microsoft.com/en-us/download/details.aspx?id=39379.

But so be it, I found my solution in another Office product: Word 2013.

  1. Open the PDF document from Word 2013. You can choose to show only the PDF files to speed-up your search. For this demonstration, I use the Canadian Consumer Price Index report for October 2013: http://www.statcan.gc.ca/pub/62-001-x/62-001-x2013010-eng.pdf.
  2. You can get a message warning you that Word will convert the PDF document in editable Word document. No problem, that’s exactly what we want (my version of Office is in French, so, sorry about that).2013-11-28 15_29_13-Microsoft Word
  3. If you get a warning telling you the document is protected, activate the editing.
  4. Now, save the document and take the time to check that the Web Page (HTML) format is specified. That’s what will help us use the document with Power Query.
  5. This ends the Word part. Now, start Excel and create a new spreadsheet.
  6. Select the Power Query tab and choose the « From Web » option.
    2013-11-28 21_15_14-Classeur1 - Excel
  7. A dialog window will ask for an URL address. This URL can be a local file.
    2013-12-02 11_44_08-
  8. The Navigator will appear on the right, displaying the multiple tables found on that page. For this demo, i chose the third one and clicked on the Load button (located at the bottom of the Navigator)
    2013-12-15 21_26_11-Clipboard
    2013-12-15 21_27_07-Classeur3 - Excel

As of the writing of this article, I was using the  November 2013 update of Power Query. In the French version of the document, Power Query detected unwanted characters. Those do not appear in the original HTML document, so we can hope that problem willl be solved in a future version. Here, I simply used the Search & Replace function to remove those. I also corrrected manually some slight imperfections, but still, that was faster than typing everything from scratch. It’s not ideal, I  admit it, but it works.

If the table is an image, you’re on your own and the only solution left  is to use  an  optical character recognition software.

 

Utiliser Power Query avec un fichier PDF à l’aide de Word 2013

Récemment, j’ai dû récupérer des données provenant d’un tableau inclus dans un fichier Adobe Acrobat (PDF). Évidemment, suite à toutes ces belles démos, mon premier réflexe était d’y aller avec la famille et utiliser Power Query.

strike

Je ne sais pas si la fonctionnalité viendra mais pour le moment, le format PDF n’est pas supporté.

Si vous n’avez aucune idée de ce qu’est Power Query, il s’agit d’un logiciel « compagnon » (add-in) gratuit (pour le moment, du moins) pour Excel, qui facilite la récupération de données à partir de plusieurs sources, l’aspect le plus intéressant étant sûrement la récupération de données à partir de tableaux dans une page Web. Power Query peut être téléchargé à partir du site Web de Microsoft: http://www.microsoft.com/fr-ca/download/details.aspx?id=39933.

Qu’à cela ne tienne, ma solution se trouve dans un autre produit Office: Word 2013.

  1. Ouvrir le document PDF à partir de Word 2013 . Dans la fenêtre de sélection de fichier, vous pouvez sélectionner le type de fichier PDF, ce qui accélérera votre recherche. Pour cette démonstration, j’utilise le rapport d’indice des prix à la consommation pour le Canada en octobre 2013:  http://www.statcan.gc.ca/pub/62-001-x/62-001-x2013010-fra.pdf.
  2. Il est probable que vous obteniez le message suivant. Tout va bien, vous pouvez en prendre connaissance et faire OK.
    2013-11-28 15_29_13-Microsoft Word
  3. Si vous avez un avertissement selon quoi le document est protégé, activez la modification.
  4. Maintenant, sauvegardez le document en prenant soin de spécifier le format Page Web (HTML). C’est ce qui rendra possible la lecture à partir de Power Query.
  5. C’est ce qui termine la portion Word. Maintenant, ouvrez Excel et créez un nouveau classeur.
  6. Sélectionnez l’onglet Power Query et choisissez l’option « Depuis le Web ».
    2013-11-28 21_15_14-Classeur1 - Excel
  7. Une fenêtre modale vous demandera de saisir l’URL de la page. Cette adresse peut être un fichier local.
    2013-11-28 21_17_26-
  8. Le navigateur apparaîtra à droite, affichant les différents tableaux trouvés sur cette page. Pour les besoins de cette démonstration, j’ai choisi le premier tableau puis j’ai appuyé sur le bouton Charger (situé au bas du Navigateur).
    2013-11-28 21_21_03-Classeur1 - Excel
    2013-11-28 21_34_40-Clipboard

Au moment d’écrire cet article, j’utilisais la mise à jour de Novembre 2013 de Power Query. Comme vous pouvez le voir, Power Query a détecté des caractères supplémentaires. Ceux-ci n’apparaissent pas dans le document HTML, alors on peut espérer que cette situation sera corrigée dans une version future. Ici, j’ai tout simplement la fonction Chercher/Remplacer pour enlever les caractères indésirables et ajouté manuellement les caractères accentués manquants. J’ai aussi corrigé certaines imperfections mais c’était plus rapide que de recopier la tableau au complet. Ce n’est pas la solution la plus élégante, je l’admets, mais elle fonctionne.

Si votre tableau est une image, vous êtes laissé à vous-même et la seule solution qu’il vous reste est d’utiliser un logiciel de reconnaissance des caractères.