Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Bir PDF dosyasındaki bir elektronik tablodan bir Microsoft Excel sayfasına veri aktarma görevi her zaman "eğlencelidir". Özellikle FineReader veya bunun gibi pahalı bir tanıma yazılımınız yoksa. Doğrudan kopyalama genellikle iyi bir şeye yol açmaz, çünkü. kopyalanan verileri sayfaya yapıştırdıktan sonra, büyük olasılıkla tek bir sütunda "birbirine yapışacaktır". Bu nedenle, bir alet kullanılarak özenle ayrılmaları gerekecek. Sütunlara göre metin sekmeden Veri (Veri — Metni Sütunlara Dönüştür).

Ve elbette, kopyalama sadece bir metin katmanının olduğu, yani kağıttan PDF'ye yeni taranmış bir belgenin bulunduğu PDF dosyaları için mümkündür, bu prensipte çalışmayacaktır.

Ama çok üzücü değil, gerçekten 🙂

Office 2013 veya 2016'nız varsa, birkaç dakika içinde ek programlar olmadan verileri PDF'den Microsoft Excel'e aktarmak oldukça mümkündür. Ve Word ve Power Query bu konuda bize yardımcı olacaktır.

Örneğin, Avrupa Ekonomik Komisyonu'nun web sitesinden bir dizi metin, formül ve tablo içeren bu PDF raporunu alalım:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

… ve Excel'de çıkarmaya çalışın, ilk tabloyu söyleyin:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Haydi gidelim!

1. Adım. PDF'yi Word'de açın

Nedense çok az kişi biliyor, ancak 2013'ten beri Microsoft Word, PDF dosyalarını açmayı ve tanımayı öğrendi (taranmış olanlar bile, yani bir metin katmanı olmadan!). Bu tamamen standart bir şekilde yapılır: Word'ü açın, tıklayın Dosya – Aç (Dosya — Aç) ve pencerenin sağ alt köşesindeki açılır listeden PDF biçimini belirtin.

Ardından ihtiyacımız olan PDF dosyasını seçin ve tıklayın. Açılış (Açık). Word bize bu belgede metne OCR çalıştıracağını söyler:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Kabul ediyoruz ve birkaç saniye içinde PDF'imizin zaten Word'de düzenlemeye açık olduğunu göreceğiz:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Elbette tasarım, stiller, yazı tipleri, üstbilgiler ve altbilgiler vb. kısmen belgeden uçacaktır, ancak bu bizim için önemli değil - yalnızca tablolardan gelen verilere ihtiyacımız var. Prensip olarak, bu aşamada, tabloyu tanınan belgeden Word'e kopyalamak ve basitçe Excel'e yapıştırmak zaten caziptir. Bazen işe yarar, ancak daha sıklıkla her türlü veri bozulmasına yol açar - örneğin, bizim durumumuzda olduğu gibi sayılar tarihlere dönüşebilir veya metin olarak kalabilir, çünkü. PDF, ayırıcı olmayanlar kullanır:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

O halde hadi lafı uzatmayalım, her şeyi biraz daha karmaşık hale getirelim, ama doğru.

2. Adım: Belgeyi Web Sayfası Olarak Kaydet

Daha sonra alınan verileri Excel'e (Power Query aracılığıyla) yüklemek için, Word'deki belgemizin web sayfası biçiminde kaydedilmesi gerekir - bu durumda bu biçim, Word ve Excel arasında bir tür ortak paydadır.

Bunu yapmak için menüye gidin Dosya – Farklı Kaydet (Dosya — Farklı Kaydet) veya tuşuna basın F12 klavyede ve açılan pencerede dosya türünü seçin Web sayfası tek dosyada (Web sayfası — Tek dosya):

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Kaydettikten sonra mhtml uzantılı bir dosya almalısınız (Explorer'da dosya uzantılarını görüyorsanız).

Aşama 3. Dosyayı Power Query ile Excel'e yükleme

Oluşturulan MHTML dosyasını doğrudan Excel'de açabilirsiniz, ancak daha sonra ilk önce PDF'nin tüm içeriğini bir kerede metin ve bir sürü gereksiz tablo ile birlikte alacağız ve ikincisi, yanlış nedeniyle tekrar veri kaybedeceğiz. ayırıcılar. Bu nedenle Excel'e içe aktarmayı Power Query eklentisi aracılığıyla yapacağız. Bu, hemen hemen her kaynaktan (dosyalar, klasörler, veritabanları, ERP sistemleri) Excel'e veri yükleyebileceğiniz ve ardından alınan verileri mümkün olan her şekilde dönüştürerek istediğiniz şekli verebileceğiniz tamamen ücretsiz bir eklentidir.

Excel 2010-2013'e sahipseniz, Power Query'yi resmi Microsoft web sitesinden indirebilirsiniz - kurulumdan sonra bir sekme göreceksiniz Güç Sorgu. Excel 2016 veya daha yenisine sahipseniz, hiçbir şey indirmenize gerek yoktur - tüm işlevler varsayılan olarak Excel'de yerleşiktir ve sekmede bulunur Veri (Tarih) grup içinde İndir ve Dönüştür (Al ve Dönüştür).

Bu yüzden ya sekmeye gidiyoruz Veri, veya sekmesinde Güç Sorgu ve bir takım seçin Veri almak için or Sorgu Oluştur – Dosyadan – XML'den. Yalnızca XML dosyalarını görünür kılmak için pencerenin sağ alt köşesindeki açılır listedeki filtreleri şu şekilde değiştirin: Tüm dosyalar (Tüm dosyalar) ve MHTML dosyamızı belirtin:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Lütfen içe aktarma işleminin başarıyla tamamlanmayacağını unutmayın, çünkü. Power Query bizden XML bekliyor, ancak aslında bir HTML biçimimiz var. Bu nedenle, görünen bir sonraki pencerede, Power Query tarafından anlaşılmayan dosyaya sağ tıklamanız ve biçimini belirtmeniz gerekir:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Bundan sonra dosya doğru bir şekilde tanınacak ve içerdiği tüm tabloların bir listesini göreceğiz:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

Veri sütunundaki hücrelerin beyaz arka planında (Tablo sözcüğünde değil!) farenin sol düğmesine tıklayarak tabloların içeriklerini görüntüleyebilirsiniz.

İstenilen tablo tanımlandığında yeşil kelimeye tıklayın tablo – ve içeriğine “düşersiniz”:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

İçeriğini “taramak” için birkaç basit adım atmaya devam ediyor, yani:

  1. gereksiz sütunları silin (sütun başlığına sağ tıklayın - Kaldır)
  2. noktaları virgülle değiştirin (sütunları seçin, sağ tıklayın - değerleri değiştirme)
  3. başlıktaki eşittir işaretlerini kaldırın (sütunları seçin, sağ tıklayın - değerleri değiştirme)
  4. üst satırı kaldır (Ana Sayfa – Satırları sil – Üst satırları sil)
  5. boş satırları kaldır (Ana Sayfa – Satırları sil – Boş satırları sil)
  6. ilk satırı tablo başlığına yükseltin (Ana Sayfa – İlk satırı başlık olarak kullanın)
  7. bir filtre kullanarak gereksiz verileri filtreleyin

Tabla normal haline getirildiğinde komutu ile levha üzerine boşaltılabilir. kapat ve indir (Kapat ve Yükle) on Ana sekme. Ve zaten çalışabileceğimiz bir güzellik elde edeceğiz:

Power Query aracılığıyla verileri PDF'den Excel'e aktarın

  • Power Query ile Bir Sütunu Tabloya Dönüştürme
  • Yapışkan metni sütunlara bölme

Yorum bırak