Cara Convert Pdf to Text pada Python dengan Library pdfminer

Cara Convert Pdf to Text dengan Library pdfminer Python - Bismillahirahmanirahin, alhamdulillah akhirnya bisa kembali mengupdate blog ini dengan konten yang insya Allah bermanfaat. Kali ini penulis akan berbagi bagaimana memperoleh data teks yang terdapat dalam suatu file pdf dengan menggunakan pemrograman dalam bahasa python dengan library pdfminer.

Sebelumnya mungkin teman-teman pasti telah mengetahui bahwa ada library dalam bahasa pemrograman python yang dapat digunakan untuk mengkonversi data file pdf untuk diambil teksnya saja atau convert pdf to text on python seperti library PyPDF2, PyMuPDF, tika package, pdfminer dan lain sebagainya. Kemudian teman-teman pasti mencari contoh kodingannya, tapi ternyata tidak menemukan satupun yang berjalan atau menemukan akan tetapi teman-teman bingung karena dituliskan penjelasannya dalam bahasa inggris? Nah kali ini akan dibagikan contoh kodingnya, semoga bermanfaat yaa hehe

Artikel sebelumnya Biterm Topic Model untuk Pemodelan Topik pada Teks Pendek

Baiklah langsung saja berikut adalah kodingannya, akan tetapi penulis membuatnya di colaboratory google sehingga tidak perlu menginstall sendiri pada perangkat PC penulis, karena google colaboratory merupakan cloud Jupyter notebook gratis yang disediakan oleh google.

Pertama-tama, karena menggunakan google colaboratory maka silakan anda masuk kedalam google drive anda lalu kemudian buat colaboratory baru, lebih lengkap cara membuat file colaboratory digoogle drive silakan baca artikel ini

File pdf yang akan penulis ambil teksnya terdapat dalam Google Drive penulis dengan nama kbbi.pdf dan kira-kira isinya seperti gambar dibawah ini.

Berikutnya karena dicolaboratory tidak ada modul atau library pdfminer, maka kita harus menginstallnya terlebih dahulu dengan pip install ya. Dan karena menggunakan python 3 maka gunakan kode pip seperti berikut ini.

!pip install pdfminer.six

Selanjutnya tuliskan kode untuk mengautentikasi akun gdrive teman-teman agar teman-teman dapat me load file pdf yang terdapat dalam drive teman-teman.

from google.colab import drive
drive.mount('/content/drive')

Kunjungi link yang muncul kemudian ikuti alurnya hingga teman-teman mendapatkan token untuk autentifikasi akun google drive anda. Selanjutnya silakan teman-teman berpindah pada direktori tempat teman-teman menyimpan file pdf nya, contohnya seperti dibawah ini. Jangan lupa juga untuk mengecek isi dari direktori tersebut dengan ls

%cd /content/drive/'My Drive'/'Pindahan Skripsi'
!ls

Berikutnya silakan akses library pdfminer dengan menuliskan kode dibawah ini dalam code cell google colaboratory.

import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage

Buat fungsi untuk mengkonversi pdf menjadi teks dengan kode seperti yang ada dibawah ini.

def extract_text_from_pdf(pdf_path):
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle)
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open(pdf_path, 'rb') as fh:
for page in PDFPage.get_pages(fh,
caching=True,
check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
# close open handles
converter.close()
fake_file_handle.close()
if text:
return text

Terakhir akses fungsi tersebut untuk file pdf yang ingin anda ambil data teksnya, gunakan kode seperti dibawah ini. Disini penulis ingin mengambil teks yang ada dalam file pdf bernama kbbi

pdftotext = extract_text_from_pdf('kbbi.pdf')
print(pdftotext)

Hasil yang didapat dari proses diatas adalah seperti pada gambar dibawah ini

Demikianlah how to convert pdf to text in python with pdfminer, semoga bermanfaat. Bagi teman-teman yang ingin melihat code pada google colaboratory silakan kunjugi link berikut ini dan untuk githubnya berikut ini

semangat27

Cara Convert Pdf to Text pada Python dengan Library pdfminer

Baca Juga ya

0 Komentar