Cara Convert Pdf to Text dengan Library pdfminer Python - Bismillahirahmanirahin, alhamdulillah akhirnya bisa kembali mengupdate blog ini dengan konten yang insya Allah bermanfaat. Kali ini penulis akan berbagi bagaimana memperoleh data teks yang terdapat dalam suatu file pdf dengan menggunakan pemrograman dalam bahasa python dengan library pdfminer.
Sebelumnya mungkin teman-teman pasti telah mengetahui bahwa ada library dalam bahasa pemrograman python yang dapat digunakan untuk mengkonversi data file pdf untuk diambil teksnya saja atau convert pdf to text on python seperti library PyPDF2, PyMuPDF, tika package, pdfminer dan lain sebagainya. Kemudian teman-teman pasti mencari contoh kodingannya, tapi ternyata tidak menemukan satupun yang berjalan atau menemukan akan tetapi teman-teman bingung karena dituliskan penjelasannya dalam bahasa inggris? Nah kali ini akan dibagikan contoh kodingnya, semoga bermanfaat yaa hehe
Artikel sebelumnya Biterm Topic Model untuk Pemodelan Topik pada Teks Pendek
Baiklah langsung saja berikut adalah kodingannya, akan tetapi penulis membuatnya di colaboratory google sehingga tidak perlu menginstall sendiri pada perangkat PC penulis, karena google colaboratory merupakan cloud Jupyter notebook gratis yang disediakan oleh google.
Pertama-tama, karena menggunakan google colaboratory maka silakan anda masuk kedalam google drive anda lalu kemudian buat colaboratory baru, lebih lengkap cara membuat file colaboratory digoogle drive silakan baca artikel ini
File pdf yang akan penulis ambil teksnya terdapat dalam Google Drive penulis dengan nama kbbi.pdf dan kira-kira isinya seperti gambar dibawah ini.
Berikutnya karena dicolaboratory tidak ada modul atau library pdfminer, maka kita harus menginstallnya terlebih dahulu dengan pip install ya. Dan karena menggunakan python 3 maka gunakan kode pip seperti berikut ini.
Demikianlah how to convert pdf to text in python with pdfminer, semoga bermanfaat. Bagi teman-teman yang ingin melihat code pada google colaboratory silakan kunjugi link berikut ini dan untuk githubnya berikut ini
Artikel sebelumnya Biterm Topic Model untuk Pemodelan Topik pada Teks Pendek
Baiklah langsung saja berikut adalah kodingannya, akan tetapi penulis membuatnya di colaboratory google sehingga tidak perlu menginstall sendiri pada perangkat PC penulis, karena google colaboratory merupakan cloud Jupyter notebook gratis yang disediakan oleh google.
Pertama-tama, karena menggunakan google colaboratory maka silakan anda masuk kedalam google drive anda lalu kemudian buat colaboratory baru, lebih lengkap cara membuat file colaboratory digoogle drive silakan baca artikel ini
File pdf yang akan penulis ambil teksnya terdapat dalam Google Drive penulis dengan nama kbbi.pdf dan kira-kira isinya seperti gambar dibawah ini.
Berikutnya karena dicolaboratory tidak ada modul atau library pdfminer, maka kita harus menginstallnya terlebih dahulu dengan pip install ya. Dan karena menggunakan python 3 maka gunakan kode pip seperti berikut ini.
!pip install pdfminer.sixSelanjutnya tuliskan kode untuk mengautentikasi akun gdrive teman-teman agar teman-teman dapat me load file pdf yang terdapat dalam drive teman-teman.
from google.colab import driveKunjungi link yang muncul kemudian ikuti alurnya hingga teman-teman mendapatkan token untuk autentifikasi akun google drive anda. Selanjutnya silakan teman-teman berpindah pada direktori tempat teman-teman menyimpan file pdf nya, contohnya seperti dibawah ini. Jangan lupa juga untuk mengecek isi dari direktori tersebut dengan ls
drive.mount('/content/drive')
%cd /content/drive/'My Drive'/'Pindahan Skripsi'Berikutnya silakan akses library pdfminer dengan menuliskan kode dibawah ini dalam code cell google colaboratory.
!ls
import ioBuat fungsi untuk mengkonversi pdf menjadi teks dengan kode seperti yang ada dibawah ini.
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage
def extract_text_from_pdf(pdf_path):Terakhir akses fungsi tersebut untuk file pdf yang ingin anda ambil data teksnya, gunakan kode seperti dibawah ini. Disini penulis ingin mengambil teks yang ada dalam file pdf bernama kbbi
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle)
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open(pdf_path, 'rb') as fh:
for page in PDFPage.get_pages(fh,
caching=True,
check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
# close open handles
converter.close()
fake_file_handle.close()
if text:
return text
pdftotext = extract_text_from_pdf('kbbi.pdf')Hasil yang didapat dari proses diatas adalah seperti pada gambar dibawah ini
print(pdftotext)
Demikianlah how to convert pdf to text in python with pdfminer, semoga bermanfaat. Bagi teman-teman yang ingin melihat code pada google colaboratory silakan kunjugi link berikut ini dan untuk githubnya berikut ini
0 Komentar