EKSTRAK TEKS DARI PDF dan GAMBAR DENGAN GIMAGEREADER

Posted by : Unknown Senin, 23 Maret 2015

gImageReader adalah antarmuka grafis GTK Tesseract-ocr, sebuah mesin software gratis optical character recognition (OCR).

Tesseract is a raw OCR engine, with no document layout analysis, no output formatting and no graphical user interface (GUI).

gImageReader memproses file gambar atau PDF yang kemudian dijadikan sebuah teks. Mendukung pemilihan kolom dan bagian dari dokumen, dapat membuka file PDF multipage atau gambar, mendukung semua format, dapat mengirimkan area yang dipilih ke Tesseract untuk recognition dan spell check output.

Optional: Install Tesseract OCR 3.0 SVN

Tesseract OCR 3.0 masih dalam pengembangan, tetapi dalam sebuah tes, bekerja jauh lebih baik pada versi stabil saat ini. Selanjutnya, PPA berikut dilengkapi dengan banyak tambahan file bahasa Tessaract jadi saya sarankan menginstal versi terbaru Tesseract OCR 3.0 SVN. Namun ini adalah sebuah opsional!

Add the PPA and install Tesseract OCR 3.0 SVN:

sudo add-apt-repository ppa:alex-p/notesalexp sudo apt-get update sudo apt-get install tesseract-ocr tesseract-ocr-eng

Anda dapat menginstal beberapa bahasa tambahan dari PPA ini, seperti Bulgaria, Catalan, Ceko, Denmark, Jerman, Yunani, Finlandia, Indonesia, Hungaria, Italia, Belanda, Polandia, Rumania, Spanyol dan sebagainya. Cukup mencari "Tesseract-ocr" di Synaptic dan Anda dapat dengan mudah menemukan semua paket ini - install yang Anda butuhkan.

Sekarang Anda harus menonaktifkan PPA: tekan ALT + F2 dan masukkan:

gksu software-properties-gtk

Maka, pada tab "Other Software" carilah line (s) yang mengatakan "http://ppa.launchpad.net/alex-p/notesalexp"kemudian nonaktifkan atau menghapusnya.

gImageReader

gImageReader tersedia untuk Linux serta Windows dan dapat didownload dari SINI (deb, rpm dan file exe yang tersedia).

Untuk menggunakan gImageReader, pilih file PDF yang ingin di Ekstrak menjadi sebuah teks, klik "Recognize All" untuk mengambil seluruh halaman atau menggunakan mouse untuk menyeleksi dan klik "Recognize Selection" untuk mengambil sebagian dari dokumen.

Jika anda telah menginstal bahasa Tesseract Ocr untuk PDF atau gambar yang Anda buka, gImageReader otomatis akan mendeteksi bahasa.