- Back to Home »
- aplikasi , tutorial linux , tutorial ubuntu »
- EKSTRAK TEKS DARI PDF dan GAMBAR DENGAN GIMAGEREADER
Posted by : Unknown
Senin, 23 Maret 2015
gImageReader adalah antarmuka grafis GTK Tesseract-ocr, sebuah mesin software gratis optical character recognition (OCR).
Tesseract is a raw OCR engine, with no document layout analysis, no output formatting and no graphical user interface (GUI).
gImageReader memproses file gambar atau PDF yang kemudian dijadikan sebuah teks. Mendukung pemilihan kolom dan bagian dari dokumen, dapat membuka file PDF multipage atau gambar, mendukung semua format, dapat mengirimkan area yang dipilih ke Tesseract untuk recognition dan spell check output.
Optional: Install Tesseract OCR 3.0 SVN
Tesseract OCR 3.0 masih dalam pengembangan, tetapi dalam sebuah tes, bekerja jauh lebih baik pada versi stabil saat ini. Selanjutnya, PPA berikut dilengkapi dengan banyak tambahan file bahasa Tessaract jadi saya sarankan menginstal versi terbaru Tesseract OCR 3.0 SVN. Namun ini adalah sebuah opsional!
Add the PPA and install Tesseract OCR 3.0 SVN:
sudo add-apt-repository ppa:alex-p/notesalexp sudo apt-get update sudo apt-get install tesseract-ocr tesseract-ocr-eng
Anda dapat menginstal beberapa bahasa tambahan dari PPA ini, seperti Bulgaria, Catalan, Ceko, Denmark, Jerman, Yunani, Finlandia, Indonesia, Hungaria, Italia, Belanda, Polandia, Rumania, Spanyol dan sebagainya. Cukup mencari "Tesseract-ocr" di Synaptic dan Anda dapat dengan mudah menemukan semua paket ini - install yang Anda butuhkan.
Sekarang Anda harus menonaktifkan PPA: tekan ALT + F2 dan masukkan:
gksu software-properties-gtk
gImageReader
gImageReader tersedia untuk Linux serta Windows dan dapat didownload dari SINI (deb, rpm dan file exe yang tersedia).
Untuk menggunakan gImageReader, pilih file PDF yang ingin di Ekstrak menjadi sebuah teks, klik "Recognize All" untuk mengambil seluruh halaman atau menggunakan mouse untuk menyeleksi dan klik "Recognize Selection" untuk mengambil sebagian dari dokumen.
Jika anda telah menginstal bahasa Tesseract Ocr untuk PDF atau gambar yang Anda buka, gImageReader otomatis akan mendeteksi bahasa.
bagus tutorialnya
BalasHapushttp://officsoft.blogspot.com/2015/03/download-gimp-2814.html
terima kasih atas kunjungannya
Hapus