Jumat, 21 Januari 2011

OCR (Optical Character Recognition,)

Pengertian OCR
  
 OCR adalah sebuah sistem komputer yang dapat membaca huruf, baik yang berasal dari sebuah pencetak (printer atau mesin ketik) maupun yang berasal dari tulisan tangan. Adanya sistem pengenal huruf ini akan meningkatkan fleksibilitas ataupun kemampuan dan kecerdasan system komputer. Dengan adanya sistemOCR maka user dapat lebih leluasa memasukkan data karena user tidak harus memakai papan ketik tetapi bias menggunakan pena elektronik untuk menulis sebagaimana user menulis di kertas. Adanya OCR juga akan memudahkan penanganan pekerjaan yang memakai input tulisan seperti penyortiran surat di kantor pos, pemasukan data buku di perpustakaan, dll. Adanya sistem pengenal huruf yang cerdas akan sangat membantu usaha besar-besaran yang saat ini dilakukan banyak pihak yakni usaha digitalisasi informasi dan pengetahuan, misalnya dalam pembuatan koleksi pustaka digital, koleksi sastra kuno digital, dll. OCR dapat dipandang sebagai bagian dari pengenal otomatis yang lebih luas yakni pengenal pola otomatis (automatic pattern recognition). 

Dalam pengenal pola otomatis, sistem pengenal pola mencoba mengenali apakah citra masukan yang diterima cocok dengan salah satu citra yang telah ditentukan. Sistem ini misalnya dipakai untuk mendeteksi sidik jari, tanda tangan, bahkan wajah seseorang. Ada banyak pendekatan yang dapat dipakai untuk mengembangkan pembuatan pengenal pola otomatis antara lain memakai pendekatan numerik, statistik, sintaktik, neural dan, aturan produksi (rule-based). Secara umum metode-metode tersebut dapat digolongkan menjadi dua kelompok metode yakni metode berbasis statistik dan metode berbasis struktur. Dalam metode yang berbasis statistik, setiap pola ditransformasi ke dalam vektor yang memakai ukuran dan karakteristik tertentu. Karakteristik ini seringkali lebih bersifat statistik misalnya distribusi pixel ataupun jarak pixel. Sedang dalam metode yang berbasis struktur, setiap pola yang diproses dinyatakan sebagai gabungan beberapa struktur elementer. 

Pengenalan selanjutnya dilakukan dengan mencocokkan komposisi struktur elementer dengan struktur yang sudah disimpan memakai aturan tertentu misalnya memakai pendekatan teori bahasa formal dan automata. Secara umum blok diagram kerja OCR adalah sebagai berikut : dengan struktur yang sudah disimpan memakai aturan tertentu misalnya memakai pendekatan teori bahasa formal dan automata. Secara umum blok diagram kerja OCR adalah sebagai berikut :

Data Capture Data capture merupakan proses konversi suatu dokumen (hardcopy) menjadi suatu file gambar (BMP).
Preprocessing Preprocessing merupakan suatu proses untuk • menghilangkan bagian-bagian yang tidak diperlukan pada gambar input untuk proses selanjutnya. Beberapa contoh preprocessing adalah noise filtering.
Segmentation Segmentasi adalah proses memisahkan area pengamatan (region) pada tiap karakter yang akan dideteksi.
Normalization Normalization adalah proses merubah dimensi region • tiap karakter dan ketebalan karakter. Dalam OCR algoritma yang digunakan pada proses ini adalah algoritma scaling dan thinning.
Feature Extraction Feature Extraction adalah proses untuk mengambil • Recognition ciri-ciri tertentu dari karakter yang diamati. • Recognition merupakan proses untuk mengenali karakter yang diamati dengan cara membandingkan ciri-ciri karakter yang diperoleh dengan ciri-ciri karakter yang ada pada database.
Postprocessing Pada umumnya proses yang dilakukan pada tahap ini • adalah proses koreksi ejaan sesuai dengan bahasa yang digunakan.

Cara Melakukan OCR


Optical Character Recognition, yang biasa disingkat OCR) adalah alat mekanis atau elektronika yang digunakan untuk menerjemahkan menerjemahkan tulisan tangan ataupun naskah ketikan (biasanya dipindai menggunakan pemindai/scanner) menjadi teks yang dapat diedit dengan suatu aplikasi komputer.
Sehingga dengan adanya OCR kita tidak lagi harus repot mengetik ulang naskah ketikkan yang sangat banyak. Contohnya kita akan mengetik ulang buku. Kebayang gak jika kita harus mengetik ulang kembali buku tersebut ?
Untuk melakukan OCR sendiri harus memerlukan sebuah perangkat lunak dan perangkat keras. Scanner merupakan salah satu perangkat keras yang dibutuhkan. Sedangkan untuk perangkat lunaknya adalah seperti Omnipage, Abbyy FineReader, dll. Info lengkapnya bisa dibaca di http://en.wikipedia.org/wiki/OCR_Software.
Nah bagaimana jika kita tidak memiliki perangkat keras ? Dapatkan OCR dijalankan ? Dengan menggunakan teknik sederhana, kita bisa mencoba menggunakan OCR.
Mau tau caranya ? Ikuti langkah2 berikut ini :
1. Simpanlah file contoh ini kedalam komputer anda. [download]
2. Buka Microsoft PowerPoint, dan insertkan file gambar tersebut kedalam dokumen presentasi anda.
3. Klik Kanan pada gambar, pilih Save Picture As, beri nama file dan pilih format penyimpanan menjadi TIFF.
4. Lalu buka Microsoft Office Document Imaging dari Menu Start > All Programs > Microsoft Office > Microsoft Office Tools > Microsoft Office Document Imaging.
5. Bukalah file tiff tadi melalui Microsoft Office Document Imaging.
6. Pilih Tools > Recognize Text Using OCR
7. Setelah proses konversi selesai, blok teks yang ingin diambil dengan menggunakan select tool.
 
8. Pilih Tools > Send Text To Word.
 
Hasil dari Konversi ditampilkan kedalam dokumen Word.


APLIKASI YANG BISA MELAKUKAN OCR
Untuk melakukan OCR ada beberapa software yang mendukung nya diantaranya adalah

     
Didalam melakukan OCR ada beberapa perangkat software dan hardware yang harus diperhatikan untuk informasi lebih lanjut kunjungi : http://en.wikipedia.org/wiki/OCR_Software

0 komentar:

Posting Komentar