การสกัดข้อความจากภาพโดยใช้คำสั่ง Python

0-2503-3610 hsoffice@stou.ac.th

Post author:worrawit
Post published:27/07/2023
Post category:ข่าวประชาสัมพันธ์

จากที่ผู้เขียนได้มีโอกาสเข้าอบรมหลักสูตร Machine Learning using Python ระหว่างวันที่ 12 – 14 มิถุนายน 2566 ที่ผ่านมา ซึ่งหลักสูตรดังกล่าว จัดโดย 9EXPERT COMPANY LIMITED โดยการอบรมครั้งนี้ได้รับการสนับสนุนจากทุนพัฒนาบุคลากรเพื่อการศึกษาทางไกล ประจำปีงบประมาณ 2566 โดยสรุปสาระสำคัญที่ได้จากการอบรมดังนี้

การรับรู้อักษรแบบเชิงตรรกะ (Optical Character Recognition, OCR) เป็นเทคนิคที่นิยมในการแปลงข้อมูลที่อยู่ในรูปแบบภาพเป็นข้อความที่เครื่องจักรสามารถอ่านได้ ในบทความนี้ เราจะสำรวจวิธีการใช้ Google Colab และ PyTesseract เพื่อสกัดข้อความจากภาพ

ขั้นตอนที่ 1: การติดตั้งไลบรารีที่จำเป็น

ขั้นแรกคือติดตั้งไลบรารีที่จำเป็นใน Google Colab โดยใช้คำสั่ง !pip และ !apt-get เราจะติดตั้งไลบรารี pytesseract และ pillow

ขั้นตอนที่ 2: การอัปโหลดไฟล์ภาพ

Google Colab มีคำสั่งง่ายๆ ในการอัปโหลดไฟล์ คุณสามารถใช้โค้ดต่อไปนี้เพื่ออัปโหลดไฟล์ภาพที่คุณต้องการประมวลผล

จะมีกล่องข้อความปรากฏขึ้นเพื่อให้คุณเลือกไฟล์จากระบบไฟล์ท้องถิ่นของคุณ จากนั้นให้เลือกรูปภาพที่ต้องการจากในอุปกรณ์ของคุณ

ในบทความนี้จะขอยกตัวอย่างเป็นรูปภาพนี้

ขั้นตอนที่ 3: การสกัดข้อความจากภาพ

เมื่อไฟล์ถูกอัปโหลดแล้ว คุณสามารถใช้ไลบรารี PyTesseract เพื่อสกัดข้อความจากภาพ โดยสร้างฟังก์ชันที่รับชื่อไฟล์ภาพและส่งคืนข้อความที่สกัดได้

ฟังก์ชัน Image.open จะเปิดไฟล์ภาพและ pytesseract.image_to_string จะสกัดข้อความจากภาพ

ในส่วนของ ‘your_image.png’ นั้นจะต้องถูกแทนที่ด้วยชื่อไฟล์ที่เราอัพโหลดเข้าไปในระบบ

ขั้นตอนที่ 4: การตีความผลลัพธ์

ผลลัพธ์จากฟังก์ชัน extract_text_from_image คือข้อความที่สกัดออกมาจากภาพ คุณภาพของผลลัพธ์จะขึ้นอยู่กับคุณภาพและความชัดเจนของข้อความในภาพ หากข้อความมีความเบลอ ขนาดเล็ก หรือยากต่อการอ่าน OCR อาจไม่สามารถสกัดข้อความอย่างถูกต้องได้

การสกัดข้อความจากภาพเป็นกระบวนการที่มีประโยชน์ในการเข้าใจและวิเคราะห์ข้อมูลที่มีอยู่ในรูปแบบภาพ ด้วย Google Colab และ PyTesseract คุณสามารถสร้างระบบ OCR ที่เข้าถึงได้และง่ายต่อการใช้งาน ในการประยุกต์ใช้กระบวนการนี้ จำเป็นต้องมีความเข้าใจในภาพรวมของการทำงานของ OCR และการแปลงข้อมูลระหว่างรูปแบบต่างๆ

สุดท้ายนี้ผู้เขียนขอขอบพระคุณสถานพัฒนาบุคลากรเพื่อการศึกษาทางไกลมหาวิทยาลัยสุโขทัยธรรมาธิราชที่ได้ให้โอกาสผู้เขียนในการร่วมเข้าอบรมเพื่อพัฒนาความรู้ด้านเทคโนโลยี

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

You Might Also Like

นักศึกษาที่ประสงค์จะเข้าทดสอบความรู้วิชาชีพการสาธารณสุขชุมชนของสภาการสาธารณสุขชุมชน ครั้งที่ 1/2563​

มหาวิทยาลัยสุโขทัยธรรมาธิราชปิดทำการเป็นการชั่วคราวระหว่างวันที่ 20 – 31 มีนาคม 2563

กำหนดการสัมมนาเสริม/เข้ม ชุดวิชาระดับบัณฑิตศึกษา ปีการศึกษา 2564

นักศึกษาที่ประสงค์จะเข้าทดสอบความรู้วิชาชีพการสาธารณสุขชุมชนของสภาการสาธารณสุขชุมชน ครั้งที่ 1/2563