شذى عبد الرحيم خليفة الرضي1
1 محاضرة بجامعة المستقبل قسم الجرافيك، محاضر بجامعة البيان كلية علوم الحاسوب وتقانة المعلومات، قسم علوم الحاسوب،
بريد الكتروني: shazaabdo33@gmail.com
HNSJ, 2022, 3(11); https://doi.org/10.53796/hnsj3113
تاريخ النشر: 01/11/2022م تاريخ القبول: 04/10/2022م
المستخلص
لقد كان التعرف البصري على الحروف جزءًا لا يتجزأ من حياة الإنسان أثناء المعاملات اليومية. ” OCR” قام بتوسيع مجالات تطبيقه في جميع المجالات تقريبًا مثل الرعاية صحية، المالية والمصرفية والترفيه ونظام التداول والتخزين الرقمي وما إلى ذلك. في الماضي القريب عملية التعرف على الكتابة اليدوية أحد أصعب مجالات الدراسة في مجال معالجة الصور. في هذه الورقة سوف نتناول التقنيات المتنوعة لتحويل المحتوى النصي المطبوع من لوحات الأرقام ، والمستند الورقي المكتوب بخط اليد إلى اى جهاز الكتروني. تُعرف طريقة التحويل المستخدمة في كل هذه التقنيات باسم التعرف الضوئي على الحروف. يعد نظام التعرف الضوئي على الحروف باللغة الإنجليزية ضروريًا لتحويل العديد من الكتب المنشورة وغيرها من المستندات باللغة الإنجليزية إلى ملفات نصية حاسوبية قابلة للتحرير. أحدث الأبحاث في هذا المجال تضمنت المنهجيات التي تحدد الخطوط والأنماط المختلفة للنصوص الإنجليزية المكتوبة بخط اليد. على الرغم من توفر عدد من الخوارزميات ، إلا أن لكلً منها مزاياها وعيوبها. ان عملية التعرف على الأنماط والخطوط المختلفة في النص الإنجليزي المطبوع يدويًا والمكتوب يدويًا هو التحدي الأكبر ، هذا المجال مفتوح للباحثين لتطبيق خوارزميات جديدة من شأنها التغلب على أوجه القصور فيه.
الكلمات المفتاحية: معالجة الصور- التعرف الضوئي على الحروف – طرق التحويل- خوارزميات.
Recognize texts using machine learning
Shaza Abdul Rahim Khalifa Al-Radhi1
1 Lecturer at Future University, Graphic Department, Lecturer at Al Bayan University, College of Computer Science and Information Technology, Department of Computer Science,
Email: shazaabdo33@gmail.com
HNSJ, 2022, 3(11); https://doi.org/10.53796/hnsj3112
Published at 01/11/2022 Accepted at 04/10/2021
Abstract
Optical Character Recognition has been an integral part of human life during everyday transactions. OCR has expanded its application areas in almost all areas such as healthcare, financial, banking, entertainment, trading system, digital storage, etc. In the recent past, handwriting recognition was one of the most difficult areas of study in the field of image processing. In this paper we will address various techniques for converting printed text content from number plates, and handwritten paper document to any electronic device. The conversion method used in all these technologies is known as OCR. An English OCR system is necessary to convert many published books and other documents in English into editable computer text files. The most recent research in this field has included methodologies that identify the different fonts and styles of handwritten English texts. Although a number of algorithms are available, each has its own advantages and disadvantages. The process of recognizing the different patterns and fonts in hand-printed and handwritten English text is the biggest challenge, this field is open to researchers to apply new algorithms that will overcome its shortcomings.
Key Words: image processing – OCR – conversion method – algorithms
- المقدمة:
تُعرف العملية التي تقوم بتحويل المستندات بتنسيق صورة إلى تنسيق نص قابل للتحرير باسم التعرف الضوئي على الحروف ” OCR” . لقد دعم” OCR” صور المستندات الممسوحة ضوئيًا لتصبح أكثر من مجرد ملفات صور ، وتغييرها إلى مستندات نصية يمكن البحث عنها والتعرف عليها بواسطة أجهزة الكمبيوتر. يمكن استخراج النص من الصورة المدخلة باستخدام عمليات التعرف الضوئي على الحروف ويمكن تخزينها إلكترونيًا في قاعدة بيانات” OCR” . وهي عملية من ثلاث خطوات. في الخطوة الأولى ، يتم مسح المستند ضوئيًا وتحويله إلى صورة الوثيقة. في الخطوة التالية ، يتم تطبيق بعض المعالجة المعقدة لاستخراج الأحرف من ملف الصورة وتحويلها إلى أحرف ” ASCII ” قابلة للتحرير. في الخطوة الأخيرة يتم إجراء التحقق للتحقق من الانماط سواء كانت صحيحة أم لا. تم تقسيم التعرف على الأحرف بشكل أساسي إلى فئتين رئيسيتين هما: التعرف الأحرف المطبوعة آليًا والتعرف الأحرف المكتوبة بخط اليد. تم فصل التعرف على الأحرف المكتوبة بخط اليد مرة أخرى إلى التعرف على الأحرف في وضع عدم الاتصال والتعرف على الأحرف عبر الإنترنت. تم تنفيذ التعرف على الأحرف عبر الإنترنت أثناء كتابة المستخدم للنمط في الوقت الفعلي. يتم إجراء التعرف على الأحرف دون اتصال على صور نصية مطبوعة بخط اليد.
2- دراسات حول التعرف الضوئي للحروف:
هناك العديد من الدراسات التي اتجهت حول التعرف الضوئي للحروف وذلك نتيجة للحوجة الملحة للتعامل من النصوص المطبوعة اوالممسوحة ضوئياً.
دراسة (Singh, T. P., Gupta, S., & Garg, M. (2022)) تناولت هذه الدراسة التعلم الآلي و هو تطبيق شائع للذكاء الاصطناعي ، يمنح الآلات القدرة على التعلم من البيانات تلقائيًا والتحسين من خلال التجربة دون أن تتم برمجتها بشكل صريح. يعد التعلم الخاضع للإشراف واحدًا من مجالين عريضين للتعلم الآلي يتعاملان مع مهمة التعلم بناءً على تدريب البيانات على أزواج من المدخلات والمخرجات من الأمثلة. تمكن هذه الوظيفة النموذج من التنبؤ بالنتائج المستقبلية للمدخلات الجديدة. الانحدار والتصنيف مشكلتان من مشكلات التعلم الآلي الخاضعة للإشراف. التصنيف هو المهمة الأكثر شيوعًا التي تؤديها الأنظمة الذكية في أغلب الأحيان. تصف هذه الدراسة عمل خوارزمية التصنيف وتطبيقاتها في التعرف الضوئي على الحروف في النص الهندي. تم اختيار نصوص” Devanagari” و ” Gurumukhi” لهذه المحاولة .[1]
دراسة (Srivastava, S., Verma, A., & Sharma, S. (2022, February)) تناولت هذه الدراسة التعرف البصري على الأحرف. تم اجراء هذا البحث حول التعرف على عدد من اللغات المختلفة. تشمل هذه اللغات بشكل أساسي اللغة الإنجليزية والديفاناغيري في الهند. تم إجراء الكثير من الأبحاث باللغة الإنجليزية بالفعل. تتكون الديفاناغيري من أكثر من 120 لغة إقليمية ، وهو موضوع البحث الحالي في الوقت الحاضر. يتم التعرف على الأحرف على نوعين من المستندات المطبوعة والمكتوبة بخط اليد. في حالة اللغات الهندية واللغات الأخرى ، لم تتمكن أنظمة التعرف الضوئي على الحروف بعد من التعرف على الأحرف بنجاح مع موثوقية بنسبة 100 في المائة بسبب الاختلاف في البرامج النصية والجودة والحجم والخط والأسلوب. يتم تطوير خوارزميات مختلفة الآن لزيادة موثوقية هذه الأحرف من أجل التعرف الدقيق. [2]
دراسة (Thabasum, A., Florence, M. L., Ashwini, A., Kamesh, P., & Majeed, M. H. (2022))اهتمت هذه الدراسة بالمعاقين بصريا لانهم يعانون من صعوبات لا حصر لها في حياتهم اليومية. يعتبر فهم النصوص أحد أهم التحديات ، لذلك يجب تغيير العالم المرئي إلى عالم الصوت مع إمكانية إلقاء الضوء عليهم بشأن النصوص التي يقومون بتشغيلها. في هذا المشروع ، سنمنحهم في كثير من الأحيان أداة يمكن أن تساعدهم في تمارينهم المستمرة من خلال مساعدتهم في مزيد من التطوير والتقدم من خلال تغيير النصوص المرئية إلى إشارات صوتية. تلتقط هذه الأداة الصورة عندما يشير إليها العميل وتجد الرسالة موجودة في الصورة. ثم يتم فصل النص عن الصورة وتحويله إلى صوت لإعطاء العميل نتيجة موضحة. تساعدنا هذه المهمة في التمييز بين الصعوبات المختلفة للمعاق في تحديد النص وإدراكه تدريجيًا من قبل فرد عادي خارجيًا وتعزيز الإجابات لمساعدتهم. في منهجيتنا ، استخدمنا التعرف الضوئي على الحروف” OCR” للتنبؤات على مستوى النص ، وبعد ذلك نحصل على النتيجة الحسابية المعبأة للعدد النسبي للنصوص في الصور. ثم ، في هذه المرحلة ، للإقرار بالنص ، نعطيه لماسح ” OCR ” للحصول على النص المنفصل ، وبعد ذلك نقوم بتحويل النص إلى خطاب للنتيجة. الإلهام الأساسي الذي يدفعنا إلى التزامنا هو مساعدة الأفراد المعاقين بصرياعلى تحسين إدراك كل نص من النصوص المعروضة عليهم ومساعدتهم في الاستمرار في حياتهم اليومية تمامًا مثل أي فرد عادي آخر[3].
دراسة (Thorat, C., Bhat, A., Sawant, P., Bartakke, I., & Shirsath, S. (2022)) تصف هذه الورقة نظرة عامة مفصلة على طرق الاستخراج العامة من أنواع مختلفة من المستندات بأشكال مختلفة من البيانات ، وبالإضافة إلى ذلك ، قمنا أيضًا بتوضيح العديد من منصات التعرف الضوئي على الحروف. من المتوقع أن تعزز الدراسة الحالية أبحاث التعرف الضوئي على الحروف ، وتوفر فهمًا أفضل وتساعد الباحثين على تحديد الطريقة المثالية ل”ـ OCR”. [4]
دراسة(Divya, N., Pradeepraj, P., & Sivakumar, V. (2021)) تناولت هذه الدراسة تطوير نظام التعرف على رقم السيارة واسترجاعها من خلال تطبيق الويب لان عدد المركبات يتزايد باطراد يوما بعد يوم. لذلك من أجل تتبع السيارة مع رقم السيارة يكاد يكون من المستحيل التغلب على هذه الصعوبة ، نقوم ببناء تطبيق ويب لاستخراج أرقام المركبات ، وتخزين تلك البيانات التي تم الحصول عليها في قاعدة بيانات حيث لدينا أيضًا قاعدة بيانات تفاصيل تسجيل المركبات واسترداد تلك التفاصيل كلما كان ذلك مطلوبًا باستخدام نفس تطبيق الويب . باستخدام تطبيق الويب هذا ، سيقل الوقت المطلوب لتتبع السيارة من ساعات إلى ثوانٍ. يمكن أيضًا الاحتفاظ بسجل لتلك التفاصيل لأغراض مختلفة. يمكن أيضًا استخدام تطبيق الويب لأغراض مختلفة من شأنها تقليل الإدخال اليدوي والبحث عن المعلومات. الأدوات القوية التي نستخدمها لبناء هذا التطبيق مفتوحة المصدر وهي أيضًا غنية بالميزات وأكثر أمانًا. يمكن تثبيت تطبيق الويب هذا بسهولة باستخدام الكاميرات الموجودة بالفعل ولا نحتاج إلى إنفاق أي مبلغ من المال لتثبيت أجهزة جديدة[5].
دراسة(Su, Y. M., Peng, H. W., Huang, K. W., & Yang, C. S. (2019, November)) تناولت هذه الدراسة تقنية معالجة الصور للتعرف على النص و أصبحت تقنيات التعرف على الصور والتعرف الضوئي على الأحرف جزءًا لا يتجزأ من حياتنا اليومية ويرجع ذلك جزئيًا إلى القوة المتزايدة للحوسبة وانتشار أجهزة المسح في كل مكان. يمكن تحويل المستندات المطبوعة بسرعة إلى ملفات نصية رقمية من خلال التعرف الضوئي على الأحرف ثم تحريرها بواسطة المستخدم. وبالتالي ، لا يتطلب الأمر سوى الحد الأدنى من الوقت لرقمنة المستندات ؛ هذا مفيد بشكل خاص عند أرشفة مجلدات من المواد المطبوعة. توضح هذه الدراسة كيف يمكن استخدام تقنيات معالجة الصور بالاقتران مع التعرف الضوئي على الأحرف لتحسين دقة التعرف وتحسين كفاءة استخراج النص من الصور. تم تطوير واختبار نظامين برمجيين خلال هذه الدراسة: نظام التعرف على الأحرف المطبق على الصور الإعلانية المتعلقة بمستحضرات التجميل ونظام الكشف عن النصوص والتعرف عليها للمشاهد الطبيعية. تظهر نتائج التجربة أن الأنظمة المقترحة يمكنها التعرف بدقة على النص في الصور[6].
دراسة (Silfverberg, Miikka & Rueter, Jack (2015)) يمكن أن يؤدي التعرف الضوئي على الأحرف “OCR ” إلى تحسين إمكانية استخدام المستندات الرقمية بشكل كبير. من المعروف أن نمذجة اللغة باستخدام قوائم الكلمات تعمل على تحسين جودة التعرف الضوئي على الحروف للغة الإنجليزية. ومع ذلك ، بالنسبة للغات الغنية شكليًا ، حتى قوائم الكلمات الكبيرة لا تصل إلى تغطية عالية للنص غير المرئي. تقدم أدوات التحليل الصرفي نهجًا أكثر تعقيدًا ، وهو مفيد في العديد من تطبيقات معالجة اللغة. يبحث هذا البحث في نمذجة اللغة في محرك” OCR” مفتوح المصدر” Tesseract” باستخدام أدوات التحليل الصرفي. نقدم تجارب على لغتين من اللغات الأورالية الفنلندية والأرزيا. وفقًا لتجاربنا ، قد تظل قوائم الكلمات متفوقة على المحلل الصرفي في التعرف الضوئي على الحروف حتى بالنسبة للغات ذات التشكل الغني. يشير تحليل الأخطاء الخاص بنا إلى أن أدوات التحليل الصرفي يمكن أن تتسبب في قدر كبير من أخطاء التعرف الضوئي على الحروف للكلمات الحقيقية. [7]
(دراسة نازك خضر محمد علي 2020) التعرف على الصور هو احد التطبيقات الحديثه لتقنيات التعلم العميق والشبكات العصبية وهو من أحد تطبيقات الذكاء الاصطناعي ويعكس تطوراً كبيراً في طريقة التفكير الإنساني ،وقد أثبتت الشبكات العصبية كفاءتها في تصنيف الصور بشتى أنواعها ،وفي هذه الدراسة نقدم نموذجا للتعرف على صور الفاكهة باستخدام الشبكات العصبية الملتفه نسبة لأهمية تصنيف الغذاء وأن التصنيف اليدوي للغذاء لايتوافق مع نمط الحياة الحالي لذلك قمنا بتصميم هذا النموذج بالتطبيق على قاعدة بيانات بحثية ” fruit dataset-360″ تحتوي على أصناف مختلفة من الفاكهة بعدد كبير من الصور ومن ثم بناء شبكة عصبية ملتفة لهذا النموذج بإستخدام مكتبة” Tensorflow” وربطها بقاعدة البيانات ، وفي هذا النموذج اخترنا ثلاثة اصناف من الفاكهة هما الموز والتفاح والمانجو بعدد كبير من الصور و أجرينا عليها عدد من التجارب لتحقيق دقة تصنيف مناسبة بدءاً بإختيار صنفين هما التفاح والموز بالصور الرمادية وحصلنا على دقة منخفضة مما أدى إلى اضافة صنف ثالث وهو المانجو ومن ثم زيادة عدد الصور وتحويلها إلى رمادية وادخالها في النموذج و تدريب النموذج مما أدى إلى الحصول على دقة عالية بلغت 99.8% عندما استخدمنا الأصناف الثلاثة،ومن ثم حساب السعرات الحرارية للأصناف الثلاثه [8] .
التعرف على صور عبر الانترنت “OCR Online” حيث تتم عملية استخراج نصًا من ملف صورة ممسوحة ضوئيًا و تحرير المحتوى في ملف” Word” ، يمكن أيضًا تحويل ملف الصورة الممسوحة ضوئيًا إلى نص عبر الإنترنت. كذلك استخرج الجداول من الصور الممسوحة ضوئيًا عن طريق تحويلها إلى” Excel”.[9]
تحويل الصورة الى ملف ” WORD” تمكنك هذه الاداة من تحويل ملفات” JPG” إلى” WORD” . باستخدام هذه الأداة عبر الإنترنت، علاوة على ذلك ، يوفر محول” PDF” عبر الإنترنت العديد من الميزات. ما عليك سوى اختيار الملفات التي تريد دمجها أو تحريرها أو فتحها أو تحويلها[10].
مشغل قوقل” Google Drive” يوفر” Google Drive” أسهل طريقة لتحويل مستنداتك إلى نص قابل للتحرير. بينما يحتوي” Google Keep ” أيضًا على ميزة” OCR” وهي جيدة مع القوائم وبطاقات العمل ولكنك لا تحصل على دعم” Google Doc ” . لذلك سوف نهتم بميزة ” Google Drive OCR “. ستكون هذه هي الطريقة الأكثر ملاءمة ، كل ما عليك فعله هو “تحميل الصورة على” Google Drive” بعد ذلك ، فقط انقر بزر الماوس الأيمن فوقه ، وانتقل إلى فتح باستخدام محرر مستندات ” Google” الآن ، اعتمادًا على حجم الملف وتعقيده ، سيعمل محرر مستندات” Google” على تحويل الصورة إلى نص. [11]
3- تقنية التعرف الضوئي على الحروفOCR:
تقنية التعرف الضوئي على الحروف ” OCR” تعتبر من العوامل المُساعدة لأنظمة إدارة المستندات المختلفة ويُمكن تعريفها بأنها التقنية المُستخدمة لتحويل المستندات المصورة إلى ملف رقمي يُمكن إدارة محتواة وإستخدامه إلكترونياً من خلال أنظمة العمل والأجهزة المختلفة ،و تقنية التعرق الضوئي تستطيع قراءة وتحويل المستندات المصورة والتي بها نصوص مكتوبة بإستخدام الماسح الضوئي و الملفات الإلكترونية الأخري إلى نصوص يمكن تحريرها ونسخها ثم التعديل عليها، وهذه التقنية المتطورة تختصر وقت إعادة كتابة المستند المصور من جديد. حيث تبرز أهمية برنامج التعرف الضوئي على الحروف” OCR” في التعرف الضوئي على الحروف هو نوع من البرمجيات الحاسوبية المعتمدة على تقيات التعرف” Recognition “، يمكن من خلالها تحويل صور النصوص المكتوبة باليد أو المطبوعة مغلقة المصدر إلى نصوص قابلة للتحرير. برنامج” OCR” الداعم للغة العربية ويُستخدم كثيرا في الحياة العملية للعديد من المؤسسات والوزارات الحكومية وشركات القطاع الخاص. كما ان لهذه التقنية فوائد عديدة اولها التنظيم: تنظيم أحجام مختلفة من المستندات من خلال تقنية المسح الضوئي مما يساهم في زيادة تنظيم المستندات وحفظها من خلال أجهزة خاصة.وثانياً توفر السرعة وذلك لان عملية المسح تتم سريعاً ولا تحتاج إلى بذل مجهود من الجانب البشري مما يُساعد على سرعة الأداء والإنضباط في العمل.وايضاً التكلفة المُنخفضة توفير المبالغ الكبيرة المُستخدمة لتوفير أماكن لتخزين المُستندات للحفاظ عليها آمنة حيث يُمكنك من خلال هذه البرمجيات عمل نُسخ إحتياطية للوثائق والمستندات الهامه دون شغل مساحة. كما سهلت التخزين والمراجعة للمستندات التي يتم مسحها ضوئياً على عكس أساليب تخزين المستندات الورقية التقليدية التي قد تتسبب في ضياع أو إلحاق الضرر بالمستندات الهامة. كما زادت من إمكانية الوصول للمستندات من خلال الوصول بسلاسة للمستندات دون إستغراق وقت طويل في عملية البحث مما يساعد على إنجاز العمل في الوقت المُحدد وعدم إهدار ساعات العمل. [12]
4- الخاتمة:
على الرغم من وجود العديد من الخوارزميات المتاحة للتعرف على الأحرف ، لا يزال هناك مجال إضافي لـ تطوير خوارزميات جديدة. هذا يرجع إلى حقيقة أن هناك إمكانية لتوليد العديد من الصور تستند إلى الكتابة اليدوية وأنماط وخطوط أحرف المستندات المطبوعة. في هذا العمل، ناقش الباحثون أحدث المنهجيات ، والتي تعمل بشكل جيد في سيناريوهات مختلفة و أنواع مختلفة من النصوص مثل المطبوعة والمكتوبة بخط اليد على الإنترنت ولوحات الأرقام المكتوبة بخط اليد وغير المتصلة بالإنترنت وما إلى ذلك تم أخذ المعلمة الهامة في الاعتبار في هذه الدراسة وهي دقة المخرجات. أن نمذجة اللغة باستخدام تقنيةOCR مفتوحة المصدر باستخدام أدوات التحليل الصرفي، قد تحقيق نتائج أفضل في عملية التعرف على بيانات النص الموجود في الصورة .
المصادر والمراجع:
1- Singh, T. P., Gupta, S., & Garg, M. (2022). Machine Learning: A Review on Supervised Classification Algorithms and their Applications to Optical Character Recognition in Indic Scripts. ECS Transactions, 107(1), 6233.
2-Srivastava, S., Verma, A., & Sharma, S. (2022, February). Optical Character Recognition Techniques: A Review. In 2022 IEEE International Students’ Conference on Electrical, Electronics and Computer Science (SCEECS) (pp. 1-6). IEEE.
3-Thabasum, A., Florence, M. L., Ashwini, A., Kamesh, P., & Majeed, M. H. (2022). Tesseract Aid for Blind People Using Optical Character Recognition (OCR) Algorithm. CENTRAL ASIAN JOURNAL OF THEORETICAL & APPLIED SCIENCES, 3(5), 200-220.
4-Thorat, C., Bhat, A., Sawant, P., Bartakke, I., & Shirsath, S. (2022). A Detailed Review on Text Extraction Using Optical Character Recognition. ICT Analysis and Applications, 719-728.
5-Divya, N., Pradeepraj, P., & Sivakumar, V. (2021). Development of Vehicle Number Recognition and Retrieval System with Web Application. Annals of the Romanian Society for Cell Biology, 15068-15073.
6-Su, Y. M., Peng, H. W., Huang, K. W., & Yang, C. S. (2019, November). Image processing technology for text recognition. In 2019 International Conference on Technologies and Applications of Artificial Intelligence (TAAI) (pp. 1-5). IEEE.
7-Silfverberg, Miikka & Rueter, Jack. (2015). Can Morphological Analyzers Improve the Quality of Optical Character Recognition?. Septentrio Conference Series. 45. 10.7557/5.3467.
8-علي, ن. خ. (2020). تطوير نموذج للتعرف على صور الفواكه بإستخدام الشبكات العصبية الملتفة. جامعة إفريقيا العالمي
9-easypdf . (n.d.). convert image to text Retrieved 2022, from easypdf : https:// easypdf.com/ocr-online
10-online2pdf . (n.d.). convert image to text Retrieved 2022, from online2pdf : https:// online2pdf.com /convert-jpg-to-word
11-techwiser. (n.d.). ocr download for windows 10 Retrieved 2022, from techwiser: https:// techwiser.com/best-free-ocr-software-for-windows-10/
12- المعلومات,ر. (n.d.). التعرف الضوئي للحروف،. Retrieved 6 23, 2022, from https://www.ramzit.com/ar/تقنية-التعرف-الضوئي-على-الحروف/