کاهش فضای جستجو برای بازشناسی زیرکلمات تایپی فارسی با استفاده از ویژگی‌های ساده، کوانتیزاسیون ویژگی و ترکیب طبقه‌بندها

نوع مقاله: مقاله پژوهشی فارسی

نویسندگان

1 دانشگاه بیرجند

2 دانشکده مهندسی برق و کامپیوتر، دانشگاه بیرجند، بیرجند، ایران

چکیده

 در این مقاله روشی برای کاهش فضای جستجو در بازشناسی زیرکلمات چاپی فارسی ارائه می‌شود. ابتدا 10 ویژگی ساده از زیرکلمه استخراج می‌شود. با استفاده از مفهوم کوانتیزاسیون و با توجه به بازه تغییرات هر ویژگی روی همه داده‌های آموزشی ویژگی‌ها کوانتیزه شده و به اعداد صحیحی تبدیل می‌شوند. با استفاده از هر ویژگی و فاصله آن تا ویژگی متناظر هر کدام از نمونه‌های آموزشی، به هر کلاس امتیازی داده می‌شود. با اعمال همه ویژگی‌ها،  هر کلاس به ازای هر ویژگی یک امتیاز دارد که با ترکیب این امتیازات با اعمال جبری یک امتیاز نهایی برای هر زیرکلمه بدست می‌آید که با مرتب کردن آنها و انتخاب تعدادی از آنها که امتیاز بیشتری دارند، فضای جستجو محدود می‌شود. از اعمال جبری جمع، ضرب، بیشینه، کمینه و جمع وزن‌دار برای ترکیب امتیازات استفاده شده است. روش جمع وزن دار، که وزن‌های بهینه با الگوریتم بهینه‌سازی جمعیت ذرات تعیین شده‌اند، بهترین پاسخ را داده است.

کلیدواژه‌ها


S.A.A. Abbaszadeh Arani and E. Kabir and R. Ebrahimpour. “Combining right-to-left and left-to-right HMMs to recognize handwritten Farsi words of small- and medium-sized vocabularies” IET Computer Vision, Vol. 12, Issue 6. 2018
N. Aouadi Aouadi and A.K. Echi. “Word extraction and recognition in arabic. handwritten Text” International Journal of Computing and Information Sciences, Vol. 12, No. 01, 2016.
M. Shafii. “Optical character recognition of printed persian/arabic documents”, Ph.D. dissertation, Windsor Univ., Ontario, Canada, 2014.
S. Nasrollah and A. Ebrahimi. “Printed persian subword recognition using wavelet packet descriptors”, Journal of Engineering (Hindawi Publishing Corporation), 2013.
P.K. Powalka and N. Sherkat and R.J. Whitrow. “The use of word shape information for cursive script recognition” In Fourth International Workshop on Frontiers of Handwriting Recognition, pp. 67-76. 1994.
S. Mozaffari and K. Faez and V. Märgner and H. Elabed.  “Two-stage lexicon reduction for offline arabic handwritten word recognition” International Journal of Pattern Recognition and Artificial Intelligence, Vol. 22, No. 07: pp. 1323-1341, November 2008.
H. Davoudi and M. Cheriet and E. Kabir. “lexicon reduction of handwritten arabic subwords based on the prominent shape regions” International Journal on Document Analysis and Recognition (IJDAR), Vol. 19, Issue 2, pp. 139–153, 2016.
سمیه برومند، ایرانپور مبارکه، مجید، "بازشناسی کلمات دست‌نوشته با ویژگی‌های نوین و کاهش فرهنگ لغت"، ﻣﺠﻠﻪ ﭘﺮدازش ﺑﯿﻨﺎﯾﯽ و ﺗﺼﻮﯾﺮ، آماده چاپ، 1396.
فائقه فتحی، "استخراج حروف شاخص از زیرکلمات چاپی فارسی"، پایان‌نامه کارشناسی ارشد، دانشگاه صنعتی سهند، تبریز، ایران، 1388.
H. Davoudi and E. Kabir. “Using compatible shape descriptor for lexicon reduction of printed farsi subwordsjournal” International Journal on Document Analysis and Recognition (IJDAR), Vol. 19, Issue 2. pp. 139-153, 2016.
افشین ابراهیمی، احسان الله کبیر "یک روش دو مرحله‌ای برای بازشناسی زیرکلمات چاپی"، نشریه مهندسی برق و مهندسی کامپیوتر ایران، سال 2، شماره 2، 1383.
هما داودی، احسان الله کبیر "استفاده از مناطق شاخص زیرکلمات چاپی فارسی برای کاهش فضای جستجو در بازشناسی آنها"، نشریه ‏مهندسی برق و مهندسی کامپیوتر ایران، ب –مهندسی کامپیوتر، سال 12، شماره1، 1393.‏
اسماعیل میری، سیدمحمد رضوی، ناصر مهرشاد، "روشی ساده برای کاهش فضای جستجو در بازشناسی زیرکلمات تایپی فارسی "، نهمین کنفرانس ماشین بینایی و پردازش تصویر ایران، دانشگاه شهید بهشتی، آبان ماه 1394.
E. Miri and S.M. Razavi and N. Mehrshad. “Recognition of the persian typed sub-words with a hierarchical manner” Journal of Engineering and Applied Sciences, 12 (8): 2009-2017, 2017.
A. Ebrahimi and E. Kabir. “A pictorial dictionary for printed farsi subwords” Pattern Recognition Letters, Vol. 29, pp. 656-663, 2008.
J. Kennedy and R Eberhart. “Particle swarm optimization”. In Fourth IEEE International Conference on Neural Networks, pp. 1942–1948, 1995. doi:10.1109/ICNN.1995.488968