یک دسته بند کنش گفتار برای متون فارسی و کاربرد آن در شناسایی شایعات

نوع مقاله: مقاله پژوهشی انگلیسی

نویسندگان

1 گروه مهندسی کامپیوتر، واحد علوم و تحقیقات تهران، دانشگاه آزاد اسلامی، تهران، ایران.

2 گروه مهندسی کامپیوتر، دانشکده مهندسی برق و کامپیوتر، دانشگاه تبریز، تبریز، ایران.

3 گروه مهندسی کامپیوتر، واحد علوم و تحقیقات تهران، دانشگاه آزاد اسلامی، تهران، ایران

چکیده

کنش گفتار یکی از حوزه های مهم منظور شناسی زبان است که به ما درک درستی از وضعیت ذهن فرد و انتقال عمل زبانی مورد نظر می دهد. آگاهی از کنش گفتار یک متن می تواند در تجزیه و تحلیل آن متن در برنامه های کاربردی پردازش زبان طبیعی مفید باشد. این مطالعه یک روش آماری مبتنی بر دیکشنری برای شناسایی کنش‌های گفتاری در متون فارسی ارائه می دهد. در روش پیشنهادی، کنش گفتاری یک متن بر اساس چهار معیار شامل، ویژگی های لغوی، نحوی، معنایی و سطحی و با استفاده از تکنیک‌های یادگیری ماشین، در هفت کلاس کنش گفتار مورد ارزیابی قرار می‌گیرد. همچنین، از آنتولوژی ووردنت برای غنی‌سازی دیکشنری ویژگی‌ها استفاده می‌شود. به این صورت که، مترادف کلماتی که در دیکشنری ویژگی‌ها وجود ندارند استخراج شده و با لغات موجود در دیکشنری تطبیق داده می‌شود. برای ارزیابی تکنیک پیشنهادی، از چهار روش دسته‌بندی شامل جنگل تصادفی (RF)، ماشین بردار پشتیبان(SVM)، نایو بیز(NB) و K نزدیک ترین همسایه (KNN) استفاده شده است. نتایج تجربی نشان می دهد که روش پیشنهادی با استفاده از RF و SVM به عنوان بهترین دسته‌بندها، عملکرد پیشرفته ای با میانگین F-measure 0.95 برای دسته-بندی متون فارسی بر اساس کنش گفتار دارد. دیدگاه اصلی ما از این کار، معرفی یکی از کاربردهای شناسایی کنش گفتار در محتوای رسانه های اجتماعی، به ویژه شناسایی کنش گفتار رایج در شایعات و کاربرد آن در تشخیص شایعات است. نتایج نشان داد که شایعات فارسی اغلب با سه کلاس کنش گفتار روایتی، سوالی و تهدیدی و در برخی موارد با کنش گفتار درخواستی بیان می شوند. همچنین نتایج ارزیابی نشان می دهد که SA به عنوان یک ویژگی متمایزکننده بین شایعات و غیر شایعات ، صحت شناسایی شایعه را از 0.762 (بر اساس ویژگی های متنی رایج) به 0.791 (ترکیبی از ویژگی های متنی رایج و چهار کلاس SA ) بهبود می بخشد.

کلیدواژه‌ها