@article { author = {Safarian, Neshat and Basiri, Mohammad Ehsan and Khosravi, Hadi}, title = {Feature ranking for Persian Review Spam detection}, journal = {Journal of Soft Computing and Information Technology}, volume = {8}, number = {2}, pages = {1-16}, year = {2019}, publisher = {Babol Noshirvani University of Technology}, issn = {2383-1006}, eissn = {2588-4913}, doi = {}, abstract = {Using online reviews is one of the main factors in customers’ decision making for buying a product or using a service. These reviews are valuable sources of information which can be used for detecting public opinion about products or services. Although online reviews are useful, trusting them blindly is dangerous for both costumers and sellers as they may be manipulated to earn profit; such reviews are called spam reviews. The current study addresses Persian reviews about cell-phone extracted from Digikala.com and investigates spam type 1 and type 2 which are fake reviews and reviews describing brands’ names only, respectively. Features used in this study, due to their efficiency, are review-based and metadata features. These features and their combinations in detecting Persian spam reviews, also their effect on the accuracy of classifier are assessed. Spam classification is performed using decision tree, support vector machines, and naïve Bayes classifiers and their accuracy are compared using different features’ combinations. The highest accuracy is obtained using the decision tree classifier which achieves 0.778 in terms of F-measure. In ranking features, again the decision tree outperforms the other two classifiers by achieving 0.824 F-measure by combining the positive feedback, overall score, and review polarity features.}, keywords = {Persian Spam Review,Fake Review,Opinion mining,Sentiment analysis,Text Categorization,Feature Ranking}, title_fa = {رتبه‏ بندی ویژگی‏‌ها در تشخیص نظرات اسپم فارسی}, abstract_fa = {یکی از عوامل اصلی در تصمیم‌گیری مشتریان برای خرید یک محصول یا استفاده از خدماتی خاص، استفاده از نظرات برخط است. این‌گونه از نظرات منابعی ارزشمند از اطلاعات هستند که برای تشخیص افکار عمومی در مورد محصول یا خدمات استفاده می‏شوند. اگرچه نظرات برخط می‌توانند مفید باشند اما اعتماد کورکورانه به آن‏ها، هم برای فروشنده و هم برای خریدار خطرناک است زیرا ممکن است برای به‌دست آوردن سود، دستکاری شده باشند که اصطلاحاً به این گونه نظرات « نظرات اسپم» گفته می‌شود. پژوهش حاضر روی نظرات فارسی ثبت‌شده در مورد تلفن همراه در وب‌سایت دیجی‌کالا انجام شده و از میان انواع اسپم، اسپم نوع یک و دو بررسی شده‌اند که نوع اول نظرات جعلی و نوع دوم نظراتی هستند که تنها در رابطه با مدل کالا نوشته شده‏اند. ویژگی‌های مورد استفاده در این پژوهش به علت کارا بودن آن‏ها در دسته‌بندی، شامل ویژگی‌های مبتنی بر نظر و ویژگی‌های فراداده است. این ویژگی‌ها و نیز ترکیب‌های متفاوت از آن‏ها در تشخیص نظرات اسپم فارسی و تأثیر آن‏ها روی دقت دسته‌بند بررسی شده ‌است. دسته‌بندی توسط درخت تصمیم، دسته‌بند ماشین بردار پشتیبان و دسته‌بند نایو بیز انجام شده و در نهایت دقت آن‏ها روی ترکیب‌های مختلف این ویژگی‌ها با هم مقایسه گردیده است. بالاترین میزان دقت به‌دست آمده از سه دسته‌بند توسط درخت تصمیم حاصل می‏شود که برابر با با 778/0 براساس معیار اِف است. در رتبه‎دهی به ویژ‌گی‌ها باز هم درخت تصمیم با دقت 824/0 و با ترکیب سه ویژگی بازخوردهای مثبت، امتیاز کلی کالا و قطبیت نظر رتبه‌ی برتر را به خود اختصاص می‌دهد.}, keywords_fa = {نظرات اسپم فارسی,نظرات جعلی,نظرکاوی,تحلیل احساسات,دسته‏بندی متن,رتبه‌بندی ویژگی‌ها}, url = {https://jscit.nit.ac.ir/article_87279.html}, eprint = {https://jscit.nit.ac.ir/article_87279_df20f941945a01babc0de419ea3e34af.pdf} }