@article { author = {Paksima, Javad and Zare Bidoki, Alimohammad and Derhami, Vali}, title = {Providing a new model for the distance between query words based on the minimal displacement}, journal = {Journal of Soft Computing and Information Technology}, volume = {6}, number = {2}, pages = {1-12}, year = {2017}, publisher = {Babol Noshirvani University of Technology}, issn = {2383-1006}, eissn = {2588-4913}, doi = {}, abstract = {Based on the researches performed on search engines, most user queries contain more than one word. For queries with more than one word, two models can be presented. In the first model, query words are assumed to be independent of each other, and in the second model, the place and the order of words are assumed to be dependent. Experiments show that there are dependencies among most query words. One of the parameters that can determine the dependency between query words is the distance between the query words in the document. In this paper, a new distance definition based on the minimum displacement of the document words in order to match the query is presented. Also, given that most ranking algorithms use the word frequency in the documents (Term Frequency) to score the documents and since there is no clear definition for this parameter for queries with more than one word; in this paper, the frequency of the occurrence of a phrase (Phrase Frequency) and Inverted Document Frequency are defined according to the new concept of distance and the proper algorithms are presented to calculate them. Also, the results of the proposed algorithm are compared with the algorithm implemented by the open source Lucene indexer, which shows a good increase in the mean accuracy.}, keywords = {Search engine,Ranking,Distance,proximity}, title_fa = {ارائه یک مدل جدید از فاصله بین کلمات پرس و جو براساس حداقل جابجایی}, abstract_fa = {براساس تحقیقات انجام شده روی موتورهای جستجو،‌ اکثر پرس‌وجوهای کاربران بیش از یک کلمه می‌باشد. برای پرس‌وجوها با بیش از یک کلمه دو مدل می‌توان ارائه کرد. در مدل اول فرض می‌شود کلمات پرس‌وجو مستقل از یکدیگر هستند و در مدل دوم محل و ترتیب کلمات وابسته فرض می‌شود. آزمایش‌ها نشان می‌دهد که در اکثر پرس‌وجوها بین کلمات وابستگی وجود دارد. یکی از پارامترهایی که می‌تواند وابستگی بین کلمات پرس‌وجو را مشخص کند فاصله‌ی بین کلمات پرس‌وجو در سند است. در این مقاله تعریف جدیدی از فاصله براساس حداقل جابجایی کلمات سند به‌منظور تطبیق بر پرس‌وجو ارائه می‌گردد. همچنین با توجه به این‌که اکثر الگوریتم‌های رتبه‌بندی از فرکانس رخداد یک کلمه در سند (Term Frequency) برای امتیازدهی به اسناد استفاده می‌کنند و برای پرس‌وجو با بیش از یک کلمه تعریف روشنی از این پارامتر وجود ندارد؛ در این مقاله پارامترهای  ‌فرکانس رخداد یک عبارت (Phrase Frequency) و معکوس فرکانس سند (Inverted Document Frequency) با توجه به مفهوم جدید فاصله تعریف شده است و الگوریتم‌هایی برای محاسبه آن‌ها ارائه ‌گردیده است. همچنین نتایج الگوریتم پیشنهادی با الگوریتم پیاده‌سازی شده توسط نمایه‌ساز متن‌باز لوسین مقایسه شده است که افزایش خوبی را در میانگین دقت نشان می‌دهد.}, keywords_fa = {موتور جستجو,رتبه‌بندی,فاصله,وابستگی کلمات}, url = {https://jscit.nit.ac.ir/article_61694.html}, eprint = {https://jscit.nit.ac.ir/article_61694_ebd00b96e5351c0e63c6daaa4f36e9ef.pdf} }