رده بندی داده های ناساختار با استفاده از الگوهای یادگیری ماشین و کاربرد آن در پیش بینی نتایج مسابقات فوتبال

حمیدرضا سوهانی

عنوان پایان‌نامه

رده بندی داده های ناساختار با استفاده از الگوهای یادگیری ماشین و کاربرد آن در پیش بینی نتایج مسابقات فوتبال

دانشجو حمیدرضا سوهانی در تاریخ ۰۸ شهریور ۱۴۰۴ ساعت ، به راهنمایی فرزاد اسکندری ، پایان نامه با عنوان "رده بندی داده های ناساختار با استفاده از الگوهای یادگیری ماشین و کاربرد آن در پیش بینی نتایج مسابقات فوتبال" را دفاع نموده است.

دانشجو: حمیدرضا سوهانی

استاد راهنما: فرزاد اسکندری

استاد مشاور: رضا پورطاهری

استاد داور: وحید رضایی تبار

رشته تحصیلی: علم داده ها

مقطع تحصیلی: کارشناسی ارشد

تاریخ دفاع: ۰۸ شهریور ۱۴۰۴

ساعت دفاع

چکیده

امروزه داده‌ها از مهم‌ترین سرمایه‌های بشری محسوب می‌شوند و وجود داده‌های قابل اعتماد برای تمامی ارگان‌ها، صنایع، شرکت‌ها، کارخانه‌ها و تمامی امور، ضروری است. این اهمیت ناشی از این است که تمامی تصمیم‌گیری‌ها، نتیجه‌گیری‌ها، پیش‌بینی‌ها و ارزیابی‌ها با توجه به داده‌ها انجام می‌شود. در سال‌های اخیر، با توجه به پیشرفت روزافزون اینترنت، شبکه‌های اجتماعی و انواع روش‌های مختلف جمع‌آوری داده‌ها و ذخیره‌سازی آن‌ها، با حجم بسیار زیادی از داده‌های گوناگون مواجه هستیم که بسیاری از این داده‌ها ارزش ارزیابی و تحلیل را دارند. پیشرفت فناوری اطلاعات و ارتباطات باعث شده است که حجم زیادی از داده‌ها به صورت مداوم تولید و ذخیره شوند. این داده‌ها شامل اطلاعاتی از کاربران، رفتارهای آنلاین، تراکنش‌های مالی، داده‌های حسگرها و بسیاری دیگر از منابع مختلف است. بنابراین، نیاز به تحلیل و بهره‌برداری از این داده‌ها به طور فزاینده‌ای افزایش یافته است. از طرفی، پیشرفت روزافزون روش‌ها و الگوریتم‌های هوش مصنوعی، یادگیری ماشین و یادگیری عمیق و همچنین پیشرفت‌های قابل توجه در سخت‌افزارهای موجود برای انجام محاسبات و اجرای الگوریتم‌های یادگیری ماشین، نیاز صنایع مختلف به این شاخه از علم را افزایش داده است. بنابراین، نیازمند توسعه و بررسی الگوریتم‌های یادگیری ماشین هستیم. این الگوریتم‌ها می‌توانند کمک کنند تا از داده‌های موجود بهره‌برداری کنیم و اطلاعات ارزشمندی را استخراج کنیم که در تصمیم‌گیری‌ها و پیش‌بینی‌ها بسیار مؤثر است. یکی از روش‌های اصلی و مهم یادگیری ماشین و تحلیل داده‌ها، رده‌بندی داده‌ها است که زیرمجموعه‌ای از یادگیری با نظارت به‌شمار می‌آید. با استفاده از این روش، می‌توان با کشف الگوها از روی داده‌هایی که در اختیار داریم، روند و عملکرد داده‌ها در آینده را پیش‌بینی کنیم. به عنوان مثال، در حوزه‌های مختلفی مانند بازاریابی، پزشکی، مالی و حتی ورزش، تحلیل و رده‌بندی داده‌ها می‌تواند به ما کمک کند تا نتایج بهتری را به دست آوریم. در این پایان‌نامه، قصد داریم به بررسی و مقایسه برخی از مهم‌ترین الگوریتم‌های رده‌بندی و کاربرد آن‌ها در پیش‌بینی نتایج مسابقات فوتبال بپردازیم. در این پژوهش، الگوریتم‌های مختلف رده‌بندی مانند جنگل تصادفی ،ماشین بردار پشتیبان و الگوریتم‌های دیگر مورد بررسی قرار خواهند گرفت. هدف این است که بهترین روش را در پیش‌بینی نتایج مسابقات فوتبال انتخاب کنیم. همچنین، قصد داریم با استفاده از مدل‌های متن‌کاوی، احساسات هواداران تیم‌های مختلف در بازه های مشخص را با استفاده از تحلیل توییت‌های آن‌ها در توییتر بررسی کنیم و ارتباط آن با نتایج واقعی مسابقات بررسی کنیم و با افزودن متغیر حاصل از تحلیل توییت‌ها به مدل پیش‌بینی نتیجه را انجام دهیم.

Abstract

Nowadays, data is considered one of the most valuable assets of humanity. The availability of reliable data is essential and vital for all organizations, industries, companies, factories, and various operations. This importance stems from the fact that all decision-making, conclusions, predictions, and evaluations are based on data. In recent years, with the rapid growth of the internet, social networks, and various data collection and storage methods, we are confronted with vast volumes of diverse data, many of which hold significant analytical and evaluative value.The advancement of information and communication technologies has led to the continuous production and storage of large volumes of data. These data include user information, online behaviors, financial transactions, sensor data, and numerous other sources. Consequently, the need for analyzing and utilizing these data has increased significantly. Simultaneously, the rapid development of artificial intelligence, machine learning, and deep learning methods, along with substantial progress in hardware for computation and algorithm execution, has intensified the demand across various industries for this field of science. Therefore, the development and examination of machine learning algorithms have become increasingly necessary. These algorithms can help us leverage existing data to extract valuable insights that play a crucial role in decision-making and prediction processes.One of the fundamental and important approaches in machine learning and data analysis is data classification, which is a subset of supervised learning. Through this method, it is possible to identify patterns in the available data and predict future trends and behavior. For instance, in fields such as marketing, medicine, finance, and even sports, data analysis and classification can help achieve more accurate and beneficial outcomes.In this thesis, we aim to investigate and compare some of the most prominent classification algorithms and their application in predicting the results of football matches. In this research, various classification algorithms such as Random Forest, Support Vector Machine (SVM), and others will be examined. The objective is to determine the most accurate and effective method for predicting football match outcomes.Additionally, we aim to analyze the sentiments of fans of different teams over specific time periods using text mining models, by analyzing their tweets on Twitter. We will then examine the relationship between these sentiments and the actual match results.