
حمیدرضا سوهانی
رده بندی داده های ناساختار با استفاده از الگوهای یادگیری ماشین و کاربرد آن در پیش بینی نتایج مسابقات فوتبال
- رشته تحصیلی
- علم داده ها
- مقطع تحصیلی
- کارشناسی ارشد
- تاریخ دفاع
- ۳۰ خرداد ۱۴۰۴
- ساعت دفاع
- چکیده
-
امروزه دادهها از مهمترین سرمایههای بشری محسوب میشوند و وجود دادههای قابل اعتماد برای تمامی ارگانها، صنایع، شرکتها، کارخانهها و تمامی امور، ضروری است. این اهمیت ناشی از این است که تمامی تصمیمگیریها، نتیجهگیریها، پیشبینیها و ارزیابیها با توجه به دادهها انجام میشود. در سالهای اخیر، با توجه به پیشرفت روزافزون اینترنت، شبکههای اجتماعی و انواع روشهای مختلف جمعآوری دادهها و ذخیرهسازی آنها، با حجم بسیار زیادی از دادههای گوناگون مواجه هستیم که بسیاری از این دادهها ارزش ارزیابی و تحلیل را دارند. پیشرفت فناوری اطلاعات و ارتباطات باعث شده است که حجم زیادی از دادهها به صورت مداوم تولید و ذخیره شوند. این دادهها شامل اطلاعاتی از کاربران، رفتارهای آنلاین، تراکنشهای مالی، دادههای حسگرها و بسیاری دیگر از منابع مختلف است. بنابراین، نیاز به تحلیل و بهرهبرداری از این دادهها به طور فزایندهای افزایش یافته است. از طرفی، پیشرفت روزافزون روشها و الگوریتمهای هوش مصنوعی، یادگیری ماشین و یادگیری عمیق و همچنین پیشرفتهای قابل توجه در سختافزارهای موجود برای انجام محاسبات و اجرای الگوریتمهای یادگیری ماشین، نیاز صنایع مختلف به این شاخه از علم را افزایش داده است. بنابراین، نیازمند توسعه و بررسی الگوریتمهای یادگیری ماشین هستیم. این الگوریتمها میتوانند کمک کنند تا از دادههای موجود بهرهبرداری کنیم و اطلاعات ارزشمندی را استخراج کنیم که در تصمیمگیریها و پیشبینیها بسیار مؤثر است. یکی از روشهای اصلی و مهم یادگیری ماشین و تحلیل دادهها، ردهبندی دادهها است که زیرمجموعهای از یادگیری با نظارت بهشمار میآید. با استفاده از این روش، میتوان با کشف الگوها از روی دادههایی که در اختیار داریم، روند و عملکرد دادهها در آینده را پیشبینی کنیم. به عنوان مثال، در حوزههای مختلفی مانند بازاریابی، پزشکی، مالی و حتی ورزش، تحلیل و ردهبندی دادهها میتواند به ما کمک کند تا نتایج بهتری را به دست آوریم. در این پایاننامه، قصد داریم به بررسی و مقایسه برخی از مهمترین الگوریتمهای ردهبندی و کاربرد آنها در پیشبینی نتایج مسابقات فوتبال بپردازیم. در این پژوهش، الگوریتمهای مختلف ردهبندی مانند جنگل تصادفی ،ماشین بردار پشتیبان و الگوریتمهای دیگر مورد بررسی قرار خواهند گرفت. هدف این است که بهترین روش را در پیشبینی نتایج مسابقات فوتبال انتخاب کنیم. همچنین، قصد داریم با استفاده از مدلهای متنکاوی، احساسات هواداران تیمهای مختلف در بازه های مشخص را با استفاده از تحلیل توییتهای آنها در توییتر بررسی کنیم و ارتباط آن با نتایج واقعی مسابقات بررسی کنیم و با افزودن متغیر حاصل از تحلیل توییتها به مدل پیشبینی نتیجه را انجام دهیم.
- Abstract
-
Nowadays, data is considered one of the most valuable assets of humanity. The availability of reliable data is essential and vital for all organizations, industries, companies, factories, and various operations. This importance stems from the fact that all decision-making, conclusions, predictions, and evaluations are based on data. In recent years, with the rapid growth of the internet, social networks, and various data collection and storage methods, we are confronted with vast volumes of diverse data, many of which hold significant analytical and evaluative value.The advancement of information and communication technologies has led to the continuous production and storage of large volumes of data. These data include user information, online behaviors, financial transactions, sensor data, and numerous other sources. Consequently, the need for analyzing and utilizing these data has increased significantly. Simultaneously, the rapid development of artificial intelligence, machine learning, and deep learning methods, along with substantial progress in hardware for computation and algorithm execution, has intensified the demand across various industries for this field of science. Therefore, the development and examination of machine learning algorithms have become increasingly necessary. These algorithms can help us leverage existing data to extract valuable insights that play a crucial role in decision-making and prediction processes.One of the fundamental and important approaches in machine learning and data analysis is data classification, which is a subset of supervised learning. Through this method, it is possible to identify patterns in the available data and predict future trends and behavior. For instance, in fields such as marketing, medicine, finance, and even sports, data analysis and classification can help achieve more accurate and beneficial outcomes.In this thesis, we aim to investigate and compare some of the most prominent classification algorithms and their application in predicting the results of football matches. In this research, various classification algorithms such as Random Forest, Support Vector Machine (SVM), and others will be examined. The objective is to determine the most accurate and effective method for predicting football match outcomes.Additionally, we aim to analyze the sentiments of fans of different teams over specific time periods using text mining models, by analyzing their tweets on Twitter. We will then examine the relationship between these sentiments and the actual match results.