فصلنامه علمی

نوع مقاله : مقاله علمی

نویسندگان

1 گروه علوم ریاضی و رایانه، دانشگاه علامه طباطبایی، تهران، ایران

2 پژوهشکده بیمه و مسئول میز تخصصی طراحی الگوریتم و یادگیری ماشین، تهران، ایران

3 پژوهشکده بیمه و مسئول میز تخصصی بیمه‌های اتومبیل، تهران، ایران

چکیده

هدف: طبقه‌بندی ریسک بیمه‌گذاران بر مبنای ویژگی‌های قابل مشاهده می‌تواند به شرکت‌های بیمه جهت کاهش زیان، شناخت دقیق‌تر مشتریان و جلوگیری از وقوع انتخاب نامساعد در بازار بیمه کمک شایانی کند. هدف این مقاله، بررسی خسارت‌های مالی ایجاد شده در بیمه شخص ثالث و پیش‌بینی ریسک بیمه‌گذاران در احتمال وقوع حادثه می‌باشد.
روش‌شناسی: با استفاده از الگوریتم‌های درخت تصمیم، ماشین بردار پشتیبان، نایو بیز و شبکه عصبی؛ به کشف الگوهای پنهان داده‌ها، در راستای طبقه‌بندی بیمه‌گذاران بیمه شخص ثالث پرداخته شده است. همچنین توزیع نامتعادل داده‌ها در دو گروه خسارت‌دیده و خسارت‌ندیده سبب یک چالش مهم در کاربرد روش‌های یادگیری ماشین و داده‌کاوی است که در این مقاله مورد توجه قرار گرفته است.
یافته‌ها: مجموعه داده متعلق به یکی از شرکت‌های بیمه و حاوی بیش از چهارصد هزار نمونه ثبت شده در پنج سال و شامل چهار متغیر مستقل نوع خودرو، گروه خودرو، نوع پلاک و سن خودرو و یک متغیر وابسته و دو ارزشی خسارت مالی است. با توجه به نتایج بدست آمده بهترین کارکرد و دقت پیش‌بینی (با دقت F1=) مربوط به مدل درخت تصمیم می‌باشد.
نتیجه‌گیری: میزان تاثیرگذاری متغیرها در وقوع خسارت به ترتیب اولویت عبارتنداز: نوع خودرو، نوع پلاک، سن خودرو و گروه خودرو. نتایج ارزیابی نشان می‌دهد برای پیش‌بینی دقیق‌تر خسارت و مشتریان پر ریسک به داده‌های بیشتری مرتبط با ویژگی‌های راننده نیاز می‌باشد.

کلیدواژه‌ها

عنوان مقاله [English]

The application of data mining using machine learning algorithms to investigate the impact of vehicle characteristics in predicting the risk of material damage in the field of third party insurance

نویسندگان [English]

  • M.R. Asghari Oskoei 1
  • F. Khanizadeh 2
  • A. Bahador 3

1 Faculty of Mathematical and Computer Sciences, Allameh Tabatabai University, Tehran, Iran

2 Insurance Research Institute and responsible for the specialized desk of algorithm design and machine learning, Tehran, Iran

3 Insurance Research Institute and head of specialized car insurance desk, Tehran, Iran

چکیده [English]

Objective: Classifying the risk of policyholders based on observable characteristics can help insurance companies to reduce losses, identify customers more accurately, and prevent adverse selection in the insurance market. The purpose of this article is to examine the financial losses caused by third party insurance and to predict the risk of policyholders in the event of an accident.
Methodology: using decision tree algorithms, support vector machine, Naive Bayes and neural network; The hidden data patterns have been discovered in order to classify third party insurance policyholders. Also, the unbalanced distribution of data in two groups of damaged and undamaged causes an important challenge in the application of machine learning and data mining methods, which is considered in this article.
Findings: The data set belongs to one of the insurance companies and contains more than four hundred thousand samples registered in five years and includes four independent variables of car type, car group, license plate type and car age and a dependent and two-valued variable of financial damage. According to the obtained results, the best performance and prediction accuracy (with accuracy F1=0.72±0.01) is related to the decision tree model.
Conclusion: The impact of variables on the occurrence of damage in order of priority are: car type, license plate type, car age and car group. The evaluation results show that more data related to the driver's characteristics is needed for more accurate prediction of damage and high-risk customers.

کلیدواژه‌ها [English]

  • Insurance Customer Classification
  • Decision Tree
  • Support Vector Machine
  • Naïve Bayes
  • Neural Networks
  1. اصغری‌اسکوئی، محمدرضا، (1394)، کاربرد روش پنجره لغزان برای انتخاب ساختار شبکه عصبی با تاخیر زمانی در پیش‌بینی سری‌های زمانی مالی، فصلنامه پژوهشنامه اقتصادی، سال پانزدهم، شماره 57، ص 75-108.
  2. اصغری‌اسکوئی، محمدرضا و قاسم‌زاده، محمد، (1395)، کاربرد قواعد کشفی و الگوریتم ژنتیک در ساخت مدل ARMA برای پیش‌بینی سری‌زمانی، ژورنال مدیریت فناوری اطلاعات، دانشگاه تهران، دوره 8، شماره 1، ص 1-26 .
  3. ایزدپرست، محمود، (1390)، دسته‌بندی مشتریان بیمه با استفاده از داده‌کاوی، تازه‌های جهان بیمه، شماره 161.
  4. بهادر، آزاده، استادرمضان، آذین و خانی‌زاده، فربد، (1396)، بررسی امکان صدور بیمه‌نامه شخص ثالث بر اساس ویژگی‌های راننده (تبصره 1 ماده 18 قانون جدید بیمه شخص ثالث) و ارائه آیین‌نامه پیشنهادی، پژوهشکده بیمه.
  5. ترکستانی، محمد صالح؛ ده‌پناه، آرمان؛ تقوی‌فرد، محمدتقی و شفیعی، شهرام، (1395)، ارائه چارچوبی برای اصلاح نرخ حق بیمه در رشته بدنه اتومبیل با استفاده از مدل شبکه‌های عصبی (مطالعه موردی: شرکت بیمه آسیا)، مدیریت فناوری اطلاعات، دوره 8، شماره 4.
  6. حاجی‌حیدری، نسترن؛ خالهء، سامرند و فراهی، احمد، (1390)، طبقه‌بندی میزان ریسک بیمه‌گذاران بیمه بدنه خودرو با استفاده از الگوریتم‌های داده کاوی (مورد مطالعه: یک شرکت بیمه)، پژوهشنامه بیمه، سال بیست‌وششم، شماره 4.
  7. حنفی‌زاده، پیام و رستخیز پایدار، ندا، (1390)، مدلی جهت دسته‌بندی ریسکی گروه‌های مشتریان بیمه بدنه اتومبیل بر اساس ریسک با استفاده از تکنیک داده‌کاوی (مورد مطالعه: بیمه بدنه اتومبیل در یک شرکت بیمه‌ای)، پژوهشنامه بیمه، سال بیست و ششم، شماره 2.
  8. فتح‌نژاد، فرامرز و ایزدپرست، محمود، (1390)، ارائه چهارچوب برای پیش‌بینی سطح خسارت مشتریان بیمه بدنه اتومبیل با استفاده از راهکار داده‌کاوی، تازه‌های جهان بیمه، شماره 156.
  9. کریم‌زادگان مقدم، داود و بهروان، مجید، (1394)، ارائه راهکاری برای تعرفه‌گذاری پویا در صنعت بیمه با استفاده از تکنیک داده‌کاوی (مورد مطالعه: بیمه شخص ثالث، پژوهشنامه بیمه، شماره 4.
    1. Baecke, P., & Bocca, L., (2017). The value of vehicle telematics data in insurance risk selection processes. Decision Support Systems, 98, 69.
    2. David, M., (2015). Auto insurance premium calculation using generalized linear models. Procedia Economics and Finance, 20(15), pp.147-156.
    3. Frempong, N.K., Nicholas, N. and Boateng, M.A., (2017). Decision tree as a predictive modeling tool for auto insurance claims. Int. J. Statist. Appl., 7(2), pp.117-120.
    4. Kašćelan, V., Kašćelan, L. and Novović Burić, M., (2016). A nonparametric data mining approach for risk prediction in car insurance. Economic research-Ekonomska istraživanja, 29(1), pp.545-558.
    5. Thakur, S.S. and Sing, J.K., (2013). Mining Customer's Data for Vehicle Insurance Prediction System using k-Means Clustering-An Application. International journal of computer Applications in Engineering sciences, 3(4), p.148.
    6. Wuyu, S. and Cerna, P., (2019). Risk Assessment Predictive Modelling in Insurance Industry Using Data Mining. Software Engineering, 6(4), p.121.
    7. Yunos, Z.M., Ali, A., Shamsyuddin, S.M. and Ismail, N., (2016). Predictive Modelling for Motor Insurance Claims Using Artificial Neural Networks. Int. J. Advance Soft Compu. Appl, 8(3).

نامه به سردبیر


سردبیر نشریه پژوهشنامه بیمه، هرگونه پیشنهاد و انتقاد دیگر نویسندگان و خوانندگان را در خصوص نقد و بررسی این مقاله مندرج در سامانه نشریه را ظرف مدت 3 ماه از تاریخ انتشار آنلاین مقاله در سامانه و قبل از انتشار چاپی نشریه، به منظور اصلاح و نظردهی امکان پذیر نموده است.، البته این نقد در مورد تحقیقات اصلی مقاله نمی باشد.
توجه به موارد ذیل پیش از ارسال نامه به سردبیر لازم است در نظر گرفته شود:
[1] نامه هایی که شامل گزارش آماری، واقعیت ها، تحقیقات یا نظریه پردازی ها هستند، لازم است همراه با منابع معتبر و مناسب همراه باشد، اگرچه ارسال بیش از زمان 3 نامه توصیه نمی گردد.
[2] نامه هایی که بجای انتقاد سازنده به ایده های تحقیق، مشتمل بر حملات شخصی به نویسنده باشند، توجه و چاپ نمی شود.
[3] نامه ها نباید بیش از 300 کلمه باشد.
[4] نویسندگان نامه لازم است در ابتدای نامه تمایل یا عدم تمایل خود را نسبت به چاپ نظریه ارسالی نسبت به یک مقاله خاص اعلام نمایند.
[5] به نامه های ناشناس ترتیب اثر داده نمی شود.
[6] شهر، کشور و محل سکونت نویسندگان نامه باید در نامه مشخص باشد.
[7] به منظور شفافیت بیشتر و محدودیت حجم نامه، ویرایش بر روی آن انجام می پذیرد.


 

CAPTCHA Image