نوع مقاله : مقاله علمی
نویسندگان
1 گروه کامپیوتر، دانشکده مهندسی کامپیوتر، موسسه آموزش عالی آل طه، تهران، ایران
2 گروه هوش مصنوعی، دانشکده مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان، ایران
چکیده
پیشینه و اهداف: صنعت بیمة درمانی در پیشبینی هزینههای بیمه افراد که براساس پارامترهای پیچیدهای مانند سن و ویژگیهای فیزیکی است، با چالش مهمی مواجه است. شرکتهای بیمه برای مدیریت ریسک و جلوگیری از زیان احتمالی، بیمهگذاران را به دو گروه پرخطر و کمخطر دستهبندی میکنند. بااینحال، برآورد دقیق هزینهها برای هر فرد میتواند کار سختی باشد. برای مقابله با این چالش، ما رویکردی مبتنی بر علم داده و یادگیری ماشین را پیشنهاد میکنیم که از یادگیری جمعی برای پیشبینی افراد پرخطر و کمخطر استفاده میکند.
روششناسی: روش پیشنهادی شامل مراحل مختلفی از جمله پیشپردازش دادهها، مهندسی ویژگیها و اعتبارسنجی متقابل برای ارزیابی عملکرد مدل است. در مرحلة اول، دادهها را با پاک کردن، مدیریت مقادیر ازدسترفته و رمزگذاری متغیرهای طبقهبندی، پیشپردازش میکنیم. در مرحلة دوم، ما ویژگیهای جدیدی را با استفاده از روشهای مهندسی ویژگیها مانند مقیاسبندی، نرمالسازی و کاهش ابعاد تولید میکنیم. این روشها به استخراج اطلاعات معنادار از دادهها و بهبود عملکرد مدل کمک میکند. در مرحلة بعد، ما از یادگیری جمعی برای ترکیب روشهای رگرسیون متعدد، مانند رگرسیون لجستیک، شبکههای عصبی، ماشینهای بردار پشتیبانی، جنگلهای تصادفی، LightGBM و XGBoost استفاده میکنیم. هدف از ترکیب این روشها این است که از نقاط قوت آنها استفاده کنیم و نقاط ضعف آنها را به حداقل برسانیم تا به دقت پیشبینی بهتری دست یابیم. در نهایت، عملکرد مدل را با استفاده از روش اعتبارسنجی متقاطع k-fold ارزیابی میکنیم. این روش به اعتبارسنجی دقت مدل و جلوگیری از برازش بیش از حد کمک میکند.
یافتهها: رویکرد پیشنهادی ما به AUC برابر با 73/0 دست مییابد که اثربخشی آن را در پیشبینی افراد پرخطر و کمخطر نشان میدهد.
نتیجهگیری: با استفاده از علم داده و روشهای یادگیری ماشین، شرکتهای بیمه میتوانند دقت برآورد هزینة خود را بهبود بخشند و ریسک را بهتر مدیریت کنند. این رویکرد میتواند به شرکتهای بیمه کمک کند تا پوشش بیمهای و قیمتگذاری دقیقتری را برای افراد ارائه دهند که به رضایت بیشتر مشتریان و کاهش زیانهای مالی منجر میشود.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Predicting people's health insurance costs using machine learning and ensemble learning methods
نویسندگان [English]
- M. Tajaddodi Nodehi 1
- S. Hosseini Khatibani 1
- M. Yazdinejad 2
- S. Zolfi 1
1 Department of Computer, Faculty of Computer Engineering, Al Taha Institute of Higher Education, Tehran, Iran
2 Department of Artificial Intelligence, Faculty of Computer Engineering, Isfahan University, Isfahan, Iran
چکیده [English]
BACKGROUND AND OBJECTIVES: The healthcare insurance industry faces a significant challenge predicting individuals' insurance costs, which are based on complex parameters such as age and physical characteristics. Insurance companies categorize policyholders into high-risk and low-risk groups to manage risks and avoid potential losses. However, the accurate estimation of costs for each individual can be a daunting task. By leveraging data science and machine learning techniques, insurance companies can improve their cost estimation accuracy and better manage risks. This approach can help insurance companies to provide more accurate insurance coverage and pricing for individuals leading to higher customer satisfaction and lower financial losses.
METHODS: To address this challenge, a data science and machine learning-based approach that uses ensemble learning to predict high-risk and low-risk individuals is used. The method involves several steps including data preprocessing, feature engineering, and cross-validation to evaluate the model's performance. The first step involves preprocessing the data by cleaning it, handling missing values, and encoding categorical variables. The second step generates new features using feature engineering techniques such as scaling, normalization, and dimensionality reduction. Next, ensemble learning is used to combine multiple regression methods such as logistic regression, neural networks, support vector machines, random forests, LightGBM, and XGBoost. By combining these methods, the aim is to leverage their strengths and minimize their weaknesses to achieve better prediction accuracy. Finally, the model's performance is evaluated using cross-validation techniques such as k-fold cross-validation. These techniques help to validate the model's accuracy and prevent overfitting.
FINDINGS: The proposed approach achieves an AUC of 0.73 demonstrating its effectiveness in predicting high-risk and low-risk individuals.
CONCLUSION: In conclusion, the healthcare insurance industry can benefit greatly from data science and machine learning-based approaches. By accurately predicting high-risk and low-risk individuals, insurance companies can better manage risks and provide more accurate coverage and pricing for their customers. This can lead to the improvement of customer satisfaction and the reduction of financial losses for insurance companies.
کلیدواژهها [English]
- Data mining
- Ensemble learning
- Healthcare insurance cost
- Machin learning
- Risk
نامه به سردبیر
سردبیر نشریه پژوهشنامه بیمه، هرگونه پیشنهاد و انتقاد دیگر نویسندگان و خوانندگان را در خصوص نقد و بررسی این مقاله مندرج در سامانه نشریه را ظرف مدت 3 ماه از تاریخ انتشار آنلاین مقاله در سامانه و قبل از انتشار چاپی نشریه، به منظور اصلاح و نظردهی امکان پذیر نموده است.، البته این نقد در مورد تحقیقات اصلی مقاله نمی باشد.
توجه به موارد ذیل پیش از ارسال نامه به سردبیر لازم است در نظر گرفته شود:
[1] نامه هایی که شامل گزارش آماری، واقعیت ها، تحقیقات یا نظریه پردازی ها هستند، لازم است همراه با منابع معتبر و مناسب همراه باشد، اگرچه ارسال بیش از زمان 3 نامه توصیه نمی گردد.
[2] نامه هایی که بجای انتقاد سازنده به ایده های تحقیق، مشتمل بر حملات شخصی به نویسنده باشند، توجه و چاپ نمی شود.
[3] نامه ها نباید بیش از 300 کلمه باشد.
[4] نویسندگان نامه لازم است در ابتدای نامه تمایل یا عدم تمایل خود را نسبت به چاپ نظریه ارسالی نسبت به یک مقاله خاص اعلام نمایند.
[5] به نامه های ناشناس ترتیب اثر داده نمی شود.
[6] شهر، کشور و محل سکونت نویسندگان نامه باید در نامه مشخص باشد.
[7] به منظور شفافیت بیشتر و محدودیت حجم نامه، ویرایش بر روی آن انجام می پذیرد.
ارسال نظر در مورد این مقاله