1.2 Restatement of the Problem
Considering background information and restricted conditions identified in the problem statement, we need to solve the following problems.
Problem: 1:Extreme weather events and natural disasters increase the risk of property damage.Insurance companies need higher premiums to cover risks, and the risk of claims payouts increases.For sustainable development of the property insurance industry, develop a model for insurance companies to determine when they can and cannot underwrite.Demonstrate the model through two regions in different continents that have experienced extreme weather or natural disasters.
Problem: 2:The insurance environment is undergoing with the gradual increase in extreme weather events and natural disasters.Adjust your model to provide appropriate advice for future real estate decisions.Determine whether sites are suitable for development and how to build properties more resistant to disasters.
Problem 3:Develop a protection model to determine the level of protection for properties not recommended for insurance due to cultural and economic factors.
Problem 4:Choose a coordinate location and use the model you have developed to evaluate that location.Based on the evaluation results, write a proposal to the community about the future development plans, timeline, and development costs for the site.
Figure 2:The Overall Process Of The Problem
1.3 Our Work
首先,针对问题 1,为了确定在极端天气和自然灾害频繁发生的地区是否应该进行承保,我们建立了保险模型,对收集到的数据进行预处理,例如自然灾害造成的风险、脆弱性、财产损失等。通过 CRITIC-KNN 算法,为影响因素分配权重值。我们使用指标权重计算两个区域的总加权分数。最后,确定是否应为该站点投保。
其次,改进问题 1 中设计的模型。在选定的区域建造房地产并使其具有抗灾能力将改变脆弱性影响因素。然后,我们使用 ARIMA 时间序列模型来预测影响因子的未来值。最后,通过 CRITIC-KNN 算法,我们获取所选区域的未来加权分数。根据评估结果,向社区撰写关于该站点未来开发计划、时间表和开发成本的建议。
接下来,对于问题 3,继续改进模型。通过将社区内财产的文化和经济价值因素纳入,为不符合保险资格的社区提供保护机制。使用 CRITIC-KNN 算法,计算改变影响变量后的总加权得分,以确定如何保护社区中的财产。
2模型准备
2.1假设和正当理由
·假设1:将极端天气和自然灾害的发生时间限制在2011年至2020年期间。
论证1:限制时间的目的是为了简化问题,使模型更易于管理,并提高计算效率。极端天气和自然 灾害的时间范围太宽,导致了一些计算。过去距离太遥远的数据可能会对预测结果产生不利影响
。
·假设2:假设极端条件和自然灾害类型包括暴雨、干旱、地震、洪水、山体滑坡、火山爆发和 野火。
理由2:极端条件和自然灾害有多种形式。根据我们的数据处理,全球模型中包含的8个自然灾害 和极端天气事件都是发生频率较高的事件。使我们的模型更普遍地适用。
·假设3:经济正处于一种自然发展的状态
理由3:首先,我们认为国际贸易不受国际形势的影响,而国际形势对经济有重大影响。其次,我 们假设没有类似的经济危机情况,且经济的异常波动不利于该数据的应用,这将会导致较大的误 差。
2.2符号
symbol | meaning |
Y t | 使用中的时间序列 |
φ 1-φp(AR) | 前一个值和过去的p时间点之间的关系 |
θ 1-θq (MA) | 前一个值与q过去时间点的误差之间的关系 |
C | 常数项 |
Yp | 序列中每个阶样本的自相关函数。 |
εt | 在时间点t处的误差项 |
3 模型的建立及解决方案
3.1 Task1
关于问题1,我们在联合国官方网站和各大洲和国家的政府门户网站上获得了2011年至2020年期间 五大洲约180个国家自然和气候灾害的频率、损失和伤亡的数据。通过这些数据,分析国家的综合 风险指数,对其风险进行分类,结合当地的财产损失,综合判断当地的风险和损失,构建风险损 失模型,帮助保险公司做出更好的商业决策。
1.13 数据分析和预处理:
首先,在本期中,我们主要被称为、处理和分析了三个数据集。
第一个数据集是关于全球灾害风险的年度技术报告,世界风险报告主要关注与灾害风险管理相关 的各种主题,以及用于评估世界上许多国家的极端自然事件灾害风险的指数。世界风险指数由某 一地区的极端自然灾害和暴露水平以及该区域的社会脆弱性组成。社会脆弱性分为某一地区对极 端自然事件的易感性、缺乏应对能力和缺乏适应性。
该指标从灾害发生的可能性、灾害发生前、灾害发生中、灾害发生后的因素、多个方面评价某一 地区的极端自然事件灾害指数,对区域灾害的评价具有重要意义。一个国家在世界风险指数上的 指数得分越高,其国家的灾害风险就越高。该数据集全面地展示了世界各国的灾害风险,因此我 们使用来自世界风险报告的数据集作为我们研究的基础。
图 3:全局灾难分类 图 4 :灾难趋势图
在此数据集的基础上,我们使用其他两个数据集的灾害损失和频率的详细数据来整合和优化数据,并使用这些数据来分析每个大洲和国家的各种灾害的比例,以及每个国家每次灾害的经济损失。这是我们主要使用的三个数据集,我将详细介绍我们的数据预处理步骤和一些重要的数据可视化成果。
由于数据集中缺乏某些信息,我们使用Python在预处理过程中搜索和修改数据集中的离群值,并 删除缺失的值。使该数据集更加准确和全面,提高数据的准确性和价值,并促进减少后续机器学 习中的错误。在第一个数据集中,我们需要主要关注诸如“世界资源研究所”、“暴露 ”、“脆 弱性 ”、“敏感性 ”、“响应能力不足 ”和“适应能力不足 ”等条目。这些条目科学地分析了在 客观和主观条件下的局部风险指数和风险水平,并充分考虑了时间和空间的重要性。
通过数据可视化,我们可以得到以下图像:
图5:暴露水平与风险评分之间的相关性分析
This graph tells us that there is a strong correlation between exposure level and risk score. Of course, the correlation coefficients we obtained later also confirm this point. In addition to the strong correlation between exposure level and risk, we obtained a strong correlation between the exposure index and the number of disasters that occurred in the area by integrating the data table. This reflects the correctness of our data integration, and we can predict the number of disasters that occurred in the year through the change pattern of the index.
Of course, with the frequency of disasters occurring, each continent and country will have a tendency to predict what kind of disasters will occur, how many times such disasters will occur, and the risks will be reduced accordingly. It is not only an economic issue, but also a safety issue.The following graph are the
disaster "tendency" graphs obtained after data integration:
3.1.2 Model Establishment:
For such problems, we can convert evaluation problems into classification problems, which can better directly determine their risk level. For higher and very high-risk areas, we can ignore their insurance coverage, but for medium, low, and very low-risk areas, we need to combine local disaster losses to make a final judgment on whether to insure locally. This can effectively avoid complex numerical calculations.
According to the characteristics of the data, it has temporal characteristics and can be divided into training and testing sets by year. After integrating and optimizing the dataset, it can be used for regression analysis