2月7日,“数据场景应用创新大赛”——“道路安全之高速公路货车评分算法赛”线上答疑活动成功举办。活动由贵阳大数据交易所主办,贵州数据宝网络科技有限公司协办。赛题设置团队贵州数据宝网络科技有限公司算法专家徐旭彬、保险精算师李晓红对本赛题进行详细解读,并围绕参赛选手及团队提出的问题进行线上答疑解惑。
“道路安全之高速公路货车评分算法赛”是围绕保险公司风控场景,探索构建合理的货车安全建模评分模型和交通安全评价指标体系,希望参赛选手能完成非营业货车风险评分。为激发广大参赛选手的创新意识,比赛不限制选手的模型策略,各位选手能结合自身经验和理解,对交通场景的分析选择最优模型进行训练比赛,最终大赛将采用均方误差的方式对参赛选手提交的成果进行评分,误差越低,排名越高。
在实际交通运输场景中,保险公司能够掌握的数据来源有限,多以车牌号、车龄、吨位数、使用性质、车辆种类等静态因子为主,建模和业务筛选维度都有限,需要与数据宝这样深度运营高速大数据资源的公司做合作,通过动态因子与静态因子相结合进行建模,优化模型的预测能力,模型的评分结果能作为定价因子运用到保险公司的定价策略中,提高保险公司的定价能力。
A:“道路安全之高速公路货车评分算法赛”目前释放的数据集包括高速领域有关数据字段,供参赛选手进行建模和分析,数据集包含范围如下:
行程数:是指一个高速路口驶入到另一个高速路口驶出,记作一次行程,是对一年内该车的高速行程进行汇总计数。
超速行驶次数:是指定车辆有超速行为的行程总数。超速行程是指平均速度不小于90公里每小时的行程。
夜晚行驶次数:是指晚上19点到次日的凌晨五点,它的行驶的总次数就是夜晚行驶次数。
行驶时间:是指保单起保日期往前推一年内,在高速上的总行驶时间,单位是小时。
平均速度:是指定车辆高速通行均次平均速度,是把所有的行程的平均速度再按照行程数取平均值。
A:训练集中所有的指标,它是指从起保日期往前推一年的时间窗口做的汇总统计。
A:是人工评分。在实际的场景应用中,因为每张保单的赔付率是保险公司比较机密和而隐私的数据,所以对Y进行了人工处理。此外把它切换成了1到100分,其中1分代表是风险最高,100分是代表风险最低。
A:超载数据是货车行驶到高速公路出入口时,高速公路站会对它进行称重,再根据车辆的轴数和车辆核定载量来判断这辆车是否超载。
Q:总里程,行驶时间,平均速度这几个计算的字段和给出的平均速度的差值是现实误差吗?
A:两种计算方式处理手段不同,赛题的数据集里面给出来的平均速度,是每一次行程计算的平均速度,然后再根据一年内的行程数取平均值。比如一辆车一年之内在高速行驶了100次,会先计算它在每一趟高速的速度,相加后除以100,求其平均速度。建议参赛选手以赛题释放的数据为准。
Q:按照官方说明里面对多模型的策略进行限制,要求模型组合不能超过三个,这是指对同一套数据进行训练的模型不能超过三个。如果我将训练集按照某些规则进行分群,比如按照承保地区分成不同的群体,再对每个群体分别进行建模,这样的形式是否作为多模型策略?
A:这样的形式不会判定为多模型策略,可根据地形、经济发展水平等维度对地区进行分类建模,不一样的地区的人伤赔付标准不同。
·数商云集 易华录:聚焦数据“收、存、治、用、易” 延伸大数据产业价值链
贵阳大数据交易所是全国第一家数据流通交易场所,经贵州省政府批准成立,于2015年正式挂牌运营,在全国率先探索数据要素市场培育。2021年贵州省政府对贵阳大数据交易所进行了优化提升,突出合规监管和基础服务功能,构建了“贵州省数据流通交易服务中心”和“贵阳大数据交易所有限责任公司”的组织架构体系,承担流通交易制度规则制定、市场主体登记、数据要素登记确权、数据交易服务等职能,支撑数据、算力、算法等多元的数据产品交易,依法依规对全国提供便捷、安全的数据流通交易服务。
贵阳大数据交易所定位于建设国家级数据交易所、打造国家数据生产要素流通核心枢纽,围绕安全可信流通交易基础设施建设、数据商和数据中介等市场主体培育,积极探索数据资源化、资产化、资本化改革路径,努力构建产权制度完善、流通交易规范、数据供给有序、市场主体活跃、激励政策有效、安全治理有力的数据要素市场体系,打造数据流通交易产业生态体系。
点击“ 【数说2022】贵阳大数据交易所优化提升的这一年”知道更多信息。返回搜狐,查看更加多