2017年数模国赛B题第一小题的思路过程(个人思路)
第一题.简单来讲,就是给了一些数据,让我们拟合回归方程.
这是附件一的数据(任务相关数据)
这是附件二的数据(会员相关数据,会员即执行任务的人)
用excel地图将两类数据可视化.
- 任务数据
- 颜色为是否完成,高低为任务标价
- 会员数据
先对图分析一下,能注意到这些问题:
- 任务主要分布在四个城市,东莞深圳广州佛山
- 东莞完成度很高,深圳完成度很低
- 会员有挺多离群数据点
我们小组成员总结出的两个附件的一些影响因子:
-
任务的位置:
1.任务可能以四个城市为主,离城市越远,价格越贵.
2.任务可能由于聚集的原因,任务聚集越多,可能就越?其实这个说不定,可能会因为聚集,抢的人多就便宜了,也可能任务太多,人不够,所以价格就贵了. -
会员的位置,人越多的地方,可能任务的价格就越低
-
会员的完成任务能力,将会员里的剩余三组数据定义为会员完成任务的能力.不然影响因素可能就太多了.
然后逐个分析四个影响因素:
- 任务距离城市中心的距离:还是比较容易想到聚类算法的,得到四类中心,然后由于数据比较集中,可以将这些数据点视作在一个平面上.然后每个点与中心点的欧式聚类一算就搞定了.
-
任务聚集度:这个问题参考了一些优秀论文.两个方法叭,一个是以1.5km画圆,圈住任务个数就是密集度了.不过想起来容易…实施起来很多细节…比如1.5km怎么算…最后我们使用了另外一个方法,单纯划分成5050的格子.从min经度到max经度划分,纬度同理.格子里面有几个任务就是多少密集度.论文可能还要分析一下这个5050的格子实际为多大,是否合理.
-
会员密集度,与任务聚集度同理.不过筛掉那些离得太远的离群点.
- 完成能力里面,又有三个因素.综合成一个因素的话.那就使用熵权法一股脑堆在一起叭.三类数据熵权,堆起来,得到一个数据.这里也不太好数据可视化.
四个因素分析完了,得到值了,那就使用多元回归分析进行拟合.得到数据,这里可以用excel也可以用python sklearn.
这个数据是经过归一化后的系数,也可以不归一化,方便预测.然后R^2为0.28,低的离谱…拟合的真的很差.
可以看到价钱贵的都没拟合到.那怎么办呢?翻了翻优秀论文,再添加一个因素,任务的难易度.这个在附件里面没有体现…但大胆假设,为啥会有这么大误差,因为还有一个影响因子,任务的难易程度.这之间的差值,就是任务的难易程度的划分.那怎么划分难度呢?对残差聚类分析…得到四个中心点,就是四个等级.
(上面的文字和数据不对应,要排序一下)
最后拟合的结果,那肯定是相当好,这么一顿操作下来,我觉得我就是硬拟合…醉了,加上了难度系数的拟合就必不可能拟合的不好了…
(说点题外话,写到这我在翻代码时,发现我用于残差计算的预测值,不是四影响因子的预测值,是原先三个影响因子的预测值.心态有点蹦,好多图要重做了)
最后,对自己的做法评论一下…就离谱,拟合就硬拟,系数啥的离谱的要死.有种过拟合的意思.有个地方可以稍稍改正一下,就是等级里面会有负的,级低等级扣钱的现象出现,其实可以将前面多元回归方程的数字借一下,借给等级,这样子拟合出来的方程好看一些(因为原数据的最低价格就是65,拟合出来的常数偏大,正好借给难度,可以让难度表现为,难度越难就需要加钱,简单的不加钱,或只加一点钱.然后难度可以四舍五入一下…小数点太多有点硬拟合的感觉)
- 关于第二题的看法.虽然已经用光了所有的数据,但是其实还是又改进的地方,那就是,东莞和深圳的完成情况.深圳完成的比较好,东莞完成的比较差.为什么呢?优秀论文提到的,两地GDP不同,深圳有钱,不差这点钱懒得做.东莞学生和家庭主妇多一些,喜欢赚这种钱,而且gdp相对落后…这样加入gdp,进一步完成模型.不过这样第一问的第二小问解释的空间就比较小了,也可以匀几个因素过去第二题…
- 感受,优秀论文成为优秀论文,我觉得并不是因为整篇都很优秀,而是在某个点上很有亮点同时,整体比较自洽.但是…看论文的时候不能全信,因为比赛时时间太紧,不可能每个方面都很完美,有的地方实在解释不通,很有可能就是糊弄过去的…所以读优秀论文时多思考一下,不要被优秀论文牵着鼻子走
我也是数模新生小白,以上就是对2017年国赛B题第一问的一些思路…如果有谬误或者更好的思路,欢迎指正,感激不尽!
本文地址:https://blog.csdn.net/rglkt/article/details/107601503
下一篇: CardView实现卡片布局效果