博海拾贝

200万高考生被张雪峰改变

有史以来报考人数最多的2024年高考即将出分,全国1300万考生即将进入志愿填报环节。而在近两年的志愿填报中,考生和家长们很难避开的一个人物便是——张雪峰

尽管早已作为考研老师成名,但张雪峰真正爆红全网,还是在上一个高考季。下图显示从2019年到2023年的高考季期间,“张雪峰”一词的抖音搜索指数,2023年达到了2022年的11倍,2021年的34倍,更达到了2020年和2019年的200-300倍。

在2023年高考志愿填报期间,他的视频切片也随处可见,屡有惊人之语并冲上各大媒体热搜,比如“孩子报新闻就打晕拖走”,“普通家庭女孩不要读金融”等。铁口直断的风格以及明确的建议与指向,受到不少家长的欢迎,同时也引发了社会关于专业选择和就业前景的广泛讨论。

那么,张雪峰的爆火和他的言论,真的对高考录取产生影响了吗?网络言论到底会在多大程度上改变家长和考生的决策呢?

使用2017年到2023年共7年的高考录取数据,我们进行了一项研究。

张雪峰点名的专业,录取位次确实出现了下降

在每年高考前后,考生们总能拿到一本厚厚的志愿参考书,给出了近一年或者几年高考的录取情况,其中包括每一所学校、每一个专业的录取最低分以及平均位次。

要检查每一个专业的相对热门程度是否变化,最简单的方式就是计算该专业每一年的平均录取百分位

将每个专业的最低分在总体考生分布中所处的位置,代表了这个专业的“录取百分位”,例如90%的录取百分位表示该专业最低录取分数的名次高于90%的考生。再将所有学校、专业的“录取百分位”按照专业求平均,便得到了每一个专业的“平均录取百分位”。

将同一个专业在不同年份的录取百分位相比,便能知道这个专业的录取情况发生了什么变化。平均录取百分位越来越高,说明这个专业能招收到的考生排名越来越靠前。下图列出了从2017到2023年这七年间四个典型专业的录取百分位变化:

可以看到,数学类专业的录取位次在不断提升,已经比2017年提升了4到5个百分位。计算机类从2017到2021年的录取位次有所下降,但2022和2023年再度提升。金融学类自2017年起录取百分位就在下降,和数学类走势相反,已经比2017年低了4个百分位。新闻学原本保持了稳中有降的趋势,但是2023年出现了大幅度下降,降幅比起之前的六年更大。

2023年相对于2022变化录取百分位变化最大的专业如下两图所示:

美术学类公安学类兵器类生物医学工程类动物医学类等专业,相对2022年录取百分位大幅度提升。美术学、公安学和兵器类,提升幅度都超过5%——相当于在100名考生当中,该专业原本只能录取到第N位,现在可以录取到第N-5位。

天文学类经济学类图书情报与档案管理类艺术学理论类基础医学类的录取百分位下降最快。新闻传播学类金融学类的降幅也在2%,进入下降最快的专业行列。

所以,张雪峰点名的新闻学和金融学专业,确实在2023年高考招生中出现了较大幅度的下降。

专业录取位次变化,和张雪峰有多少关系?

但是,新闻/金融等专业的平均录取百分位下降,和张雪峰有没有关系呢?在2023年各校放榜后,我们不难发现类似这样相互矛盾的言论——

财经类的专业录取下降有目共睹,但是其中张雪峰起到了多少作用,大家意见并不一致。有人认为是张雪峰的影响直接改变了考生家庭的认知,使他们避免选择某些专业;另一些人则认为,即使没有张雪峰的言论,考生们的选择也不会有什么不同,张雪峰的言论只是当前录取变化的注释,并非原因。

到底谁是对的呢?我们首先可以回答这样一个问题——张雪峰影响力更大的地方,这些专业的平均录取百分位是否有了更大的变化?

为了识别张雪峰的影响,我们从抖音的星图平台获得了张雪峰的直播观众分布。将该分布与各地区2022年末人口放在一起,可以画出下面的散点图。

上图的横坐标为各地区人口,纵坐标为张雪峰直播观众在各地区的分布。可以看到,各地区张雪峰观众的比例存在一定程度的差异。

——图中靠近右下角的点,观看张雪峰直播的人口占总人口比例较低,比如贵州、广西、云南等。

——靠近左上角的点,例如天津、山东、吉林等地,观看张雪峰直播的比例较高。

不同地区观看张雪峰直播的人口密度差异较大,较高地区可以达到较低地区的5倍之多。我们把直播观众占总人口的比例称为“张雪峰密度”,用它来表征张雪峰在不同地区的影响力差异。

将各地区的“张雪峰密度”,和各地区2023年的金融学、新闻学专业的录取位次下降放在一起,可以得到下面的散点图:

以上两图的横坐标均为“张雪峰密度”的对数值,纵坐标为各省2023年的新闻学和金融学专业的录取百分位相对于2022年的变化。(图中的科类已经对应了最新的地方高考改革,例如黑龙江-物理实际上指的是2023年的黑龙江-理科,下同)

不难看到,新闻学和金融学的平均排位变化,都与这些地区的“张雪峰密度”呈现显著的负相关关系,其中新闻学的负相关显著性为0.047,金融学的负相关显著性为0.007。因此,张雪峰观众越密集的地方,2023年新闻学和金融学专业的平均录取百分位下降更多,这个命题完全正确。

但是这样的相关性,不足以确定张雪峰是否真的对志愿选择存在直接的影响。因为有这么一种可能,不是因为看了张雪峰直播,家长和考生才不选新闻学/金融学,而是本来就不喜欢新闻学/金融学的家长和考生,更有可能成为张雪峰的粉丝

很容易就能发现,相比于西南地区(广西、云南)的观众,北方观众(天津、吉林、河北)看张雪峰更多。这种差异可能来自许多因素,比如经济社会环境的不同,语言习惯的差异,以及对不同职业、行业的认知态度差异等。

如果是这些地区上的差异,导致某些地区的考生本来就不愿意选择金融/新闻专业,那自然就会与张雪峰的相关议论产生共鸣,更多观看张雪峰的视频。在这种机制中,上图中“张雪峰密度”和新闻学/金融学的录取百分位变化的负相关性也同样会出现。

为了排除这种因素,最简单的方式,是检验上图的负相关现象是否在张雪峰爆红(2023年)之前就出现了。下图给出了2022年的结果:

可以看到,在2022年,各省的金融学/新闻学录取平均百分位变化和“张雪峰密度”之间不存在统计上的显著关系。也就是说,不同地区的“张雪峰密度”,在张雪峰爆红之前,和这些地区的新闻学和金融学专业的录取百分位变化并没有关系

张雪峰密度,只在2023年才和专业录取变化相关,但在2022年时并不相关,这排除了前面说到的这种“某些地区原本就不喜欢金融/新闻因此才与张雪峰有共鸣”的可能性——“张雪峰密度”较高和较低的地区之间,对金融学/新闻学专业的好恶原本是没有显著差异的,在张雪峰爆红后,这样的差异才出现。

因此,在金融学和新闻学专业上,张雪峰的影响,是确实存在的。在张雪峰密度最高的地区中,2023年金融学和新闻学专业的录取百分位平均降低了4%

张雪峰影响了多少专业?

上文提到的新闻学和金融学,只是张雪峰最为广泛热议的言论中提到的两个专业。张雪峰的直播中,避雷或推荐的专业远不止这两类,难以一一记录。那么,我们应该如何确定张雪峰的言论到底影响了哪些专业的报考呢?

参考上面验证金融学和新闻学的方法,我们可以对2017到2022年每一年,计算每一个专业在各地区的报考名次变化的该地区的“张雪峰密度”的相关性,再使用2023年数据做同样的相关性计算。如果某个专业的录取存在和“张雪峰密度”的相关性,我们称该专业存在“张雪峰效应”

如果某专业在张雪峰爆火之前就存在了所谓的“张雪峰效应”,那么只能说明是地区特征差异导致了专业选择的差异。从2017年到2022年,各地区存在 “张雪峰效应”的专业占所有专业的比例见下图:

可以看到,从2017到2022年,平均有12%左右的专业有1%水平上显著的“张雪峰效应”。

也就是说,地区特征确实影响了占招生总数12%的专业的报考选择,这样的偏好差异在2019年达到了16%,随后逐年下降,到2022年,只有7%的专业存在“张雪峰效应”了。

不同地区对于专业的偏好差异导致的报考选择差异确实存在,但在前些年一直有缩小的趋势,原本按照这个趋势,再过几年,地区间对专业的偏好差异可能倾向于消失。

但2023年,事情发生了变化。此时对不同地区专业报考产生影响的,不只是导致了不同“张雪峰密度”的地区特征,还包括了确实在2023年时爆火的张雪峰言论。将2023年的情况加入,我们可以得到下图——

可以看到,存在“张雪峰效应”的专业占比,从2022年的7%,提升至2023年的28%。考虑到地区差异导致的专业选择正在逐渐缩小,从2022到2023年约为21%的净增,便只能归因于张雪峰爆火这件事本身了。

如果将张雪峰效应的显著性阈值从1%放宽到5%,则有下图——

上图有着同样的效应。从2017到2022年,张雪峰效应仅在17%左右的专业中存在,2022年下降至14%,而2023年该比例上升至38.6%,比起2022年上升了24%

用这个结果回应我们在前文提到的一种可能性——因为原来就不喜欢/喜欢某专业,才会选择成为张雪峰的粉丝,这种机制只能解释2023年专业录取排位变化差异的14%;因为成为了张雪峰粉丝,才变得不喜欢/喜欢某专业,这种机制可以解释2023年专业录取排位变化差异的24%

在排除地区特征后,我们可以得出判断——2023年,占招生总人数五分之一到四分之一的专业录取排位,被张雪峰改变了。在“张雪峰密度”较高的地区,每五个考生中,就有一个考生因为张雪峰改变了自己的专业选择。

下图列出了在2023年张雪峰效应最为明显的专业——

可以看到,2023年时被张雪峰影响最大的专业,基本上都是文科以及财经类专业,其中新闻学金融学并不是被影响最大的——在张雪峰密度更高的地区,历史学哲学专业的录取百分位下降,达到了金融学和新闻学的两倍以上。

从上图中还能看到有趣的一点——存在张雪峰效应的专业,没有一个影响系数是正的。避雷效应极为明显,被张雪峰说不好的专业,考生避之不及。但是张雪峰推荐的专业,大家却并没有趋之若鹜。

“张雪峰效应”正确反映了就业形势吗?

一些观点认为,张雪峰的爆火,代表不同阶层人们的信息差正在收窄。因为人们原本对这些专业仅有字面意义上的理解,是张雪峰将每一个专业的真实就业去向,要注意的事项,要避开的雷,都一一说清了,让普通人也可以了解到每一个专业的真实就业趋势。

那么,因张雪峰的言论而产生的专业录取百分位变化,和真实的就业变化,确实匹配吗?那些被“避雷“的专业,在就业市场上,真的是“雷”吗?

我们使用超过10亿条招聘数据,对每一条招聘数据中类似“xx专业优先”的专业需求进行专业字典匹配,计算每一个专业在每一条招聘广告中出现的比例。将各专业录取人数在总录取人数中的比例与在招聘广告中的出现比例相比,便能得到直观的供需关系,见下图:

上图给出了所有本科专业门类的招生占比和招聘占比。可以看到,两者存在明显的正相关,说明我们目前的专业供给和劳动力市场的需求还是基本匹配的。

但明显供需不匹配的专业同样存在。越靠近散点图左上方,说明招聘占比比招生占比大得多,未来毕业生相对供不应求,反之则说明招聘占比低于招生占比,未来毕业生供过于求。偏离对角线的岗位越多,越远,说明当前的专业招生设置和录取情况和实际市场需求差别越大。

当然,这种算法也存在一定局限性,比如在图片右下侧我们可以看到几乎所有医学类专业,这是不是说明医学类专业严重供过于求呢?不一定。因为正如我们前面提到的,这里的“招聘占比”使用的是公开招聘数据,主要来自各大招聘网站。而如果各大医院招收医生时均不通过招聘网站公开进行,那么用招聘数据计算的“招聘占比”就存在低估的可能。

因此,比起静态的招聘占比,“招聘占比”随时间的动态变化,可能是一个更为重要的参考趋势。下图列出了有计算机专业需求的招聘广告占比和计算机专业实际招生占比的对比。

可以看到,计算机专业在就业市场的招聘广告中的占比正在一路下降。2017年,每9条招聘广告中就有一条点名需要计算机相关专业的毕业生,但在2024年时,约14条广告才有一条需要计算机专业的毕业生,占比下降至8%不到。与此同时,2023年计算机类招生达到了所有招生的10.78%,已经高于招聘数据中计算机专业比例的需求比例。在这种情况下,计算机类相关专业虽然绝对需求仍然很大,但供给更大,在这些学生毕业后,未来可能会出现供过于求的现象。

那么,张雪峰点名不推荐的新闻学和金融学的供需情况如何呢?

上图列出了新闻传播学类专业的招聘和招生占比,包括了新闻学、传播学、编辑出版学、网络与新媒体等专业。这个大类的专业,在招聘市场上的占比从2017年到2022年确实存在下降趋势,从3%左右下降到1%,但在近两年重新回升至2.6%。2023年的新闻传播学类专业的招生占比为1.3%,目前呈现了供小于求的趋势,且需求缺口正在扩大。

金融学类专业呈现了同样的趋势。金融学门类的二级专业包括投资学、保险学、精算学、互联网科技等。这部分专业在招聘市场上的占比从2017年的4%一路下降至2021年的1.7%,目前再度回升至2.5%。而2023年招生中,金融类专业的占比为1.6%。因此,金融学类专业目前也呈现供给小于需求的趋势,需求缺口也在扩大。

可能有读者认为,这样的结果与感知相差太远,金融学类毕业生明明已经哀鸿遍野,何来“供不应求”?这里需要强调一点——我们使用的是比例的对比,而不是总量对比。金融学类专业的招聘总量和需求总量,和之前几年相比,可能确实下降了,但是其他的专业需求下降更快,导致金融学类的占比反而上升了。

换句话说,大家都有困难,但某些专业可以发出非常大的声量,“我超级困难”能让全网听见,即使他们的困难其实要比其他专业相对更小一点。

因此,张雪峰的一些判断,更多反映的是2、3年前就业市场的趋势。一些原本呈现颓势专业,目前的就业情况已经逆转;一些原本需求充足的岗位,则变得供过于求。从这个意义上说,根据2、3年前的趋势进行选择,信息差并没有缩小,而是被放大了——信息确实是真实的,但却滞后于周期,可能会使四年后的就业市场出现更大规模的不匹配。

写在最后

从张雪峰的爆火,到大量专业的录取情况变化,其实呈现了这么几个事实:

——信息是稀缺的。

——人们迫切渴求得到真实的信息。

——人们愿意使用获得的信息来修正自己的选择。

然而这正是一种悖论。

——当变化刚刚开始出现时,能够发现的人总是少数。

——当某些变化发展到一定程度时,才能积累足够的蛛丝马迹,让发现这些迹象的人们得出某些共性的结论,产生共鸣。

——当这样的共鸣产生足够能量的共振时,这种变化才能被人们大范围地讨论、传播,并重新塑造人们的认知。张雪峰引发全网热议的种种观点,正处在这个阶段

——当绝大部分人们的认知已经重塑完毕,新的共识产生时,旧的变化已经结束,新的变化正在开始。

因此,通过全网爆火的讨论补全信息差,那么一定只能得到落后于变化的认知。真正的信息差不会引发讨论,因为它可能与绝大部分人的共识相左,更可能被无视。

人力有时而穷,意见领袖也不例外。与其盲从意见领袖的建议,时刻保持与数据和信息的零距离,可能才是缩小信息差的有效方法。

来源:城市数据团 微信号:metrodatateam

退出移动版