关注我们:

基于大数据的京沪人口流动流量 流向新变化

2016-08-16

来源:未知

测试

分享到:


位置大数据为人口流动流量、流向及其变化研究提供了条件,大数据人口推断比人口普查更加精准且成本大幅度降低。

虽然国内外独立成篇的有关人口流量、流向研究的学术文献较少,但是有关人口流动的可搜索学术文献数量却非常巨大,其中大部分是1980年以来的著述。在中国知网上全文检索“人口流动”就有1 270 595条结果,以“人口流动”作为关键词检索有8 034条结果;在谷歌粉丝联合建立谷粉搜索中全文检索“人口流动”时,则可搜索出40余万篇文献(类似谷歌学术搜索)。基于同样的检索条件,以“上海人口流动”进行全文检索时有3 718条结果,而以“北京人口流动”进行全文检索时有3 709条结果,表明学术界对北京市和上海市研究的热度大致相当。尽管有关人口流动文献数量巨大,但基础人口数据来源却相当有限:来自人口普查和全国性大型人口抽样调查所占份额最大,以地区人口迁移或人口流动为专题的抽样调查甚至普查所占份额次之,而受成本制约的学者们小范围专题人口流动调查份额较少,但数据最为真实可信。

 

2010042320312211-1881966.jpg

 

传统的人口流动研究按数据来源可分为两大类:一类是以全国的人口流动为研究对象,数据主要来源于全国人口普查和大型人口抽样调查;另一类是大城市与各地区的流动人口调查研究,通常以调查报告的形式出现。国家人口计生委流动人口服务管理司首次发布《中国流动人口发展报告2010》,截至2014年已累计出版了5本报告,其有关的调查数据现已经向国内高校和科研机构免费开放。国家卫生和计划生育委员会的调查数据包括中国大陆的所有县、区,但其最大的缺陷在于按地区均衡抽样,在外来人口聚集区域的样本偏少,外来人口比例较低区域的样本相对过多,导致抽样调查效率较低,以此推断的全国人口流动总量就会失真。即使从上海的情况来看,面对全市超千万的外来人口,只有区区8 000个样本,显然这种调查推断的上海外来人口总量会有较大的偏差。由于中国流动人口规模巨大,数据繁杂纷乱,境外学者文献数量稀少,且更多地引用中国大陆学者的数据和结论。尽管有人口普查,但从学术界到政府再到社会公众,目前为止对我国有多少流动人口等基本问题都缺乏统一、明确的答案,相同年份的流动人口数量差异极大,同一年份不同来源的数据之间差距有些也大得惊人[1]。笔者[2]以人口流动研究为出发点,系统地研究和分析了国内跨省人口流动流量、流向情况。研究结果表明,北京流动人口规模大致与上海相当,宏观经济周期波动、政策调整与政治事件对流动人口的影响也大致相同。

大数据研究主要集中在欧美发达国家和地区,相关文献主要来源于美、英、德等国以及信息技术发达的韩国、日本等国,中国是唯一挤入大数据研究阵营的发展中国家。国际上对大数据的研究主要集中在数据挖掘、可视化分析、云计算和信息检索等方面,研究内容涉及生物学、传播学等不同学科领域,由于国外人口流动多以旅游、商务等短期性流动为主,而国内则以就业性的人口流动为主,且在时间跨度、距离跨度和数量方面都远胜全球任何一个国家。因此,国内有关人口流动大数据的实证研究基本上与国外保持同步,甚至领先。胡巧玲等人[3]利用改进算法进行大数据统计的人口迁移量预测,以提高人口迁移预测的准确度。王峰等人[4]通过数据分析和数据挖掘,分析了城市人口的时空分布及动态迁移情况。赵时亮等人[5]指出,利用手机与移动通信基站之间的广播机制,可以分析诸如住宅小区空置率和城市人口通勤的规模和流向等。李红娟[6]对大数据时代我国人口信息管理及应用进行了探索性研究。刘瑜等人[7]探讨了解释所观测移动模式的模型构建方法。童大焕首次利用QQ大数据分析北上广深一线城市的人口流动情况。张强等人[8]利用移动通信总量数据对国内主要特大城市人口进行估计,其结果与北京、上海等城市最新调查人口相当一致。与传统依赖人口普查或人口调查的人口数据不同的是,基于大数据的人口流动研究更多地来自信息技术领域的专业人士,而传统人口学领域的研究成果将有助于大数据分类、聚类、回归以及关联等分析和判断的有效性。中国社会科学院人口与劳动经济研究所的王广州研究员认为,就目前的情况来看,我国的人口大数据的来源主要是人口普查、人口信息系统和行政登记大数据。王广州[9]根据人口数据的收集方式的不同,将中国人口大数据划分为全员人口大数据和特定人群/亚人口大数据。王广州认为,全员人口大数据主要是人口普查信息和户籍管理信息,理论上覆盖全国所有人口,是最具有权威性和长期历史积累的大数据。虽然并不认可这种人口大数据的划分方式,但基于早前年份的大数据缺失,人口普查数据仍然不失为重要的比较研究数据来源。

社交网络大数据中,对腾讯公司QQ用户实时登录和微信用户的分析,同样可以得到比较准确的人口分布及流动数据。由于QQ用户年龄主要在18~50岁,该年龄段也与外来人口的年龄结构基本一致。因此,通过分析春节期间大规模QQ登录地域的变动,可以推算城市区域该年龄段人口流动情况。童大焕首次利用QQ大数据分析北京、上海、广州、深圳一线城市的人口流动情况。童大焕认为,包含瞬间流动人口在内,北京、上海、广州、深圳2013年底的实际人口数量并非官方公布的6 930万,而是高达16 476万。童大焕的错误在于简单地将QQ用户与人口相对应,却忽略了这样的一个关键事实:QQ活跃用户一方面可以通过电脑登录,另一方面更多地通过手机等移动用户端进行登录,而北京、上海、广州、深圳这样的一线城市该年龄段人均拥有1.5部手机。将这些关键因素考虑之后,4个一线城市18~50岁的人口估计为6 414万人,再加上这4个一线城市户籍人口中该年龄之外的人口以及外来流入人口在该年龄段之外的人口,才是这4个城市的总人口。

VR硬件评估more+
智能硬件more+

投稿