首頁 > 基金 > 正文

速訊:常識性錯誤與人口預測:混淆出生率和生育率

2023-06-07 22:25:23來源:黃文政關注人口問題  


【資料圖】

幾個常識性概念與人口預測不少媒體在討論人口問題時也會出現常識性錯誤,如混淆出生率和生育率,或在生育率數據后面加百分號。本文用通俗語言解釋這些概念并介紹人口預測的方法。理解本文的主體只需初中數學。會編程的讀者可根據本文的介紹編寫自己的人口預測程序。1)反映生育情況的概念1.1) 出生率出生率是指當年出生人口相對年中總人口的比率,一般帶百分號或千分號。例如,中國2022年的出生率是0.677% = 956/141218,分母中的年中人口由2021和2022年兩年年末總人口的平均近似。分母使用年中而非年末數據是因為使用時間顆粒的中間值來近似,比使用其邊緣值,更能減小顆粒度不夠精細帶來的誤差。長期來看,出生率要維持在1/(預期壽命)的水平,才能保持總人口穩定。現在中國的預期壽命是78歲,出生率要達到1/78 = 1.28%,即每年出生14000*1.28% ≈1800萬人,才能維持14億總人口。這個很好理解。每年出生1800萬人都正好活78歲,總人口就是78*1800萬,即14億。2022年出生的956萬只對應于7.5億的總人口。但這并不意味著中國人口能維持7.5億;按目前趨勢,出生人口會無底線地不斷下滑。每出生100個女孩對應出生的男孩數被稱為出生性別比。自然出生性別比是106。中國出生性別比在1980年代以前處在105-110之間,但在生育限制政策嚴厲之后一路上升,至2000年代初期一度超過120,近年隨限制政策退出逐步回落到110左右。出生率很直觀,但受人口年齡結構的影響。前不久有篇文章根據深圳出生率在廣東各地市居首就得出深圳人很能生的錯誤結論;深圳相對更高出生率只是因為其年輕人占比更高。1.2) 生育率相比出生率,人們更常用生育率來刻畫生育情況。任何一個年齡段的生育率是指,該年齡段女性當年活產的孩子數除以該年齡段的年中女性數量。如果今年25歲的女性有850萬人,她們年內共生育了150萬小孩,那今年25歲女性的生育率就是150/850 = 0.176。我們把按女性年齡分列的生育率稱為生育率表。一般只考慮15-49歲的女性,因為該區間以外的女性生育極為罕見。人口統計把15-49歲區間按1歲分成35段,或按5歲等分成7段。采用哪種分段對分析結果影響有限。我個人傾向于使用顆粒度更細的按1歲分段。然而,使用35個或7個數值的生育率表來表達很繁雜,所以會把生育率表用一兩個指標來概括。最常用的概括性指標是總和生育率和平均生育年齡。總和生育率是指,每個年齡段的生育率加和值,一般不帶百分號。如果一個女性從出生到育齡結束前無夭折風險,在每個年齡生育的概率正好是當年這個年齡的生育率,那總和生育率就是該女性終生累計生育孩子數,可通俗地理解為女性“平均”生育的孩子數。因此,總和生育率是生育率表的一個具可解釋意義的概括。另一個概括性指標是平均生育年齡,即以分年齡生育率為權重,各年齡段的中間年齡的加權平均。總和生育率和平均生育年齡完全由生育率表決定,與人口的年齡結構關系。其計算所需的各年齡段的女性及其生育的孩子數量,一般由抽樣調查獲得。基于代表性不好的抽樣框所估算的生育率可存在巨大的偏差,給數據扭曲提供了巨大的空間。從2010年到2015年,由每年出生人口推算的總和生育率與抽樣調查生育率相差10%-40%,嚴重誤導決策。容易讓人困惑的是,總和生育率一般又簡稱為生育率。我們說中國2022年生育率是1.07時,這里的生育率就是總和生育率。出生率和生育率聽起來語義接近,但只要記住出生率側重于多少小孩出生,而生育率側重于女性的生育力度,就不容易混淆。1.3)更替水平人們通常把維持人口數量代際穩定所需的總和生育率,稱為更替水平。總和生育率處于更替水平意味著,當下出生的人與其父母輩在在數量上持平,即數量上可以替換上輩人。要準確得出更替水平,需針對具體人口做模擬計算,但直觀上可由下式估算:(1+出生性別比/100)/女性從出生到育齡的存活率。對106的出生性別比,不考慮女性夭折,更替水平為(1+106/100)/1 = 2.06,即100個女性生100*2.06 = 206個小孩,即100個女性、106個男性,正好替代父母輩。再除以存活率意在補償女性生育前的夭折。發達國家更替水平約為2.07。在嚴厲生育限制時期,中國出生性別比和女性死亡率都高于發達國家,需要更高的更替水平,如2.2才能維持人口代際穩定。考慮到二孩政策實施后,出生性別比逐步回落但依然高于自然水平,我現在用2.1來作為中國的更替水平。聯合國統一把2.1設定為更替水平,會相對高估發展中國家的人口增長。我不確定這到底是否有意,但知道聯合國是對中國人口長期高估最嚴重的機構。2) 反映死亡情況的概念2.1)死亡率死亡率是指當年死亡人數相對年中總人口的比率,一般帶百分號或千分號。死亡率也受人口年齡結構的影響。例如,中國人口在每個年齡的死亡風險都要小于巴基斯坦,但總死亡率卻高于巴基斯坦,就是因為中國年齡結構更老化。我們也可定義任何一個性別和年齡段的死亡率,稱按性別和年齡段分列的死亡率為死亡率表。人口統計一般把年齡分成0歲、1歲、… 、99歲、100歲和以上共101段。2.2) 預期壽命預期壽命可用來概括死亡率表,指一個人如果在不同歲數死亡的概率等于當年這個年齡的死亡率,其在出生時的預期存活歲數。預期壽命也被通俗地稱為平均壽命。假設當年0歲、1歲、2歲、…的死亡率分別是0.5%、0.0703.%、0.0603%、…。那10000個出生的人中,死于0歲的人數是 10000*0.5% = 50,死于1歲的人數是 9950*0.0703% = 7,死于2歲的人數是 9943*0.0603% = 6,……。這10000個人的平均壽命則是(0.5 * 50 + 1.5 * 7 + 2.5 * 6 + …)/10000。在上面,0.5、1.5、2.5分別代表0歲、1歲、2歲去世的人去世時的平均年齡。把10000換成任何一個正數都不影響計算結果。如果出生人口穩定,預期壽命延長會成比例增加總人口。從1949到1980年,中國預期壽命從35歲增長到67歲,由1949年的5.3億(并非很多人誤以為的4億)推算,1980年的總人口應該有5.3*67/35 = 10.1 億,但實際只是9.9億。也就是說新中國前30年的人口增長基本都可以被預期壽命延長所解釋。這點也可從出生人口的變化看出。根據2010年人口普查數據回測,中國在1949年的出生人口是1925萬,到1980年則是2030萬。不過,1980年出生人口相對于1960年代中期和1970初期的2500-3000萬是一個低谷。在人口預測中,除了使用男女預期壽命外,我還會加上男女嬰兒死亡率,最后一共4個指標來概括死亡率表。嬰兒死亡率就是0歲死亡率,其數值顯著高于其他低齡死亡率。只使用預期壽命來概括整個死亡率表不足以充分反映不同時期的死亡情況。3) 人口預測3.1) 人口狀態表的更新在任何年份,我們稱按性別和年齡段分列的人口數量為人口狀態表。按1歲分段,當年人口狀態表包含2*101個數值。不考慮人口遷徙,人口預測主要是根據每年的生育情況和死亡情況,由當年的人口狀態表來推定下年的人口狀態表。我們用出生性別比和分年齡生育率表來刻畫生育情況,用男女分年齡死亡率表來刻畫死亡情況。根據這些數據,我們按下述公式來更新當年的人口狀態表而得到下一年的人口狀態表:下年0歲人口 =當年15歲女性生育率 * 當年15歲女性數+ 當年16歲女性生育率 * 當年16歲女性數…+ 當年49歲女性生育率 * 當年49歲女性數。按男女出生性別比,可把上式得出的下年0歲人口分成男女兩部分。下年1歲男女人口則分別按下面公式計算:下年1歲男性人口 =當年男性0歲人口 * (1 - 當年男性0歲死亡率) ,下年1歲女性人口 =當年女性0歲人口 * (1 - 當年女性0歲死亡率) ;下年2歲的男女人口則分別可以按下面公式計算:下年2歲男性人口 =當年男性1歲人口 * (1 - 當年男性1歲死亡率),下年2歲女性人口 =當年女性1歲人口 * (1 - 當年女性1歲死亡率);……。以此類推,我們可一直計算到下年男女100歲和以上的人口,最后得到下年完整的人口狀態表。對未來每年依次重復上述過程,我們就可以推定未來任何一年的人口狀態表。上述過程只用到加減乘除,一點也不高深。如果假設生育率表和死亡率表不變,或只考慮總和生育率改變,做人口預測只需要初中的數學知識。3.2)構造生育率表和死亡率表如果生育情況和死亡情況發生變化,未來人口狀態會如何演變?我們用出生性別比、總和生育率、平均生育年齡、男女嬰兒死亡率和男女預期壽命共7個指標來概括生育情況和死亡情況,現在的任務是,給定基底年份的生育率表和死亡率表,由未來任何一年的概括性指標的設定值或預測值,來構造該年完整的生育率表和死亡率表,再根據這些表加上出生性別比,由上年的人口狀態表來推定該年的人口狀態表。我一般選人口普查年為基底年,因為這些年份的生育率表和死亡率表數據的樣本更大,理應更可信。生育率表包括15-49歲的35個數值,由總和生育率和平均生育年齡兩個指標來概括。如果平均生育年齡不變,總和生育率改變,可直接將每個年齡的生育率乘一個系數使得總和生育率等于設定的值。本文以下內容所需知識超過初中范圍。給定總和生育率,從設定的平均生育年齡來構造生育率表會比較麻煩。我的做法是把不同年齡的生育率歸一化,再把與此對應的分布函數處在0-1之間的應變量,通過一個正態分布函數的逆函數映射到實數軸上進行平移,然后把平移后的函數應變量通過之前的正態分布函數反映射到0-1之間。最后對這個變換后的概率分布通過差分計算出不同年齡的歸一化生育率,使其平均生育年齡正好等于設定的值。在這個變換中使用標準差為4的正態分布函數能夠很好地擬合不同年份的生育率表。任何性別的死亡率表包括101個死亡率數值,可以看成由0歲死亡率和預期壽命兩個指標來概括。給定0歲死亡率,對1-100歲的分年齡死亡率乘上一個系數,再乘上按年齡固定的放大率,得出縮放后的分年齡死亡率,使相應的預期壽命等于設定的值。把放大率在1歲時設為2,然后線性遞減到10歲時的1,在10歲以后維持在1能很好擬合不同年份的生育率表。值得一提的是,在構造生育率表和死亡率表的過程中,具體的擬合方法對最終人口狀態表的影響微乎其微。給定生育率表和死亡率表的構造方法,只要設定未來任何一年的7個概括性指標的數值,我們就可以推定任何一年的人口狀態表。因此,所謂人口預測的“預測”部分只是對這7個指標的設定或預測。現在應該容易找到免費的人口預測程序包,但有基本編程技能的讀者如果有興趣,還是可以自己編寫預測程序,這樣對細節理解會更深刻,也不容易在人口趨勢上被“專家們”誤導。實際上,我自己寫的人口預測的核心程序也只用了四五行R語言代碼,只是通過設定參數來構造生育率表和死亡率表會麻煩一些,但加上這部分功能的程序也不超過200行代碼。總而言之,人口預測是一個很直白的事情。一個受過良好理工科訓練的人,只要頭腦清醒,注意力集中,熟悉了幾張人口普查表格后,自己就應該可以獨立發明我這里描述的所謂預測方法。3.3)人口動力學方程及其拓展意義可以把反映人口狀態表演化寫成下面的離散化矩陣形式的動力學方程。P[t+1]-P[t] = (B[t] - D[t]) * P[t]這里P[t]、B[t]和D[t]分別是t年的人口狀態表、生育率表和死亡率表。這看起來像是一維離散化的由物質不滅推導出來的擴散方程,只是擴散機制不太一樣。從這個角度來看,人口狀態表可被視為一維的年齡空間的密度,而生育率表和死亡率表刻畫了擴散機制。考慮到人口的空間遷徙,上述人口動力學方程可從一維年齡空間擴展到年齡加地理位置的多維空間。這時反映擴散機制的則是生育率、死亡率和遷徙率。再進一步,如果把擴散方程左邊視為復數空間上的波動函數,再把擴散系數拓展到虛數,那么擴散方程看起來就有點像是量子力學里的薛定諤方程。我提這些只是說那些看起來并無關的現象底層的邏輯可能是相通的。要更好地理解這個世界,除了在現有的框架下學習現有的知識外,還需要回到底層邏輯做自己的思考,而不應該太局限于現有的學科分類體系。不管是對群體還是個體,只做好學生是不夠的。

關鍵詞:

責任編輯:hnmd003

相關閱讀

推薦閱讀