一种生活中常见的分布-zipf简介

我们生活中总是会出现各种随机事件,而事件不确定性发生的程度可以看作随机变量,比如人们的身高,一个班级中学生的成绩等。这些随机变量单个来看不具有什么规律,但是将大量同一事物的随机变量放在一起就容易发现规律。今天介绍的zipf分布就是这样一种随机变量的分布规律。

在看zipf之前,首先介绍一个更为普遍的分布:正态分布。联想一下我们周围遇到的朋友,同事的身高,它们是否存在一定规律性呢?可以看出,男性朋友在1.72左右的比例占大多数,而高于1.9低于1.5的人数非常的少。身高构成的随机变量个体差异数值上并不非常巨大,在一个数量级之内,而某一个数值的比例相比其它随机变量而言,要高出很多。用这个值即可描绘这个群体变量的统计特征,这便是随机变量的一个经典分布,正态分布。将它用图形描绘出来,以身高为横坐标,在某个身高下的人数或者出现的概率值为纵坐标,从这幅图中可以明显看出,平均值比它周围的值要高,而且在离均值正负一定范围内的随机变量值都大幅下降。这就是正太分布的基本特征,以某值为中心,向两边递减的过程中,降幅很大。

而zipf是一种与正太分布完全不同的类型:它本身的个体差异可以达到多个数量级以上,比如世界上国家GDP收入,国家的人口总数等。最高值与最小值的比可以达到数10倍甚至成百上千倍。此外,将这些随机变量的值按照从高到底排列,位于前列的随机变量所占比例超过总数的80%以上。比如以国家人口为例,除开中国美国,印度等这样的超级人口大国,国家的主流人口数维持在千万人的水平,但是人口数量从上亿到数千都有相应的国家。若我们以人口数量为横坐标,而在某一人口数量左右的国家数目或出现概率为纵坐标的话,绘出的图形是一个靠左侧数值巨大,越往后数值越小的一个递减曲线。它拖着长长的“尾巴”,因而这种分布又被称为长尾分布。

长尾分布中最为著名的是pareto分布以及zipf分布。zipf是上世界30年代由哈弗的一名语言学教授发现的分布规律。他发现在一篇长文中,将所有出现的单词按照出现次数进行排序,单词所在的序号(他称为rank)与它出现的次数(频率)之和几乎是一个常数。这就是著名的zipf分布。尽管这个结论看似简单,因为大家直觉上都接受这样的观点:文章中大量单词出现次数较低而少数单词频频出现。但是能找出他们乘积之间的关系确实一件很不容易的事情。

(未完待续)

reference:http://cos.name/old/view.php?tid=56&id=35



Related Posts:

  • No Related Posts
此条目发表在思考分类目录,贴了, , 标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注