Benford’s law

本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。

刚刚在Solidot上面说西班牙的一位研究者发现素数也存在着Benford’s Law,就好奇是什么东西,Wikipedia中文的解释就是上面的一段话,这个应该很容易理解。其实,我早就是觉得数学中那么多美妙的分布在现实生活中不会那么完美的呈现的。当然了,这个就是大数定律起作用的时候了。

不过话说回来,现在这个世界上的数据真的是很不值钱,搜搜的增长啊,照这个态势,大数定律完全可以当做一个解释,而非用在一个假设场合了。

但是,再怎么说,大数定律也是趋近,如果真的所有的数据都完好的吻合成正态分布,那么要data miner干屁啊。

不完整的解释:

一组平均增长的数据开始时,增长得较慢,由最初的数字a增长到另一个数字a + 1起首的数的时间,必然比a + 1起首的数增长到a + 2,需要更多时间,所以出现率就更高了。

从数数目来说,顺序从1开始数,1,2,3,…,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又 大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,…,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般 都比9大。

Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s