【睡前消息990】学会本福特定律,你就是中国“最强X人组”
全国都有公共机构引用“人名大全”造假事件,提供深层讨论
大家好,2025年12月12日星期五,欢迎收看990期睡前消息。请静静介绍话题:
过去一周,从湖北竹溪县开始的“最强五人组”事件快速扩散。百度文库《10000中国普通人名大全》的前五个名字,在全国几十个地方反复出现。杭州师大公示的福利基金受益名单、安徽六安市的为民服务名单、京宏高铁的面试否决名单……都用上了这5个名字,几乎连顺序都完全一样。
至于后面的一万个标准名字,也批量出现于各种政府文件。比如2024年营口市非公有制工程系列中级职称评审通过人员名单、辽宁省非公有制高级职称评审通过人员名单。
督工你怎么评价?
目前的新闻可以从两方面看出更大的隐患。
首先,有一部分机构造假水平很低,几乎不投入什么成本,就能有效应付上级的合规要求。这次事件之所以是“最强五人组”,是因为大多数需要编造名单的人甚至连百度会员和下载费用都不想付,直接使用最前面可以免费复制的名字。可以想象,还有更多造假的人没这么蠢,没这么懒。
其次,以辽宁为代表,有一部分机构愿意多付出一点点成本,编造的名单不限于前5个免费人名。这说明,造假人员的手段确实有明显的分层。可以设想,在涉及利益更大的问题上,更多人使用了更多的造假手段。
所以,如果想找到真正的问题,仅仅靠百度搜索重复人名是不够的,今天我要分享一些稍微升级的平民工具。这些工具和百度人名大全一样,在缺乏相关背景资料的时候,也能找出造假嫌疑犯。
从常理来说,编造人名是一种小众造假手段,大多数造假是修改或者编造数据。目前校验数据是否自然产生,最简单的工具是 “本福特定律”。
1938年,物理学家本福特发现了一个规律,人类社会凡是涉及物质数量的基础统计数据,无论绝对数字大小,首位数字出现的概率都比较稳定。首位数是1的概率达到30%,首位数是9的概率最低,只有大约4.6%。从1到9每个数字,都有比较固定的出现频率。

这是因为人类社会一直在发展,从农业社会开始,人口、经济和大多数物资的数量,从长期来看都是指数增长的。用十进制去表达指数增长的数据,必然会发现,首位数是1字头的时候,首位数变化很慢,比如说从100到200需要等指数函数增长100%,这导致1字头的数据占30%以上;而到了首位数5字头的时候,首位数变化很快,从500涨到600,只需要指数函数增长20%,这导致5字头的数据不到8%。
所以,对于跨多个数量级的统计数据,对于长期符合指数增长规律的数字,本福特定律就会严格生效。不难发现,本福特定律最适合的领域,是工商业的记账数字。
现在我们说起会计事务所,有个说法是“四大”企业:普华永道、德勤、毕马威和安永。20世纪的时候,全球还是五大会计事务所,另外一个是安达信,有将近一百年历史。但是安达信牵扯到一件财务造假丑闻,很快就解体了。

安达信当时的客户是安然公司,德克萨斯州能源企业,在全球500强排行榜一度排到第7。2001年,安然的投资人公开质疑,表示自己仔细研究了公司财报,看不明白安然到底怎么赚钱。随后多家投资机构跟进,指出安然涉嫌财务造假。2001年10月,安然终于承认,自己从1997年开始,虚构将近6亿美元利润,同时隐瞒了130亿美元债务。
从1985年开始,安达信就是安然的审计服务商。作为世界最顶级的会计事务所,安达信16年都没能发现客户财务造假,彻底摧毁了自己的公信力。伴随安然破产,安达信很快就解体了。
安然造假事件发生以后,一些大型研究机构拿到财报,用本福特定律做了复盘。发现,安然的每笔能源交易收入,首位数频繁出现3、4和5,严重背离了本福特定律。如果哪位观众炒股,发现自己当股东的企业,一方面宣称业务在增长,另一方面拿出来的大多数数据开头不是1或者2,就可以考虑抛售了。
安然和安达信的造假事件发生在2001年。之后的造假企业,也经常在类似方面暴露问题。2020年1月,做空机构浑水公司发表一份匿名报告,指责瑞幸咖啡虚构了交易额。审计机构安永结合做空报告,认为瑞幸确实存在财务造假问题,迫使瑞幸公司认错。2022年,中欧商学院教授程林复盘瑞幸造假事件。他发现,瑞幸2018年到2019年的财报,资产损益表严重偏离本福特定律。
从安然到瑞幸,这些大公司不缺自身的会计师,拿出来的数据依然经不起本福特定律考验,充分说明本福特定律的稳定性。只要有人想在多个指数增长领域上同时扭曲数据,就很难保证首位数保持合理比例。
国内的研究人员,也意识到,无论是打假还是内部审计,都可以应用本福特定律。2024年,航天工业管理公众号发表一篇文章《本福特定律在国有企事业单位主要领导人员经济责任审计中的应用》,请静静帮我读一段:
以某研究所201X 年的财务数据序时账为例进行分析,此单位全年序时账共约30000 笔,对全年序时账金额项首位数字出现的概率与本福特定律给定概率按月分析。1月、5 月、11 月的数据均有较大偏离。
其中,1 月首位数字是1的概率偏离40.4%,首位数字是5 的概率偏离37.4%;5 月首位数字是4 的概率偏离38.2%:11 月首位数字是4 的概率偏离48.4%;

进一步分析上述数据并查看相关证明材料,发现在该单位财务资料中,1 月存在多笔外协研制经费不合理调整的情况,而11 月存在多笔差旅费报销不合理的情况。
几个外行会计师,完全不用考虑企业经营什么业务,只统计首位数据,就发现了财务造假,而且确实对应了年初、半年和年底的数据造假高峰。这就是本福特定律的力量。
然后我们看看哪些中国常见数据可以用本福特定律来验证。这里我要再介绍一下本福特定律的具体应用条件。
首先,数据应该来自简单的基础指标统计。不能用对数坐标之类的手段处理过。
其次,这个领域应该有长期的指数增长趋势。
第三,数值跨度最好在3个数量级以上,否则体现不了指数增长和十进制计数法的互动。
第四,数据要完整,必须包含95%以上的基础数据。如果只有前50名、前100名的数据,很可能导致数据的上下限卡在某个区间。
第五,统一数据口径和单位。
第六,样本量不能太少,至少要30个数据点,最好在100个以上。
根据这些条件,我最先想到的验证样本,就是中国分省、尤其是分地级市的经济统计数据。我们找到了三组数据:
A组是2024年国内主要旅游地区的旅游人次和旅游收入。B组是国内361个主要城市的GDP数据C组是361个城市的财政收入数据。
然后,用IT审计网提供的免费本福特测试工具,分别验证。
首先看中国游乐网提供的A组数据,各地旅游收入:
按城市算旅游收入,测试结果是数据偏离度14%,高于50%测试数据,水平中等,勉强可以相信。
但是省一级旅游数据的偏离度,达到21%,高于73%的测试数据,说明省级数据比城市数据更值得怀疑。
这里我顺便提一句,原始数据显示,贵州省2024年旅游收入1.46万亿,同时,根据贵州国民统计公报,2024年第三产业的增加值是1.26万亿,比旅游收入还少。这只能有两种解释,或者是编造数据,或者是旅游收入的水分很大,主体是销售从义乌买来的小商品,本地只能赚一个差价。
根据这个方向进一步查下去,可以发现,贵州2023年的第三产业只有1.07万亿,2024年的1.26万亿,明明是增加了18%,但贵州自己只说增长了4.8%。前后两年的第三产业数据和旅游收入数据,不可能同时正确。这就是本福特定律挖掘漏洞的能力。
然后看B组的分城市GDP数据,测试结果和前面分城市的旅游数据一样:偏离度14%,高于50%的测试数据,水平中等。首位数字为2、3的数据偏多,相对可信。
最后看C组的分城市财政收入数据。数据来源是AI自动收集各地统计公报和人大报告,然后人工校对与核实。测试结果很不错:偏离度只有11%,优于上面的A、B组数据。
我对各城市的财政收入数据,本来也没有很大疑问。因为市政府宣布自己收到了这么多钱,就要应付同样力度的财政责任。在测试之前,我就预计,财政收入数据比GDP,比旅游收入数据更真实。本福特定律验证了我的常识,也验证了自身的可靠性。欢迎各位观众也用本福特定律去验证其他的中国数据。
除了本福特定律,还有什么简单的方法,可以让普通人在自己不熟悉的领域验证数据真假呢?
刚才提到,自然生成的数据,首位数字出现的概率并不均匀。但是末尾数字的出现概率,情况又反过来了,从0到9,每个数字都有10%概率出现。一般来说,如果人为编造数据,更倾向给末位取数0或者5。

这方面也有查实案例。2008年世界经济危机导致希腊破产,2009年,欧盟统计局审计希腊财政数据,发现当地财政赤字、税收、医保数据都有问题,末尾数字出现0的比例高达20%。欧盟统计局公开表示,希腊政府在有意误报数据,目的是为了瞒报政府财政赤字。欧盟因此对希腊政府施加了额外压力。
最典型的尾数造假,发生在人口方面。知乎上有一个问题,为什么每隔五年,印度就会出现一个生育高峰。答案就是统计员嫌麻烦。他们在印度农村遇到大量文盲,说不清出生具体年份,统计员懒得找周围的人群核实,就随便写了一个估算数据。这种数据往往容易出现5或0结尾的数据,比如说1970年,1965年。只要拿出AI工具,甚至拿出excel表格,统计一下某组数据的尾数,也能发现造假的痕迹。
今天的话题,是从人名造假话题开始的。如果要深入检查文本的原创性,可以用到另一个工具——齐普夫定律。

1949年,哈佛大学语言学家奇普夫发现,如果一个文本是人类自己写出来的,单词出现频率有固定规律。无论是小说、新闻报道还是个人日记,原创文字必然是少数功能词占据主导,出现频率最高。比如说“的”、“是”和“了”。
进一步研究发现,高频词跟低频词之间,还有相对固定的比例,出现频率和使用概率的排名成反比。使用率最高的单词,出现频率是第二位的两倍。使用率第二高的单词,出现频率又是第四位单词的四倍。
奇普夫定律的使用场景,可以用来检验AI写作,或者生硬的内容造假。如果有人基于同一份内容,修改成多个版本,伪造成公众舆论,也能识别出来。2009年伊朗总统选举,政府公布了当地投票站工作人员的笔记,用来证明选举正当性。密歇根大学汇总所有文本发现,少数词语出现频率太高,排序靠后的词汇多样性不够,倍数不符合奇普夫定律。
具体解释一下,每个人的写作习惯都不一样,两个人记录同一件事,可能不会使用同一套说法。比如说我的头发少,静静来表达,会比较客气,说“督工的头发不多”,黑岛来表达,可能就直接一些,说“督工你秃了”。“头发不多”和“秃”,都指同一件事,都属于正常文本里边的低频词,制造了文本多样性。如果高频词出现太多,低频词太少,说明伊朗几个公务员套用模板,制造了大量记录。
除了数据和文本造假,还有一种造假是图像造假。我们的第511期节目介绍过,2022年英国剑桥晶体学数据中心发现,中国同一家论文工厂批量制作了810篇论文,人为加工了1000多个晶体结构照片。剑桥学者证明造假,工具是“拉普拉斯分布”,认定中国这些假晶体图片的结构太工整,图片像素点分布太整齐,不够随机。
所谓拉普拉斯分布,是一个统计学概念,指误差的分布规律。假设我们是一个专业射击运动员,每天练习打靶。就算我是奥运会金牌得主,也不可能每次都打中靶心,一定会出现失误。但失误又不是随机的,绝大多数都会落在靶心附近,不会有太大偏离。偶尔一两次,我的子弹会严重偏离,直接脱靶。如果把所有误差数据做成图表,就会形成一个典型的波峰形状:大多数失误集中在一个范围,形成一个尖峰,偶尔出现的严重偏离,在图表两侧形成一个厚厚的尾巴。中学生应该理解,这是正态分布的修正表达方式。
人类伪造数据的时候,一般比较心虚,会下意识消除掉微小误差,也不太敢加入极端误差。所以校验数据的时候,如果波动分布太平滑,极端误差太少,就有很大概率是造假。审计原始数据,这是重要的判别依据。
比如说阿根廷政府。2000年前后,阿根廷为了减少债务,推动国家货币进行大规模贬值。两年时间,阿根廷比索贬值将近3倍,严重影响了阿根廷人日常生活,工会也开始大规模抗议。阿根廷政府跟工会协商后,表示工会可以按照政府发布的通胀数据,组织加薪谈判。

到了2007年,阿根廷政府发布数据,说物价上涨幅度只有5%,比国际预测数据低了4倍。有经济学常识的观众知道,就算没有通胀或者通缩,物价也有自然的波动。专家研究阿根廷数据发现,官方公布的商品价格变动平滑,像是一条直线缓慢上升。国际货币基金组织依照拉普拉斯分布认定造假,指责阿根廷政府篡改数据。
用拉普拉斯分布检验图片造假,也是一样的原理。自然生成的像素点,受相机传感器和光线影响,亮度值肯定有误差。如果用软件修改图片,像素点之间过渡不自然,造假行为就暴露了。
现在是AI时代,上面提到的数据打假知识,不用自己按计算机手算,网上就能找到大量的AI工具。我们整理成一张表格,这里分享给各位:

当然,我们普通人能用到的知识,造假人员也能用到。最起码,他们造假结束之后,可以用这些工具检验自己的数据,然后填补漏洞。这是一场双方公平的军备竞赛。现在百度人名大全就能打假,本福特定律就能发现全国性的数据偏差,说明相当一部分公共机构还没有进入军备竞赛,我们获得了一个暂时的监督窗口。一旦他们也使用造假工具,打假难度就大了。
对于未来的问题,我有两个建议。
第一个方案显而易见,就是要求全面公布公共机构的统计数据和工作信息,不能只公布局部数据,也不能今年公布,明年不公布。这样就自然产生了最有效的打假方式——数据相互校对。
因为各种数据是相互关联的,各省、各地的数据也是相互关联的。如果去年的数据乘以今年的增长率,不等于今年的数据;如果各市的数据加起来不等于省级的数据,而且有明显偏差;如果历史积累数据减去报废数字不等于存量,小学生也能知道有人公开造假了。这比上面提到的任何概率性定律,都适合用来打假。
第二个方案,是利用现在的区块链技术,保证每一层的数据都可以追溯到基层原始信息。
公共机构弄虚作假,行为的本质是“用正常流程之外的手段篡改数据”。区块链的链式存储+时间戳特性,让每个流程节点的触发条件,如时间、参与方、数据格式等都被固化,任何偏离规则的操作都会被全网节点拒绝。
如果每一次数据采集都被永久记录,信息包括是谁、何时、做了什么,且可逆向追溯。造假就只能出现在汇总层面。但汇总数据步骤也可以加区块链,调整数据必须给出合理的理由,并且有具体的负责人提供电子签名。这样造假的概率就会大大下降。
区块链化当然并不能完全消灭弄虚作假,但可以让违规操作的成本大大增加,把“责任追溯”从“事后调查”变成“事前威慑”。比如说这次全国性的抄袭人名大全,就可以用区块链来对付。
在区块链化的工作场景下,公示名单不能临时编造,而是从一个报名截止时就确定下来的人名库里“选择填空”。发布的公示名单将拥有唯一的标识ID,无论是参与者,还是旁观者,都可以自行检验名单是否来自报名人群,以及报名人群是否来自,国家总的人口数据库。这个过程不会泄露任何人的隐私。
但无论哪种方案,有一个基本前提,就是要保证人民群众的监督权和追责权,让人民群众随时可以说“天下的事情,就要天下人来管”。同时,国家应该有专门基金,奖励每一个成功的数据造假举报,鼓励群众用自己的计算机抓取数据,做数据校核。
这次“最强五人组”事件,最初的发现者,工作业绩超过100个纪检人员。我觉得他应该现在就拿到一笔终生衣食无忧的巨额奖励,才对得起他对国家做出的贡献。
另一方面,基层单位编造这么多人名,其中包括很多看起来很难涉及具体利益的数据,也说明现行的体制过于强调内部监督,强调自上而下的监督。所以基层才要制作大量的形式主义文件,去对付上级的合规检查。有的时候合规成本太高,他们不得不主动造假。
如果国家能充分开放人民监督,把日常工作数据向全社会开放,充分保证舆论的批评和监督权,基层单位的工作压力本来并不需要这么大。很多无谓的形式主义文件,从一开始就不该存在。
所以,趁着现在大多数公共机构还没有使用AI工具修饰数据,我对观众的建议是,拿出本福特定律,利用小学算术知识,先去核对本地的经济数据。这是减轻政府工作压力的最好办法。基层工作人员会感谢你的。
感谢各位收看,990期节目到此结束,我们周日再见!