Nana-Sakura 发表于 2023-1-23 01:32:15

你坛用户数据统计

本帖最后由 wxkj123 于 2023-1-23 13:02 编辑


这是一次毫无意义且浪费论坛流量的全坛用户信息爬取。
从前天晚上起算的话,我获取数据用了整整一天,至于为什么这么慢,可以看看我找的借口。
该过程爬取了1~851131内847473个有效用户。
有效用户的定义是用户空间能够被正常访问到的用户。
使用了Python编写爬虫,选择MySQL做数据库,采用Excel展示成品。
脚本仓库:https://github.com/wxkj123/CreditGet

用户组人数统计:

晋级用户组:
Lv-? -> 1085
Lv.1 -> 818373
Lv.2 -> 9945
Lv.3 -> 355
Lv.4 -> 20
Lv.5 -> 4
目前还没有Lv.6产生。

禁止用户组:
禁止发言 -> 372
禁止访问 -> 186

其它:
等待验证 -> 16997
SVIP -> 51
VIP -> 60

管理组:
版主 -> 19
超级版主 -> 2
管理员 -> 4

该表格包含的数据:总积分,铁粒数,勋章数,有贡献的,发帖数,好友数,在线时长的部分排名数据。
顺手加了个分积总,至于是什么意思,打开文档看看就知道了。


一些统计:
零积分:334322
零主题:831161
零回复:356770
零在线时长:437914
零好友:843479

借口:
一开始还好,后来开始出现断连问题。因为我的程序是我一次性写完的,没有调试直接运行了,然后浪费了第一晚。
不过当时用的数据库是SQLite,这个数据库后期性能超差。
然后我悄悄感谢一下我的好朋友,她不在你坛,但是她帮我把这个程序修整了一下,用了MySQL的这个爬虫性能非常好。
以及我以为你坛服务器有最大并发限制问题,我当时下手非常温柔,一秒8次,预估一天完成。后来快结束的时候才发现一秒16次也可以,但是我也不太想这样做。

社恐的零 发表于 2023-1-23 01:34:56

三级都这么多了[哔哩_囧]

缔造者 发表于 2023-1-23 02:03:19

本帖最后由 缔造者 于 2023-1-23 02:09 编辑

看了一下关于“0”的数据,发现论坛有接近45%的用户是“死”的

我的水世界 发表于 2023-1-23 08:10:11

不过感觉是个好活[贴吧_滑稽][贴吧_玫瑰]

6281x块Judoge 发表于 2023-1-23 08:19:05

LV1用户组八十多万是其他用户组总数的几倍
(没有用户组歧视的意思只是感觉很6[贴吧_滑稽][贴吧_心碎]

portedboar44215 发表于 2023-1-23 08:27:26

块神君Judoge 发表于 2023-1-23 08:19
LV1用户组八十多万是其他用户组总数的几倍
(没有用户组歧视的意思只是感觉很6 ...

毕竟大多数都是来白嫖资源的

已注销_N77z6A 发表于 2023-1-23 09:25:14

好活,赞了

淮南节度使 发表于 2023-1-23 10:05:27

“零”这么多[贴吧_咦]

穆雪奈馋 发表于 2023-1-23 12:15:55

本帖最后由 春娇濑琉璃 于 2023-1-23 12:20 编辑

好活
不知道能不能做出这样类似于积分分析[抖音_504]

Nana-Sakura 发表于 2023-1-23 12:18:34

春娇濑琉璃 发表于 2023-1-23 12:15
好活
不知道能不能做出这样很类似于自动积分分析

这个在你坛没有意义。
因为你坛是按经验决定积分的。
如果是隔壁,倒是还有点意义。
页: [1]2
查看完整版本: 你坛用户数据统计