SC的残迹

北朝旧贴 | 六必治 | 8/15/2020 | 共 940 字 | 编辑本页

六必治 于 2016-9-5 13:22:58 发表了:

以前一直在研究爬 SC,但这个真与爬百度差距好大。后来在 scrapy 上挂了一个爬虫爬了大约一个月,赶在 SC 挂掉之前爬了大部分。全部大约 900M 左右。

爬的只是 SC 的架空与穿越部分,大部分爬完了,但是有一些可能是没有爬下,还可能是有错误,更主要的是图全部没有了,只有文字部分

爬下的是 JSON 的形式,我整理成 sqlite 形式,这样更方便查找。数据库压缩为 rar 形式,大约为 160M,

链接为: http://pan.baidu.com/s/1nvgyThJ 码为:x989


xuelindiao 于 2016-9-5 13:26:48 发表了:

本帖最后由 xuelindiao 于 2016-9-5 13:28 编辑

关闭以后的山寨  | 

2016 年 6 月初,www.sbanzu.com例行宕机、停服,竟成永远。寻找遗迹,有几处山寨追寻:

1    miltalk.cn(又称王胖论坛)

2     www.sonicbbs.com.cn(自动炮论坛)

3     www.sbanzuer.com(不明论坛)。

推荐 王胖论坛 ,前者界面经过优化和板块合并,可以查到 SC 论坛 07——2015 年初的资料,搜索功能大好,数据保存较为完整,在 2016 年 7 月底前需要翻墙,后改换了现在的域名。

注意,许多同人的原帖地址只要换一下域名,还是能访问的。


jjscss 于 2016-9-5 20:13:24 发表了:

这个文件怎么打开啊


六必治 于 2016-9-6 09:06:16 发表了:

结果是 sqlite 的数据库。我说下查看方法。先下个软件 sqlite studio,这个不用安装直接就可以用。

打开程序后,点数据库,点 add a database ,然后选你下载的数据库(要解压)就可以查看了。

左侧是数据库结构,数据库有两个表,一个是 tieba,包括所有贴吧里的贴子,一个是 content,包括每个贴子里所有贴子发起人发的回复。如果对此不感兴趣,可以直接点 view,这里有我做好的查询,比如临高启明里的“同人结果”里的 query 是我写的查询条件

“select tieba.link as 帖子链接, title as 标题, threads as 总回贴数, author as 作者, 单贴汇总.楼主有效发贴数 , 单贴汇总.详细内容 from tieba inner join 单贴汇总 on tieba.link= 单贴汇总.link where ((title like '%同人%')or (title like '%铜人%') or (title like '%铜仁%') or (title like '%抗髡%')) and threads >=1 order by title”

你可以修改里的内容,比如两个%中间的同人改成你要查询的结果。修改后点上方的对勾图标,再点击后面的“data”标签,就可以查看结果了。查询结果两种查看方式,一种是表格式的,可以看所有内容,一种是单个记录的表单式,可以详细查看每个记录的具体内容。