源码介绍
使用前端纯HTML、JS和JSON技术(链接统计除外),后端采用Python生成标准JSON。该程序内置30余个常见网站的采集规则,并且支持多线程抓取,所以可以在5秒内完成对30+个网站的采集工作。程序将相同网站的内容放在一个框架内并支持局部刷新和滚动,同时它还会根据采集页的自带更新时间或按时间排序的第一条时间采集来显示更新时间,如果没有相关信息,则显示采集完成时间。对于内容链接,程序使用base64加密、字符逆序、大小写反转和再次base64加密来防止盗链,同时还提供内容链接点击统计功能。此外,一些内容还会显示鼠标悬停提示,例如appstore排行中的更新内容、时间和版本号等信息。
安装使用
1.python3 caiji.py采集(保持后台运行请用screen或nohup)
2.打开首页访问
注意事项
- 后端采集程序为‘caiji.py’,前端文件需放在同一目录下。
- 如果需要修改相应设置,请查看源代码中的注释进行操作。
- ‘admin.php’是第三方数据库管理程序,用于内容链接的统计和查看。默认登录密码为‘admin’,请在文件中进行修改。点击统计时会在首次访问内容链接时生成‘log.db’数据库,如果还未创建,请保证主目录可写。
- 为了确保安全性,建议将后端程序‘caiji.py’和数据库查看程序‘admin.php’改为复杂的文件名,或者移动到非web目录。同时,也需要修改文件内的生成json保存目录为网站根目录(默认为当前目录)。
- 默认使用多线程抓取,但如果出现问题,可以改为单线程。
- 采集‘今日头条’网站时需要更换自己的cookie。由于头条的采集频率较高,如果内容相同的数据过多,则推荐的都是无关的垃圾内容。为了避免这种情况,可以采用相同cookie分段采集的方式。
- 采集站的logo大部分已经修改为透明的png图片,如果在非白色背景下可能会有视觉上的困难。
截图展示
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END