"蓝天采集器(SkyCaiji)是一款成熟稳定的PHP+MySQL网页爬虫系统,经过5年迭代优化。支持云端部署,可视化操作,功能涵盖数据挖掘、分析、清洗、处理到发布。免费无限制使用,高度可定制。
主要特点: • 支持多级、多页、分页和RPA流程采集 • 自定义采集规则(正则、XPATH、JSON等) • 模拟浏览器操作,抓取动态渲染内容 • 无缝对接各类CMS,支持自定义发布插件 • 跨平台兼容,可部署于云服务器或虚拟主机 • 定时定量自动化采集发布
助力AIGC内容创作,解决大模型训练数据短缺问题。简单易用,适合各类网站数据采集需求。"
本文转自本人好友ikun -jack
采集对接插件下载
采集对接数据
接口地址: (接口开启插件后就在插件设置里显示的)
请求方式:POST
数据编码:utf-8
发送数据:Title=标题、Content=正文、Alias=别名(默认空)、PostTime=日期(默认当前时间)、Intro=摘要(默认空)、CateID=分类(默认空,填入分类名称或id)、Tag=标签(默认空,多个用,号分隔)、Template=模板(默认空)、Status=状态(默认0,可填入 0 公开、1 草稿、2 审核)、IsTop=置顶(默认0,可填入 0 无、1 全局、2 首页、4 分类)、IsLock=禁止评论(默认0,可填入 1 是、0 否)
蓝天采集后台对接
第一:发布设置
发布方式选择调用接口,接口就是采集对接数据中的接口地址,复制进去即可;
第二:发送数据
发送数据需要自行添加,如标题、内容、分类、标签等重要数据,发送数据中名称就是采集对接数据中发送数据,如标题则是Title,值就是自己写的采集规则,点击字段就能看到自己的规则有哪些!
第三:响应状态
这个响应状态没有什么要注意的,名称是啥就复制啥在输入框中即可。
暂无评论内容