春哥 发表于 2017-5-5 14:24:17

今日头条火车采集器最新采集规则技术教程

前期9SiR在《利用原创文章实现一劳永逸盈利的方法》一文中谈到,自媒体文章一旦过了推荐期就不能持续为作者带来收益了,为了解决这一问题,可以自建网站(博客)来同步更新文章,通过经营网站来实现持续的盈利。当你搭建起网站后,会发现前期在各大自媒体平台发布的几十篇甚至几百篇文章要同步到网站是一个浩大的工程。如9SiR在今日头条发布文章有二十多篇,如果靠纯手工搬运,至少需要半天的时间。下面9SiR把今日头条文章同步到WordPress网站的方法跟大家分享一下。使用工具:抓包工具Fiddler
火车头采集器
WordPress免登陆发布模块
Unicode编码转换工具通过Fiddler抓包获取头条个人主页真实地址。先在浏览器中打开自己在今日头条个人主页,然后打开Fiddler,点击菜单栏“文件”-勾选“捕获通信”(或按快捷键F12)开始抓包,回到浏览器刷新头条主页,刷新完成后回到Fiddler按下F12停止抓包。把真实地址复制到浏览器打开,密密麻麻的加密的代码,通过在线“Unicode编码转换”工具,将加密代码解密。找到第一篇文章的数据代码片段,其中包含第一篇文章的真实地址:  ”source_url”: “/item/6411865347309175297/”启动火车头采集器新建采集任务,点击起始网址右侧“添加”,填入主页真实地址,地址中“count=20”代表获取前20篇文章,如果文章较多的话,将数字改成相应文章数量即可,然后依次点击“添加”和“完成”。在“多级网址获取”文本框右侧点击添加,在弹出的对话框中,选择“手动填写链接规则”。  网址获取区域开始代码:”data”  网址获取区域结束代码:”is_self”  脚本规则:”source_url”: “[参数]”  实际链接:http://今天头条网址/[参数1]然后点击“保存”,至此网址采集规则填写完毕。填写内容页采集规则。在浏览器打开一篇文章,右键选择“查看源代码”。火车头采集器切换到“采集内容”选项卡,根据源代码填写标题、正文、等规则。
需要注意的是填写“内容”采集规则时,需要勾选“下载图片选项”并设置好图片保存的文件夹路径和文件名。填写发布规则,这步需要事先下载“WordPress免登陆发布模块”并放入火车头采集器目录Module文件夹中。火车头采集器切换到“发布内容设置”选项卡,勾选“启用方式一:web在线发布到网站”,点击“web发布配置”,在弹出对话框中选择“WordPress4.X免登陆”,编码模式设为“UTF-8”,网站根地址填写你博客的首页地址,然后保存并选择该发布配置。将免登陆发布模块相配套的文件“past.php”上传到网站根目录。回到火车头采集器,勾选采集网址、采集内容和发布三个复选框,点击工具栏“开始按钮”,稍等几分钟,所有文章均被采集并发布到自建WordPress网站上,所有图片均下载到设置的文件夹内。最后通过FTP工具把所有图片上传到对应目录,至此,今日头条发布的所有文章均被同步到自建网站上。文章所需工具以及按照本教程生成的采集规则均已打包上传百度网盘:http://pan.baidu.com/s/1geHLdGR。
页: [1]
查看完整版本: 今日头条火车采集器最新采集规则技术教程