分享一个自动采集新闻内容的php脚本
今天来分享一个文件自动采集获取新lang的文章内容,自动分行。获取后自动保存文本,方便调用和查看~
- header('Content-type:text/html; charset=utf-8');
- // www.Testyuming.cn Test玩站网
- function sina()
- {
- $html = file_get_contents('http://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=300&page=1');
- preg_match_all("/\"url\":\"(.*?)\",/", $html, $urls);
- foreach ($urls['1'] as $url) {
- $wz_url = str_replace('https', 'http', $url);
- $wz_url = str_replace('\\', '', $wz_url);
- $html = file_get_contents($wz_url);
- preg_match("/<h1 class=\"main-title\">(.*?)<\/h1>/", $html, $titles);
- preg_match("/<div class=\"article\" id=\"article\">.*?<p class=\"show_author\">/s", $html, $contents);
- preg_match_all("/<p>(.*?)<\/p>/", $contents['0'], $juzis);
- foreach ($juzis['1'] as $juzi)
- {
- $wz_juzi = ltrim($juzi, " ");
- $wz_juzi = preg_replace("/<.*?>/", '', $wz_juzi);
- if (!strstr($juzi, '原标题')) {
- if (mb_strlen($wz_juzi, 'UTF-8') > 60) {
- file_put_contents(str_replace('\\','/',__DIR__).'/testyuming/'. date("Ymd") . '.txt', $juzi . PHP_EOL, FILE_APPEND);
- }
- }
- }
- echo $titles['1'] . " >>> 采集完成" . "<br>";
- }
- }
- sina();
这个没啥好说的,访问就会在testyuming这个文件夹里面放入采集好的句子文本。只要访问这个php脚本就会自动采集。
以前还分享过一个采集实时热点的,大家也可以看。【分享一个自动采集获取新闻实时热点的php脚本】
1.本站资源均为免登陆下载,直接扫码支付即可下载
2.站点支持支付宝扫码支付,更多支付方式联系客服QQ!
3.客服QQ:3013197813,822674928
4.本站大部分下载资源收集于网络,只做学习和交流使用,版权归原作者所有!
5. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
Test玩站网 » 分享一个自动采集新闻内容的php脚本
2.站点支持支付宝扫码支付,更多支付方式联系客服QQ!
3.客服QQ:3013197813,822674928
4.本站大部分下载资源收集于网络,只做学习和交流使用,版权归原作者所有!
5. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
Test玩站网 » 分享一个自动采集新闻内容的php脚本
常见问题FAQ
- 玩站小弟QQ没回怎么办?