分享一个自动采集新闻内容的php脚本

今天来分享一个文件自动采集获取新lang的文章内容,自动分行。获取后自动保存文本,方便调用和查看~

  1. header('Content-type:text/html; charset=utf-8');  
  2. // www.Testyuming.cn  Test玩站网  
  3. function sina()  
  4. {  
  5.     $html = file_get_contents('http://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=300&page=1');  
  6.     preg_match_all("/\"url\":\"(.*?)\",/"$html$urls);  
  7.     foreach ($urls['1'] as $url) {  
  8.         $wz_url = str_replace('https', 'http', $url);  
  9.         $wz_url = str_replace('\\', ''$wz_url);  
  10.         $html = file_get_contents($wz_url);  
  11.         preg_match("/<h1 class=\"main-title\">(.*?)<\/h1>/"$html$titles);  
  12.         preg_match("/<div class=\"article\" id=\"article\">.*?<p class=\"show_author\">/s"$html$contents);  
  13.         preg_match_all("/<p>(.*?)<\/p>/"$contents['0'], $juzis);  
  14.         foreach ($juzis['1'] as $juzi)  
  15.         {  
  16.             $wz_juzi = ltrim($juzi" ");  
  17.             $wz_juzi = preg_replace("/<.*?>/"''$wz_juzi);  
  18.             if (!strstr($juzi, '原标题')) {  
  19.                 if (mb_strlen($wz_juzi, 'UTF-8') > 60) {  
  20.                     file_put_contents(str_replace('\\','/',__DIR__).'/testyuming/'. date("Ymd") . '.txt', $juzi . PHP_EOL, FILE_APPEND);  
  21.                 }  
  22.             }  
  23.         }  
  24.   
  25.         echo $titles['1'] . " >>> 采集完成" . "<br>";  
  26.     }  
  27. }  
  28.   
  29.   
  30. sina();  

这个没啥好说的,访问就会在testyuming这个文件夹里面放入采集好的句子文本。只要访问这个php脚本就会自动采集。

以前还分享过一个采集实时热点的,大家也可以看。【分享一个自动采集获取新闻实时热点的php脚本

1.本站资源均为免登陆下载,直接扫码支付即可下载
2.目前仅支持支付宝扫码支付
3.客服QQ:3013197813
4.本站大部分下载资源收集于网络,只做学习和交流使用,版权归原作者所有!
5. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
Test玩站网 » 分享一个自动采集新闻内容的php脚本

常见问题FAQ

玩站小弟QQ没回怎么办?
防止QQ秀逗,大家可以通过:
加QQ群:联系小弟拉你~
发QQ邮箱给玩站小弟[email protected]
扫描右边的微信二维码

发表评论

Test玩站网专注全网精品资源!

QQ咨询 加入Q群