今日给大伙儿共享一篇技术性文章内容,教大伙儿怎样在php中获得到特定URL网页页面中的全部连接,即全部a标签的href特性:
//获得连接的HTML编码
$html=file_get_contents('http://www.example.com');
$dom=newDOMDocument();
@$dom->loadHTML($html);
$xpath=newDOMXPath($dom);
$hrefs=$xpath->evaluate('/html/body//a');
for($i=0;$i<$hrefs->length;$i++){
$href=$hrefs->item($i);
$url=$href->getAttribute('href');
echo$url.'
';
}
这一段编码会获得到全部a标签的href特性,可是href特性值不一定是连接,我们可以在做下过虑,只保存http开始的连接详细地址:
//获得连接的HTML编码
$html=file_get_contents('http://www.example.com');
$dom=newDOMDocument();
@$dom->loadHTML($html);
$xpath=newDOMXPath($dom);
$hrefs=$xpath->evaluate('/html/body//a');
for($i=0;$i<$hrefs->length;$i++){
$href=$hrefs->item($i);
$url=$href->getAttribute('href');
//保存以http开始的连接
if(substr($url,0,4)=='http')
echo$url.'
';
}