PHP比较两个文件是否相同和比较字符串或文章的相似度
比较两个文件是否相同,可以用判断md5的方式,如果两个文件完全相同,他们的md5值是一样的,方法如下:
function md5_files($filename,$filename1){$file1 = md5_file($fi
1.fread
string fread ( int $handle , int $length )
fread() 从 handle 指向的文件中读取最多 length 个字节。该函数在读取完最多 length 个字节数,或到达 EOF 的时刻,或(对于网络流)当一个包可用时,或(在打开用户空间流之后)已读取了 8192 个字节时就会住手读取文件,视乎先碰着哪种情形。
fread() 返回所读取的字符串,若是失足返回 FALSE。
<?php
$filename = "/usr/local/something.txt";
$handle = fopen($filename, "r");//读取二进制文件时,需要将第二个参数设置成'rb'
//通过filesize获得文件巨细,将整个文件一下子读到一个字符串中
$contents = fread($handle, filesize ($filename));
fclose($handle);
?> |
若是所要读取的文件不是内陆通俗文件,而是远程文件或者流文件,就不能用这种方式,由于,filesize不能获得这些文件的巨细。此时,你需要通过feof()或者fread()的返回值判断是否已经读取到了文件的末尾。
例如:
<?php
$handle = fopen('http://www.baidu.com', 'r');
$content = '';
while(!feof($handle)){
$content .= fread($handle, 8080);
}
echo $content;
fclose($handle);
?> |
或者:
<?php
$handle = fopen('http://www.baidu.com', 'r');
$content = '';
while(false != ($a = fread($handle, 8080))){//返回false示意已经读取到文件末尾
$content .= $a;
}
echo $content;
fclose($handle);
?> |
2.fgets
string fgets ( int $handle [, int $length ] )
fgets()从 handle 指向的文件中读取一行并返回长度最多为 length - 1 字节的字符串。碰着换行符(包罗在返回值中)、EOF 或者已经读取了 length - 1 字节后住手(看先碰着那一种情形)。若是没有指定 length,则默以为 1K,或者说 1024 字节。
<?php
$handle = fopen('./file.txt', 'r');
while(!feof($handle)){
echo fgets($handle, 1024);
}
fclose($handle);
?> |
Note: length 参数从 PHP 4.2.0 起成为可选项,若是忽略,则行的长度被假定为 1024。从 PHP 4.3 最先,PHP 使用CURL下载远程HTML文件
据说在下载远程HTML文件时使用Curl会比file_get_contents高效一点。
$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);//设置URL,可以放入curl_init参数
忽略掉 length 将继续从流中读取数据直到行竣事。若是文件中的大多数行都大于 8KB,则在剧本中指定最大行的长度在行使资源上更为有用。从 PHP 4.3 最先本函数可以平安用于二进制文件。早期的版本则不行。
3.fgetss
string fgetss ( resource $handle [, int $length [, string $allowable_tags ]] )
跟fgets功效一样,然则fgetss会实验从读取的文本中去掉任何 HTML 和 PHP 符号,可以用可选的第三个参数指定哪些符号不被去掉。
<?php
$handle = fopen('./file.txt', 'r');
while(!feof($handle)){
echo fgetss($handle, 1024, '<br>');
}
fclose($handle);
?> |
4.file
array file ( string $filename [, int $use_include_path [, resource $context ]] )
将文件内容读入一个数组中,数组的每一项对应文件中的一行,包罗换行符在内。不需要行竣事符时可以使用 rtrim() 函数过滤换行符。
<?php
$a = file('./file.txt');
foreach($a as $line => $content){
echo 'line '.($line + 1).':'.$content;
}
?> |
5.readfile
int readfile ( string $filename [, bool $use_include_path [, resource $context ]] )
读入一个文件并写入到输出缓冲。返回从文件中读入的字节数。若是失足返回 FALSE 而且除非是以 @readfile() 形式挪用,否则会显示错误信息。
<?php
$size = readfile('./file.txt');
echo $size;
?> |
6.file_get_contents
string file_get_contents ( string $filename [, bool $use_include_path [, resource $context [, int $offset [, int $maxlen ]]]] )
将文件读入一个字符串。第三个参数$context可以用来设置一些参数,好比接见远程文件时,设置超时等等。
另外,file_get_contents相对于以上几个函数,性能要好得多,以是应该优先思量使用file_get_contents。然则readfile貌似比file_get_contents性能好一点(?),由于它不需要挪用fopen。
<?php
$ctx = stream_context_create(array(
'http' => array(
'timeout' => 1 //设置超时
)
)
);
echo file_get_contents("http://www.baidu.com/", 0, $ctx);
?> |
7.fpassthru
int fpassthru ( resource $handle )
将给定的文件指针从当前的位置读取到 EOF 并把效果写到输出缓冲区。
<?php
header("Content-Type:text/html;charset=utf-8");
$handle = fopen('./test2.php', 'r');
fseek($handle, 1024);//将指针定位到1024字节处
fpassthru($handle);
?> |
几个注重事项:
1. 激励在处置二进制文件时使用 b 标志,纵然系统并不需要,这样可以使剧本的移植性更好。
2. allow_url_fopen选项激活了 URL 形式的 fopen 封装协议使得可以接见 URL 工具例如文件。默认的封装协议提供用 ftp 和 http 协议来接见远程文件,一些扩展库例如 zlib 可能会注册更多的封装协议。出于平安性思量,此选项只能在 php.ini 中设置。
3. 若是要打开有特殊字符的 URL (好比说有空格),就需要使用 urlencode() 举行 URL 编码。
PHP读取TXT中文乱码的解决方式
因为业务上的需求,需要使用PHP读取一个TXT文件,但是在设计到中文的问题上,就遇到了恶心的乱码问题; 首先查看一下TXT的编码格式有四种:ANSI、Unicode、Unicode Big Endian、UTF