澳门新葡萄京官网首页在php中使用sockets:从新闻组中获取文章

PHP能打开远程或本地主机上的Socket端口。本文是一个使用Socket的小例子:连接到一个Usenet新闻组服务器,同服务器对话,从新闻组中下载一些文章。

作者:Armel Fauveau 
原文地址:
PHP能够打开远程或者本地服务器的sockets!这里是一个使用socket的简单的例子:连接到Usenet的新闻服务器,与服务器沟通,并从一个精确的新闻分组中下载一些文章。

在php中打开一个socket
使用fsockopen()打开一个socket.这个函数在php3和php4种都可以使用。函数声明是这样的:

使用PHP打开Socket
使用fsockopen()来打开一个Socket。这个函数在PHP3和PHP4中都存在。函数的原型如下:
<?php

int fsockopen (string hostname, int port _ [, int errno [, string
errstr [, double timeout]]])

intfsockopen 
    (string hostname, 
        int port [, 
        int errno [, 
        string errstr [, 
        double timeout]]])
?>
对于网络主机,它将建立一个TCP的Socket的连接到主机名的端口上。主机名可以是域名或者IP地址。对于UDP连接,你需要明确指出其协议:udp://hostname。对于unix主机,主机名将在socket的路径中使用,在这个例子中端口必须设置成0。可选项timeout可以用来设置连接超时的秒数。
关于fsockopen()的更多信息可以访问

这个函数将打开一个连接到主机hostname的port端口的TCP连接。hostname可以是一个有效的域名,或者是一个ip地址。对于udp连接,你必须指定协议:udp://hostname.
对于unix域,主机名使用到socket的路径,这种情况下,端口port必须置为0。可选的timeout参数用来设定等待打开一个socket的时间,单位为秒。

网络新闻传输协议(NNTP)
访问一个usenet新闻服务器需要用到一个特别的协议,称作NNTP,即网络新闻传输协议标准。这个协议的详细资料在RFC977中,你可以在

关于fsockopen()的更多信息,请参考:

连接服务器
连接到NNTP服务器需要知道服务器的主机名(或者IP地址)和它将要监听的端口。另外建议你加上一个超时的时间,这样连接失败的时候就不会“冻结”程序。
<?php
$cfgServer    = “your.news.host”;
$cfgPort    = 119;
$cfgTimeOut    = 10;
// open asocket
if(!$cfgTimeOut)
    // without timeout
    $usenet_handle = fsockopen($cfgServer, $cfgPort);
else
    // with timeout
    $usenet_handle = fsockopen($cfgServer, $cfgPort, &$errno, &$errstr, $cfgTimeOut);
if(!$usenet_handle) {
    echo”Connexionfailedn”;
    exit();
}    
else {
    echo”Connectedn”;
    $tmp = fgets($usenet_handle, 1024);
}
?>

网络新闻传输协议
访问新闻组服务器需要通过称为NNTP的协议来进行。这个协议在rfc977中有详细的细节,可以在得到。这个文档分别描述了怎样连接到NNTP服务器,怎样同服务器对话,以及完成这些任务的不同命令。

与服务器交互
现在我们已经连接上服务器了,而且能够通过先前打开的socket连接与服务器进行交互。让我们对服务器说“我们要从某一新闻分组中获取到最新的10篇文章”。RFC977定义了如何选择正确的新闻分组的命令,如下:
GROUPggg
必需的参数ggg是你将要选择的新闻分组的名字,比如net.news。使用list命令你可以获取到一组有效的新闻列表。成功选择响应会返回组中首尾两篇新闻的新闻号以及对存档新闻号估计。
比如

连接
连接到一个NNTP服务器需要知道它的主机名和它侦听的端口。为了避免一个连接企图失败导致程序挂起,你应该使用timeout参数。
?php $cfgServer = “your.news.host”; $cfgPort = 119; $cfgTimeOut = 10;

chrome:~$ telnetmy.news.host 119
Trying aa.bb.cc.dd…
Connected tomy.news.host.
Escape character is’^]’.
200 my.news.hostInterNetNews NNRP server INN 2.2.2 13-Dec-1999 ready (posting ok).
GROUP alt.test
211 232 222996 223235alt.test
quit
205 .
在接受到命令“GROUP alt.test”,新闻服务器返回了“211232 222996 223235 alt.test”。其中211是RFC标识码(简单的解释说命令已经成功的执行—查看RFC你可以获取更加详细的资料),返回信息说明其中有232篇文章,其中最旧的新闻的索引号是222996,而最新的新闻索引号是223235。现在让我们计算下:222996+232并不等于232235。这丢失的文章或者从这服务器移除出去了,或者被他的作者取消了(是的,这是可能的,也是很容易实现的),或者是删除了。
小心起见,在选择新闻分组之前,服务器可能需要认证,当然这是由服务器是否公开或者私有来决定的。一般是允许任何人获取新闻,但发表新闻需要通过认证。
<?php
//$cfgUser    = “xxxxxx”;
//$cfgPasswd    = “yyyyyy”;
$cfgNewsGroup    = “alt.php”;
// identification required on private server
if($cfgUser) {
    fputs($usenet_handle, “AUTHINFO USER”.$cfgUser.”n”);
    $tmp = fgets($usenet_handle, 1024);
    fputs($usenet_handle, “AUTHINFO PASS “.$cfgPasswd.”n”);
    $tmp = fgets($usenet_handle, 1024);
    // check error
    if($tmp != “281Okrn”) {
        echo “502Authentication errorn”;
        exit();
    }    
}
// select newsgroup
fputs($usenet_handle, “GROUP “.$cfgNewsGroup.”n”);
$tmp = fgets($usenet_handle, 1024);
if($tmp == “480 Authentication required for commandrn”) {
    echo “$tmpn”;
    exit();
}    
$info = split(” “, $tmp);
$first = $info[2];
$last = $info[3];

//open a socket if(!$cfgTimeOut) // without timeout $usenet_handle =
fsockopen($cfgServer, $cfgPort); else // with timeout $usenet_handle =
fsockopen($cfgServer, $cfgPort, $errno, $errstr, $cfgTimeOut);

print “First : $firstn”;
print “Last : $lastn”;
?>

if(!$usenet_handle) { echo “Connection failed.”; exit(); } else { echo
“Connected.”; $tmp = fgets($usenet_handle, 1024); }

获取一些文章
现在我们已经有最新文章的A索引号,那就能很容易的获取最新的十篇文章。RFC977指出使用ARTICLE命令可以和文章的索引号或者消息的ID一起使用。为了小心起见,在这里,文章的索引号和消息ID是不同的,因为每个新闻服务器定义不同,所以在不同的新闻服务器上相同文章的索引号都会不一样的,但是消息ID好是唯一的(包含在文章的头部中)
<?php
$cfgLimit    = 10;
// upload last articles
$boucle=$last-$cfgLimit;
while ($boucle <= $last) {
    set_time_limit(0);
    fputs($usenet_handle, “ARTICLE$bouclen”);    
    $article=””;
    $tmp = fgets($usenet_handle, 4096);
    if(substr($tmp,0,3) != “220”) {
        echo “+———————-+n”;
        echo “Error onarticle $bouclen”;
        echo “+———————-+n”;
    }
    else {
        while($tmp!=”.rn”) {
            $tmp = fgets($usenet_handle, 4096);
            $article = $article.$tmp;
        }        
        echo “+———————-+n”;
        echo “Article$bouclen”;
        echo “+———————-+n”;
        echo “$articlen”;
    }    
    $boucle++;
}
?>
我们仅仅从这个服务器的这个分组上获取了十条最新的新闻。你也可以使用HEAD命令来至获取文章的头部信息,或者使用BODY命令来获取新闻的正文。

? 与服务器对话
现在我们已经连接到了服务器,可以通过前面打开的socket同服务器对话了。比如说我们要从某个新闻组得到最近的10篇文章。RFC977指出,第一步要用GROUP命令选择正确的新闻组:
GROUP ggg
参数ggg是要选择的新闻组的名字,这是必需的。可用的新闻组的列表可以用LIST命令得到。选择新闻组的命令成功后,返回组中第一篇和最后一篇文章的文章编号,以及组中文章的数目。

关闭连接
使用fclose()函数你就可以结束与NNTP服务器之间的会话,当然你可以些一个新的文件,如下:
<?php
// close connexion
fclose($usenet_handle);
?>
更多关于fclose()的信息,请看:

下面是一个例子: chrome:~$ telnet my.news.host 119 Trying aa.bb.cc.dd…
Connected to my.news.host. Escape character is ^]. 200 my.news.host
InterNetNews NNRP server INN 2.2.2 13-Dec-1999 ready (posting ok). GROUP
alt.test 211 232 222996 223235 alt.test quit 205 .

结论
本文中,我们只说明了在确定的情况下如何打开、使用和关闭一个socket连接:连接上一个NNTP服务器然后从新闻分组中取回一些文章。使用POST命令在NNTP服务器上发表一篇文章并不复杂多少。
因此,下一步就是编写一个新闻客户端(并去掉一些Netscape),它需要能很容易的保存文章,并使用一些搜索引擎(比如htgid, 

接收到命令 GROUP alt.test 后,服务器返回”211 232 222996 223235
alt.test”.
211是RFC中定义的返回码,指示命令已成功执行。返回信息还指出,现在有232篇文章,最早的文章的编号是222996,最新的文章的编号是223235。我们看到,222996+232并不等于223235。丢失的7篇文章因为某种原因被从服务器删除了,可能是因为被它的合法作者取消了,或者因为是灌水文章而被删。

需要注意的事,有些服务器在选择新闻组之前可能要求身份认证,这取决于这是一个公共的或者是私用的服务器。也有可能服务器允许任何人读取文章,但发表文章需要身份验证。

?php //$cfgUser = “xxxxxx”; //$cfgPasswd = “yyyyyy”; $cfgNewsGroup =
“alt.php”;

//identification required on private server if($cfgUser) {
fputs($usenet_handle, “AUTHINFO USER “.$cfgUser.”n”); $tmp =
fgets($usenet_handle, 1024); fputs($usenet_handle, “AUTHINFO PASS
“.$cfgPasswd.”n”); $tmp = fgets($usenet_handle, 1024);

//check error if($tmp != “281 Okrn”) { echo “502 Authentication errorn”;
exit(); } } //select newsgroup fput($usenet_handle, “GROUP
“.$cfgNewsGroup.”n”); $tmp = fgets($usenet_handle, 1024); if($tmp ==
“480 Authentication required for commandrn”) { echo $tmp; exit(); }
$info = split(” “, $tmp); $first= $info[2]; $last = $info[3];
printf(“First : %sn”, $first); printf(“Last : %lastn”, $last);

发表评论

电子邮件地址不会被公开。 必填项已用*标注