通过中文字符比率来判断垃圾评论

最近一段时间常常出现这类垃圾评论:一大段英文字符里夹杂一两个生僻汉字,包含了中文字符,而且又没包含啥中文的敏感词,所以就堂而皇之的通过了评论过滤。对这类评论的处理可以采取判断中文字符的比率来确认,但是也会存在一定的误判。

要用到php的两个函数strlen和mb_strlen,strlen会把单个汉字长度认定为3,mb_strlen单个汉字长度为1。同一段字符通过两个函数取得的长度之差就是实际汉字字符数的二倍,除以二就得到实际的字符数,在与mb_strlen取得的长度求比值就得到汉字占总字符数的比率。


 $len_all = strlen($comment['text']);                      
 $len_st = mb_strlen($comment['text'], 'UTF-8');
 if(($len_all-$len_st)/(2*$len_st) < 0.5){
        $error = "中文字符少于百分之五十";	
 }

如果在评论中贴代码的话,就会造成中文字符比率低,需要过滤掉代码字段再来判断。

关于如何防止垃圾评论

正式转为typecho后收到了4条垃圾评论,访问的人少:-),虽然来的人少,还是要防垃圾评论,不然后果很严重。

最开始是开启了评论审核,发出的评论都要手工审查一次,有点麻烦,后来做了个验证码插件,经他人实验无效,因为验证码的校验过程没有嵌入到评论的发布过程中,所以防不住,后来设置评论框的防粘贴属性,可以防人工粘贴,但是对自动评论机无效,开启Akismet插件后,垃圾评论就防住了,Akismet还是很好很强大的。

根据typecho的Akismet插件,我做了个防垃圾评论的插件,效果还过得去。

发布在论坛里:http://forum.typecho.org/viewtopic.php?f=6&t=444