图像处理技术之图片相似度比较技术
Today,工作中发现需要去除图片上的水印,由于涉及文章太多,手动重新编辑很慢且容易出错。于是想到了使用脚本比较全部图片的相似度,然后替换文件的方式来达到去除水印效果。在完成这项工作前,我们需要找到所有的原图放在同一个文件夹中。通过遍历原图和目标文章目录的图片进行比较,若发现相似则覆盖。在网上找了一个PHP写的类,略加修改,代码如下:
<?php /** * Image similarity compare * @author May * */ class ImageCompare { private static $instance; /** * error rate */ private static $rate = 1; public static function getInstance() { if (!self::$instance) { self::$instance = new self(); } return self::$instance; } /** * Set error rate * @param int $rate */ public function setErrorRate($rate){ self::$rate = $rate; } /** * * @param string $file * @throws Exception * @return multitype:Ambiguous <boolean, string, array> */ private static function doCompare($file) { if(!function_exists('imagecreatetruecolor')) { throw new Exception('GD Library must be loaded'); } $is_string = false; if(is_string($file)) { $file = array($file); $is_string = true; } $result = array(); foreach ($file as $f) { $result[] = self::hash($f); } return $is_string ? $result[0] : $result; } /** * Cal Hamming distance is similar * @param string $img1 * @param string $img2 * @return boolean */ public function checkIsSimilar($img1,$img2) { if (file_exists($img1) && file_exists($img2)) { $img1 = self::doCompare($img1); $img2 = self::doCompare($img2); } if(strlen($img1) !== strlen($img2)) { return false; } $count = 0; $len = strlen($img1); for ($i=0;$i<$len;$i++) { if($img1{$i} !== $img2{$i}) { $count ++; } } return $count <= (5*(self::$rate)*(self::$rate))?true:false; } /** * Get hash value * @param string $file * @return boolean|string */ private static function hash($file) { if (!file_exists($file)) { return false; } $height = 8*self::$rate; $width = 8*self::$rate; $img = imagecreatetruecolor($width, $height); list($w,$h) = getimagesize($file); $source = self::createImg($file); imagecopyresampled($img, $source, 0, 0, 0, 0, $width, $height, $w, $h); $value = self::getHashValue($img); imagedestroy($img); return $value; } /** * Cal hash value * @param resource $img * @return string */ private static function getHashValue($img) { $width = imagesx($img); $height = imagesy($img); $total = 0; $array = array(); for ($y =0;$y<$height;$y++) { for ($x=0;$x<$width;$x++) { $gray = (imagecolorat($img, $x, $y) >> 8) & 0xFF; if (isset($array[$y]) && !is_array($array[$y])) { $array[$y] = array(); } $array[$y][$x] = $gray; $total += $gray; } } $average = intval($total/(64*self::$rate*self::$rate)); $result = ''; for ($y=0;$y<$height;$y++) { for ($x=0;$x<$width;$x++) { if ($array[$y][$x] >= $average) { $result .= '1'; } else { $result .= '0'; } } } return $result; } /** * Generate picture * @param string $file * @return Ambiguous <NULL, resource> */ private static function createImg($file) { $ext = self::getFileExt($file); if ($ext === 'jpeg') $ext = 'jpg'; $img = null; switch ($ext){ case 'png' : $img = imagecreatefrompng($file);break; case 'jpg' : $img = imagecreatefromjpeg($file);break; case 'gif' : $img = imagecreatefromgif($file);break; default:break; } return $img; } /** * Get picture extension * @param string $file * @throws Exception * @return string */ private static function getFileExt($file){ $infos = explode('.', $file); $ext = strtolower($infos[count($infos) - 1]); if (!in_array($ext,array('jpg','jpeg','png','gif'))) { throw new Exception( "file suffix must be 'jpg','jpeg','png','gif' "); exit; } return $ext; } }
图片相似度的计算原理是通过比较两个图片的汉明距离来确定的。首先,将图片缩放至同样大小,然后通过计算图片像素的灰度值并进行比较,如果两个图片的灰度值大部分(一般为设置为某个比例,如 95%)都相似,基本可以确定两种图片是相同的。
相关文章
暂无