LMLPHP后院

图像处理技术之图片相似度比较技术

maybe yes 发表于 2014-10-27 23:51
Today,工作中发现需要去除图片上的水印,由于涉及文章太多,手动重新编辑很慢且容易出错。于是想到了使用脚本比较全部图片的相似度,然后替换文件的方式来达到去除水印效果。在完成这项工作前,我们需要找到所有的原图放在同一个文件夹中。通过遍历原图和目标文章目录的图片进行比较,若发现相似则覆盖。在网上找了一个PHP写的类,略加修改代码如下:
<?php

/**
 * Image similarity compare
 * @author May
 *
 */
class ImageCompare {

	private static $instance;
	
	/**
	 * error rate
	 */
	private static $rate = 1;
	
	public static function getInstance() {
		if (!self::$instance) {
			self::$instance = new self();
		}
		return self::$instance;
	}
	
	/**
	 * Set error rate
	 * @param int $rate
	 */
	public function setErrorRate($rate){
		self::$rate = $rate;
	}
	
	/**
	 * 
	 * @param string $file
	 * @throws Exception
	 * @return multitype:Ambiguous <boolean, string, array>
	 */
	private static function doCompare($file) {
		if(!function_exists('imagecreatetruecolor')) {
			throw new Exception('GD Library must be loaded'); 
		}
		$is_string = false;
		if(is_string($file)) {
			$file = array($file);
			$is_string = true;
		}
		$result = array();
		foreach ($file as $f) {
			$result[] = self::hash($f);
		}
		return $is_string ? $result[0] : $result;
	}
	
	/**
	 * Cal Hamming distance is similar
	 * @param string $img1
	 * @param string $img2
	 * @return boolean
	 */
	public function checkIsSimilar($img1,$img2) {
		if (file_exists($img1) && file_exists($img2)) {
			$img1 = self::doCompare($img1);
			$img2 = self::doCompare($img2);
		}
		if(strlen($img1) !== strlen($img2)) {
			return false;
		}
		$count = 0;
		$len = strlen($img1);
		for ($i=0;$i<$len;$i++) {
			if($img1{$i} !== $img2{$i}) {
				$count ++;
			}
		}
		return $count <= (5*(self::$rate)*(self::$rate))?true:false;
	}
	
	/**
	 * Get hash value
	 * @param string $file
	 * @return boolean|string
	 */
	private static function hash($file) {
		if (!file_exists($file)) {
			return false;
		}
		
		$height = 8*self::$rate;
		$width = 8*self::$rate;
		
		$img = imagecreatetruecolor($width, $height);
		
		list($w,$h) = getimagesize($file);
		$source = self::createImg($file);
		
		imagecopyresampled($img, $source, 0, 0, 0, 0,
 		$width, $height, $w, $h);
		$value = self::getHashValue($img);
		imagedestroy($img);
		return $value;
	}
	
	/**
	 * Cal hash value
	 * @param resource $img
	 * @return string
	 */
	private static function getHashValue($img) {
		$width = imagesx($img);
		$height = imagesy($img);
		$total = 0;
		$array = array();
		
		for ($y =0;$y<$height;$y++) {
			for ($x=0;$x<$width;$x++) {
				$gray = (imagecolorat($img, $x, $y) >> 8) 
				& 0xFF;
				if (isset($array[$y]) && 
					!is_array($array[$y])) {
					$array[$y] = array();
				}
				$array[$y][$x] = $gray;
				$total += $gray;
			}
		}
		
		$average = intval($total/(64*self::$rate*self::$rate));
		$result = '';
		
		for ($y=0;$y<$height;$y++) {
			for ($x=0;$x<$width;$x++) {
				if ($array[$y][$x] >= $average) {
					$result .= '1';
				} else {
					$result .= '0';
				}
			}
		}
		return $result;
	}
	
	/**
	 * Generate picture
	 * @param string $file
	 * @return Ambiguous <NULL, resource>
	 */
	private static function createImg($file) {
		$ext = self::getFileExt($file);
		if ($ext === 'jpeg') $ext = 'jpg';
		$img = null;
		switch ($ext){
			case 'png' : $img = imagecreatefrompng($file);break;
			case 'jpg' : $img = imagecreatefromjpeg($file);break;
			case 'gif' : $img = imagecreatefromgif($file);break;
			default:break;
		}
		return $img;
	}
	
	/**
	 * Get picture extension
	 * @param string $file
	 * @throws Exception
	 * @return string
	 */
	private static function getFileExt($file){
		$infos = explode('.', $file);
		$ext = strtolower($infos[count($infos) - 1]);
		if (!in_array($ext,array('jpg','jpeg','png','gif'))) {
			throw new Exception(
			"file suffix must be 'jpg','jpeg','png','gif' "); 
			exit;
		}
		return $ext;
	}
}
图片相似度的计算原理是通过比较两个图片的汉明距离来确定的。首先,将图片缩放至同样大小,然后通过计算图片像素的灰度值并进行比较,如果两个图片的灰度值大部分(一般为设置为某个比例,如 95%)都相似,基本可以确定两种图片是相同的。
相关文章
2024-11-19 10:19:04 1731982744 0.027225