图像处理技术之图片相似度比较技术
Today,工作中发现需要去除图片上的水印,由于涉及文章太多,手动重新编辑很慢且容易出错。于是想到了使用脚本比较全部图片的相似度,然后替换文件的方式来达到去除水印效果。在完成这项工作前,我们需要找到所有的原图放在同一个文件夹中。通过遍历原图和目标文章目录的图片进行比较,若发现相似则覆盖。在网上找了一个PHP写的类,略加修改,代码如下:
<?php
/**
* Image similarity compare
* @author May
*
*/
class ImageCompare {
private static $instance;
/**
* error rate
*/
private static $rate = 1;
public static function getInstance() {
if (!self::$instance) {
self::$instance = new self();
}
return self::$instance;
}
/**
* Set error rate
* @param int $rate
*/
public function setErrorRate($rate){
self::$rate = $rate;
}
/**
*
* @param string $file
* @throws Exception
* @return multitype:Ambiguous <boolean, string, array>
*/
private static function doCompare($file) {
if(!function_exists('imagecreatetruecolor')) {
throw new Exception('GD Library must be loaded');
}
$is_string = false;
if(is_string($file)) {
$file = array($file);
$is_string = true;
}
$result = array();
foreach ($file as $f) {
$result[] = self::hash($f);
}
return $is_string ? $result[0] : $result;
}
/**
* Cal Hamming distance is similar
* @param string $img1
* @param string $img2
* @return boolean
*/
public function checkIsSimilar($img1,$img2) {
if (file_exists($img1) && file_exists($img2)) {
$img1 = self::doCompare($img1);
$img2 = self::doCompare($img2);
}
if(strlen($img1) !== strlen($img2)) {
return false;
}
$count = 0;
$len = strlen($img1);
for ($i=0;$i<$len;$i++) {
if($img1{$i} !== $img2{$i}) {
$count ++;
}
}
return $count <= (5*(self::$rate)*(self::$rate))?true:false;
}
/**
* Get hash value
* @param string $file
* @return boolean|string
*/
private static function hash($file) {
if (!file_exists($file)) {
return false;
}
$height = 8*self::$rate;
$width = 8*self::$rate;
$img = imagecreatetruecolor($width, $height);
list($w,$h) = getimagesize($file);
$source = self::createImg($file);
imagecopyresampled($img, $source, 0, 0, 0, 0,
$width, $height, $w, $h);
$value = self::getHashValue($img);
imagedestroy($img);
return $value;
}
/**
* Cal hash value
* @param resource $img
* @return string
*/
private static function getHashValue($img) {
$width = imagesx($img);
$height = imagesy($img);
$total = 0;
$array = array();
for ($y =0;$y<$height;$y++) {
for ($x=0;$x<$width;$x++) {
$gray = (imagecolorat($img, $x, $y) >> 8)
& 0xFF;
if (isset($array[$y]) &&
!is_array($array[$y])) {
$array[$y] = array();
}
$array[$y][$x] = $gray;
$total += $gray;
}
}
$average = intval($total/(64*self::$rate*self::$rate));
$result = '';
for ($y=0;$y<$height;$y++) {
for ($x=0;$x<$width;$x++) {
if ($array[$y][$x] >= $average) {
$result .= '1';
} else {
$result .= '0';
}
}
}
return $result;
}
/**
* Generate picture
* @param string $file
* @return Ambiguous <NULL, resource>
*/
private static function createImg($file) {
$ext = self::getFileExt($file);
if ($ext === 'jpeg') $ext = 'jpg';
$img = null;
switch ($ext){
case 'png' : $img = imagecreatefrompng($file);break;
case 'jpg' : $img = imagecreatefromjpeg($file);break;
case 'gif' : $img = imagecreatefromgif($file);break;
default:break;
}
return $img;
}
/**
* Get picture extension
* @param string $file
* @throws Exception
* @return string
*/
private static function getFileExt($file){
$infos = explode('.', $file);
$ext = strtolower($infos[count($infos) - 1]);
if (!in_array($ext,array('jpg','jpeg','png','gif'))) {
throw new Exception(
"file suffix must be 'jpg','jpeg','png','gif' ");
exit;
}
return $ext;
}
}
图片相似度的计算原理是通过比较两个图片的汉明距离来确定的。首先,将图片缩放至同样大小,然后通过计算图片像素的灰度值并进行比较,如果两个图片的灰度值大部分(一般为设置为某个比例,如 95%)都相似,基本可以确定两种图片是相同的。
相关文章
暂无