搜索
系统检测到您的用户名不符合规范:

php计算title标题相似比

浏览:2362 发布日期:2013年02月06日 分类:用法示例
采集时常常要对网站内容进行重复判断,php判断正文内容比较困难,对于标题的判断还是比较简单,只要过滤标题中的版权,再用similar_text计算
<?php
/*
* php计算title标题相似比 by enenba.com
*
* @param string $title_1 题目1
* @param string $title_2 题目2
* @return float $percent 相似百分比
*/
function title_similar($title_1,$title_2) {
$title_1 = get_real_title($title_1);
$title_2 = get_real_title($title_2);
similar_text($title_1, $title_2, $percent);
return $percent;
}
/**
* php采集文章题目并去版权
* @param string $html 需要采集的html源代码
* @return string
*/

function get_real_title($str){
$str = str_replace(array('-','—','|'),'_',$str);
$splits = explode('_', $str);
$l = 0;
foreach ($splits as $tp){
$len = strlen($tp);
if ($l < $len){$l = $len;$tt = $tp;}
}
$tt = trim(htmlspecialchars($tt));
return $tt;
}


//以下是测试
$title_1 = '代号PHPCMS V9产品正式发布公测版本 - 站长之家';
$title_2 = 'PHPCMS再战江湖 V9产品正式发布公测版本 - 站长网 admin5.com';
$percent = title_similar($title_1,$title_2);
echo '相似百分比:'.$percent.'%';
echo "<br />\n";

?>
http://blog.ddian.cn/?post=874
收藏
geo5078
积分:445 等级:LV2
热点推荐
(追記) (追記ここまで)
最新更新

我们

合作

网站

信息

ThinkPHP 是一个免费开源的,快速、简单的面向对象的 轻量级PHP开发框架 ,创立于2006年初,遵循Apache2开源协议发布,是为了敏捷WEB应用开发和简化企业应用开发而诞生的。ThinkPHP从诞生以来一直秉承简洁实用的设计原则,在保持出色的性能和至简的代码的同时,也注重易用性。并且拥有众多的原创功能和特性,在社区团队的积极参与下,在易用性、扩展性和性能方面不断优化和改进,已经成长为国内最领先和最具影响力的WEB应用开发框架,众多的典型案例确保可以稳定用于商业以及门户级的开发。

AltStyle によって変換されたページ (->オリジナル) /