PHPAnalysis中文分词2.0版本,支持链式调用,丰富词性,增加TF-IDF计算权重
php分词一直在用PHPAnalysis,随着业务需求的不断增加,原版的PHPAnalysis已不满足需求了,并且原版也很长时间没更新了。这个分词是在原版基础上修改的,加入了一些新特征:在analysis基础上修改分词算法重构文件结构,支持composer优化分词步骤(粗分、切分、优化三步完全独立)优化词性标注,新增更...
php分词一直在用PHPAnalysis,随着业务需求的不断增加,原版的PHPAnalysis已不满足需求了,并且原版也很长时间没更新了。这个分词是在原版基础上修改的,加入了一些新特征:在analysis基础上修改分词算法重构文件结构,支持composer优化分词步骤(粗分、切分、优化三步完全独立)优化词性标注,新增更...
别听百度,让你用一个复杂的函数去生成毫秒/微秒的时间戳,PHP自带的有,多看看PHP官方的文档吧。DEMO:$t1=microtime();$t2=microtime(true);$t3=sprintf('%0.3f',$t2);$t4=sprintf('%0.6f',$t2);$dt=...
一款根据字符串首字符生成的base64图片的类,当用户没有上传头像的时候可以当做头像使用。支持中文字符串。使用也很简单,直接new letterAvatar(width, height),然后调用show(字符串)方法即可。生成效果图预览:
自从9-18后,不少网友看到了博主的网站在9-18当天变成了灰色的,并且有文字提示哀悼918,之后有不少网友想要这种功能,因为我这个是rpcms系统的,插件形式不一定兼容网友系统,这里就统一发一下原生态的吧。网页灰度渲染其实很简单,就是一行css的事。如下:-webkit-filter: grayscale(100%);-moz-filter:&n...
xpath非常好用,爬虫采集太轻松了。通常我们在采集源地址后,得到的是页面的HTML代码,有时候抓过来的源码是又多又乱。。接下来我们就开始正则匹配需要的内容了,这时候就会遇到不会正则表达式的困扰(估计很多人都不太会正则),再遇到节点复杂的,直接就懵逼了。1、先来看看xpath是啥?xpath 是一门在 XML 文档中查找信息的语言,XPath 可用...
在做项目的时候,有这样的一个需求,数据保存在txt文件中,每次读取一行,然后进行业务处理。txt中的数据不是一次执行就全部处理的,所以需要处理一行数据,就把当前一行的数据删除掉。一个大神写的方法,分享给大家。DEMO:$dataFile='data.txt'; function readKeywordOne(){ &...
采集和防采集两个一直在较劲这,从未停止过。。应客户的要求,给他网站加了一个防采集的功能,用的是比较原始的方法:加入混淆字段。。这种方法不可以严格的禁止采集,但会让采集到的内容多许多你自定义的文字,也算变相打广告了。采集这事吧,当你采集别人的时候,别人搞的干扰多了你也烦。你自己搞的站防采集吧,说实话好像没有有效的方法。。。IP了,速度了,cookie了,UA了...
前两天分享了一篇《IP地址查询免费API接口整理》,在实际运用到项目的时候发现问题了。因为这个都是远程获取的数据,在服务器通信不是很好的时候,waiting有点长,虽然说那几个API接口的速度已经很快了。本来客户的服务器配置不是很高,30多kb的页面加载在220ms内,一加上curl抓取API数据,立马飙到530ms左右,,,小心脏有点受不了。。哎,本来想用...
分享一个活动中常用到的中奖概率算法1、均等算法/*** 红包算法,均等** @param number $money 红包总金额* @param number $num 生成的红包数量* @param number $max 红包最大金额* @param number $min 红包最小金额* @return array*/function getRedPa...
获取访问者的操作系统,这一篇也算是通过UA构建用户画像的完结篇了。获取操作系统分为两个方法,一个是PC的操作系统,一个是WAP的获取PC操作系统:function getOS($agent){ $os = false; if (preg_match('/win/i', $agent)&...
前面发布了一篇获取用户浏览器的文章《用户画像统计分析之获取用户浏览器-php实用功能记录(四)》,今天继续发布,获取判断访问用户的手机设备类型包含了大部分市场常用的手机类型代码如下:function mobileType($agent){ if(stripos($agent, "iPhone")!==false){...
大数据,用户画像的其中一个元素,用户所用的浏览器,具体能干嘛,,,大家脑补吧下面这个方法所包含的浏览器可能不是很全,有遗漏的朋友可以补上去哈function GetBrowser($agent){ if(preg_match('/MSIE\s([^\s;]+)/i',$agent,$match)){ $bro...
验证中国公民身份证号码的正确性、合法性、有效性,实用价值高。有时候为了防止用户随意填写,一般验证一下数字和字符长度。。太随意了。。当然,也有上传图片认证的,,下面这个功能类是验证身份号码的规范性,朋友们可以借鉴下上代码:class idcard{ /** * 身份证号码判断 * @param string $idcard 身份证号 * @return boo...
在接受前端的请求数据后,我们都要对数据进行过滤、验证有些验证简单,三两句就OK了,银行卡号这个,估计验证一下数字和长度。其实银行卡号码也是有规则的,下面分享一个验证银行卡号码的方法,朋友们可以整合到自己的系统中。具体方法如下:public function checkbank($no=""){ if(empty($no)) return ...
PHP的分页类,虽然用的不多吧,还是分享出来一起学习学习吧。继续本站一惯的作风,闲话少说,简单粗暴,直接上代码:/**@ max最大页数*@ url链接url*@ step页码间隔,最小3,最大9*@ config: pre上一页,next下一页,pages页码,select跳转*/class Page{ private $pageUrl; private...