PHPAnalysis中文分词2.0版本,支持链式调用,丰富词性,增加TF-IDF计算权重
php分词一直在用PHPAnalysis,随着业务需求的不断增加,原版的PHPAnalysis已不满足需求了,并且原版也很长时间没更新了。这个分词是在原版基础上修改的,加入了一些新特征:在analysis基础上修改分词算法重构文件结构,支持composer优化分词步骤(粗分、切分、优化三步完全独立)优化词性标注,新增更...
php分词一直在用PHPAnalysis,随着业务需求的不断增加,原版的PHPAnalysis已不满足需求了,并且原版也很长时间没更新了。这个分词是在原版基础上修改的,加入了一些新特征:在analysis基础上修改分词算法重构文件结构,支持composer优化分词步骤(粗分、切分、优化三步完全独立)优化词性标注,新增更...
别听百度,让你用一个复杂的函数去生成毫秒/微秒的时间戳,PHP自带的有,多看看PHP官方的文档吧。DEMO:$t1=microtime();$t2=microtime(true);$t3=sprintf('%0.3f',$t2);$t4=sprintf('%0.6f',$t2);$dt=...
一款根据字符串首字符生成的base64图片的类,当用户没有上传头像的时候可以当做头像使用。支持中文字符串。使用也很简单,直接new letterAvatar(width, height),然后调用show(字符串)方法即可。生成效果图预览:
项目中使用到多维数组的排序,去官网看了下介绍。php的array_multisort() 函数对多个数组或多维数组进行排序,字符串键名(key)将被保留,但是数字键名将被重新索引,从 0 开始,并以 1 递增。参数中的数组被当成一个表的列并以行来进行排序 - 这类似 SQL 的 ORDER BY 子句的功能。第一个数组是要排序的主要数组。数组中的行(值)比较为相同的话,就会按照下一个输入数组中相应值的大小进行排序,依此类推。官方的介绍可能有点模糊,我们用实例来了解下这个函数。1、字符串索引和数字索引$a=
自从9-18后,不少网友看到了博主的网站在9-18当天变成了灰色的,并且有文字提示哀悼918,之后有不少网友想要这种功能,因为我这个是rpcms系统的,插件形式不一定兼容网友系统,这里就统一发一下原生态的吧。网页灰度渲染其实很简单,就是一行css的事。如下:-webkit-filter: grayscale(100%);-moz-filter:&n...
分词有什么用?文章或短语分词后可自动提取关键词,可以实现文章自动关键词、分词搜索等功能。用于分词搜索的比较多点,比如百度或淘宝的搜索功能。本文中使用的分词程序是:PHPAnalysis分词PHPAnalysis分词程序使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方便。PHPAnalysis的词库是用一种类...
php读取本地文件,获取的数据排序是混乱的,理想中的是1,2,3,4,5这种可实际上是1,10,100,1000,1001这种。。。这种情况是在win环境中测试的,目前在linux中正常的。。window资源文件:php读取的文件数组(本文中用的是scandir($path, SCANDIR_SORT_NONE)读取):解决办法:对数组进行排序 SORT_S...
在做项目的时候,有这样的一个需求,数据保存在txt文件中,每次读取一行,然后进行业务处理。txt中的数据不是一次执行就全部处理的,所以需要处理一行数据,就把当前一行的数据删除掉。一个大神写的方法,分享给大家。DEMO:$dataFile='data.txt'; function readKeywordOne(){ &...
采集和防采集两个一直在较劲这,从未停止过。。应客户的要求,给他网站加了一个防采集的功能,用的是比较原始的方法:加入混淆字段。。这种方法不可以严格的禁止采集,但会让采集到的内容多许多你自定义的文字,也算变相打广告了。采集这事吧,当你采集别人的时候,别人搞的干扰多了你也烦。你自己搞的站防采集吧,说实话好像没有有效的方法。。。IP了,速度了,cookie了,UA了...
php遍历文件夹目录常用的两个内置函数:scandir和glob先看官方说明:其中glob方法用起来比较方便,并且支持通配符。列举一些DEMO,如下:1、遍历目录下所有文件<?php print_r(glob('./data/*.*')); ?>2、遍历目录下指定后缀文件<?php print_r(glob('...
前两天分享了一篇《IP地址查询免费API接口整理》,在实际运用到项目的时候发现问题了。因为这个都是远程获取的数据,在服务器通信不是很好的时候,waiting有点长,虽然说那几个API接口的速度已经很快了。本来客户的服务器配置不是很高,30多kb的页面加载在220ms内,一加上curl抓取API数据,立马飙到530ms左右,,,小心脏有点受不了。。哎,本来想用...
分享一个活动中常用到的中奖概率算法1、均等算法/*** 红包算法,均等** @param number $money 红包总金额* @param number $num 生成的红包数量* @param number $max 红包最大金额* @param number $min 红包最小金额* @return array*/function getRedPa...
获取访问者的操作系统,这一篇也算是通过UA构建用户画像的完结篇了。获取操作系统分为两个方法,一个是PC的操作系统,一个是WAP的获取PC操作系统:function getOS($agent){ $os = false; if (preg_match('/win/i', $agent)&...
前面发布了一篇获取用户浏览器的文章《用户画像统计分析之获取用户浏览器-php实用功能记录(四)》,今天继续发布,获取判断访问用户的手机设备类型包含了大部分市场常用的手机类型代码如下:function mobileType($agent){ if(stripos($agent, "iPhone")!==false){...
大数据,用户画像的其中一个元素,用户所用的浏览器,具体能干嘛,,,大家脑补吧下面这个方法所包含的浏览器可能不是很全,有遗漏的朋友可以补上去哈function GetBrowser($agent){ if(preg_match('/MSIE\s([^\s;]+)/i',$agent,$match)){ $bro...
验证中国公民身份证号码的正确性、合法性、有效性,实用价值高。有时候为了防止用户随意填写,一般验证一下数字和字符长度。。太随意了。。当然,也有上传图片认证的,,下面这个功能类是验证身份号码的规范性,朋友们可以借鉴下上代码:class idcard{ /** * 身份证号码判断 * @param string $idcard 身份证号 * @return boo...