MacOS/Linux安装scws中文分词和php扩展

2020-07-27

妈蛋发现阿里云提供的自然语言更好用,没有本地限制的还是老老实实用阿里云的吧


针对中文进行分词和词频提取,尝试多种后发现这个开源的scws中文分词比较好用
下面附上安装过程和配置流程

官方地址 http://www.xunsearch.com/scws/index.php

scws编译安装

1.下载

1
2
3
4
5
# 先把文件下载到目录
[wey@MacBook-Pro %] cd /Users/wey/Downloads/
# 下载方式不限,wget,curl手动下载均可
[wey@MacBook-Pro Downloads %] sudo curl -O http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2

2.编译
解压刚刚下载的scws-1.2.3,并进入目录

1
[wey@MacBook-Pro Downloads %] cd scws-1.2.3

3.准备安装

1
2
3
4
# 配置
[wey@MacBook-Pro scws-1.2.3 %] ./configure --prefix=/usr/local/scws
# 编译安装
[wey@MacBook-Pro scws-1.2.3 %] make && make install

4.安装完成,测试

1
[wey@MacBook-Pro scws-1.2.3 %] /usr/local/scws/bin/scws -h

出现如下信息即安装成功

1
2
3
4
5
scws (scws-cli/1.2.3)
Simple Chinese Word Segmentation - Command line usage.
Copyright (C)2007 by hightman.
...
...

5.下载词典
我选择直接去网页上下载xdb文件后放到目录/usr/local/scws/etc中
(http://www.xunsearch.com/scws/download.php)
需要根据编码使用环境选择gbk还是utf8

scws-php扩展编译安装

1.进入源码目录

1
2
3
4
# 进入刚刚下载解压的scws的目录
[wey@MacBook-Pro scws-1.2.3 %] cd /Users/wey/Downloads/scws-1.2.3/phpext
# 进入目录下的phpext
[wey@MacBook-Pro scws-1.2.3 %] cd /phpext

2.编译和安装
确认自己php环境phpize的位置,我本机的位置是/Applications/MxSrvs/bin/php/bin/phpize
执行phpize

1
[wey@MacBook-Pro phpext %] /Applications/MxSrvs/bin/php/bin/phpize

出现以下信息即完成

1
2
3
4
Configuring for:
PHP Api Version: 20131106
Zend Module Api No: 20131226
Zend Extension Api No: 220131226

配置

1
[wey@MacBook-Pro phpext %] ./configure --with-scws=/usr/local/scws

编译安装

1
[wey@MacBook-Pro phpext %] make && make install

出现以下信息即完成

1
2
3
4
5
6
7
...
cp ./.libs/scws.so /Users/wey/Downloads/scws-1.2.3/phpext/modules/scws.so
cp ./.libs/scws.lai /Users/wey/Downloads/scws-1.2.3/phpext/modules/scws.la
----------------------------------------------------------------------
Libraries have been installed in:
/Users/wey/Downloads/scws-1.2.3/phpext/modules
...

即编译后的.so文件在/Users/wey/Downloads/scws-1.2.3/phpext/modules/scws.so中

3.配置php.ini

编译好的.so文件放到php的扩展ext下

1
/Applications/MxSrvs/bin/php/ext

配置php.ini

1
2
3
extension=scws.so
scws.default.charset = utf8
scws.default.fpath = /usr/local/scws/etc

(注意,此处是utf8而不是写成utf-8,可选的有gbk,utf8,上面对应的词库的字符集也要对应)

4.确认和测试

重启php
查看phpinfo() 中是否有 scws 相关扩展

5.测试代码

1
2
3
4
5
6
7
8
9
$so = scws_new();
$so->set_charset('utf8');
$so->send_text("我是一个中国人");
while ($tmp = $so->get_result())
{
var_dump($tmp);
}
$so->close();
die;

结果集

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
array (size=4)
0 =>
array (size=5)
'word' => string '我' (length=3)
'off' => int 0
'len' => int 3
'idf' => float 0
'attr' => string 'r' (length=1)
1 =>
array (size=5)
'word' => string '是' (length=3)
'off' => int 3
'len' => int 3
'idf' => float 0
'attr' => string 'v' (length=1)
2 =>
array (size=5)
'word' => string '一个' (length=6)
'off' => int 6
'len' => int 6
'idf' => float 4.289999961853
'attr' => string 'm' (length=1)
3 =>
array (size=5)
'word' => string '中国人' (length=9)
'off' => int 12
'len' => int 9
'idf' => float 4.9000000953674
'attr' => string 'n' (length=1)
....

完成

附录scws-php扩展的相关函数和调用说明

  1. mixed scws_new(void) 创建并返回一个 SimpleCWS 类操作对象。

    返回值 成功返回类操作句柄,失败返回 false。

  2. mixed scws_open(void) 创建并返回一个分词操作句柄。

    返回值 成功返回 scws 操作句柄,失败返回 false。

  3. bool scws_close(resource scws_handle)
    SimpleCWS::close(void) 关闭一个已打开的 scws 分词操作句柄。

    参数 scws_handle 即之前由 scws_open 打开的返回值。
    返回值 始终为 true
    注意 后面的 API 中省去介绍 scws_handle 参数,含义和本函数相同。

  4. bool scws_set_charset(resource scws_handle, string charset)
    bool SimpleCWS::set_charset(string charset) 设定分词词典、规则集、欲分文本字符串的字符集。

    参数 charset 要新设定的字符集,目前只支持 utf8 和 gbk。(注:默认为 gbk,utf8不要写成utf-8)
    返回值 始终为 true

  5. bool scws_add_dict(resource scws_handle, string dict_path [, int mode])
    bool SimpleCWS::add_dict(string dict_path [, int mode]) 添加分词所用的词典,新加入的优先查找。

    参数 dict_path 词典的路径,可以是相对路径或完全路径。(遵循安全模式下的 open_basedir)
    参数 mode 可选,表示加载的方式。其值有:

    • SCWS_XDICT_TXT 表示要读取的词典文件是文本格式,可以和后2项结合用
    • SCWS_XDICT_XDB 表示直接读取 xdb 文件(此为默认值)
    • SCWS_XDICT_MEM 表示将 xdb 文件全部加载到内存中,以 XTree 结构存放,可用异或结合另外2个使用。

    返回值 成功返回 true 失败返回 false

  6. bool scws_set_dict(resource scws_handle, string dict_path [, int mode])
    bool SimpleCWS::set_dict(string dict_path [, int mode]) 设定分词所用的词典并清除已存在的词典列表。

    参数 dict_path 词典的路径,可以是相对路径或完全路径。(遵循安全模式下的 open_basedir)
    参数 mode 可选,表示加载的方式。参见 scws_add_dict
    返回值 成功返回 true 失败返回 false

  7. bool scws_set_rule(resource scws_handle, string rule_path)
    bool SimpleCWS::set_rule(string rule_path) 设定分词所用的新词识别规则集(用于人名、地名、数字时间年代等识别)。

    参数 rule_path 规则集的路径,可以是相对路径或完全路径。(遵循安全模式下的 open_basedir)
    参数 mode 可选,表示加载的方式。参见 scws_add_dict
    返回值 成功返回 true 失败返回 false

  8. bool scws_set_ignore(resource scws_handle, bool yes)
    bool SimpleCWS::set_ignore(bool yes) 设定分词返回结果时是否去除一些特殊的标点符号之类。

    参数 yes 设定值,如果为 true 则结果中不返回标点符号,如果为 false 则会返回,缺省为 false。
    返回值 始终为 true

  9. bool scws_set_multi(resource scws_handle, int mode)
    bool SimpleCWS::set_multi(bool yes) 设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。

    参数 mode 复合分词法的级别,缺省不复合分词。取值由下面几个常量异或组合(也可用 1-15 来表示):

    • SCWS_MULTI_SHORT (1)短词
    • SCWS_MULTI_DUALITY (2)二元(将相邻的2个单字组合成一个词)
    • SCWS_MULTI_ZMAIN (4)重要单字
    • SCWS_MULTI_ZALL (8)全部单字

    返回值 始终为 true

  10. bool scws_set_duality(resource scws_handle, bool yes)
    bool SimpleCWS::set_duality(bool yes) 设定是否将闲散文字自动以二字分词法聚合

    参数 yes 设定值,如果为 true 则结果中多个单字会自动按二分法聚分,如果为 false 则不处理,缺省为 false。
    返回值 始终为 true

  11. bool scws_send_text(resource scws_handle, string text)
    bool SimpleCWS::send_text(string text) 发送设定分词所要切割的文本。

    参数 text 要切分的文本的内容。
    返回值 成功返回 true 失败返回 false
    注意 系统底层处理方式为对该文本增加一个引用,故不论多长的文本并不会造成内存浪费;
    执行本函数时,若未加载任何词典和规则集,则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集。

  12. mixed scws_get_result(resource scws_handle)
    mixed SimpleCWS::get_result() 根据 send_text 设定的文本内容,返回一系列切好的词汇。

    返回值 成功返回切好的词汇组成的数组,若无更多词汇,返回 false。返回的词汇包含的键值如下:

    • word string 词本身
    • idf float 逆文本词频
    • off int 该词在原文本路的位置
    • attr string 词性

    注意 每次切词后本函数应该循环调用,直到返回 false 为止,因为程序每次返回的词数是不确定的。

  13. mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])
    mixed SimpleCWS::get_tops([int limit [, string attr]]) 根据 send_text 设定的文本内容,返回系统计算出来的最关键词汇列表。

    参数 limit 可选参数,返回的词的最大数量,缺省是 10
    参数 attr 可选参数,是一系列词性组成的字符串,各词性之间以半角的逗号隔开,
    这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,缺省为NULL,返回全部词性,不过滤。
    返回值 成功返回统计好的的词汇组成的数组,返回 false。返回的词汇包含的键值如下:

    • word string 词本身
    • times int 词在文本中出现的次数
    • weight float 该词计算后的权重
    • attr string 词性
  14. mixed scws_get_words(resource scws_handle, string attr)
    mixed SimpleCWS::get_words(string attr) 根据 send_text 设定的文本内容,返回系统中词性符合要求的关键词汇。

    参数 attr 是一系列词性组成的字符串,各词性之间以半角的逗号隔开,
    这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,若为空则返回全部词。
    返回值 成功返回符合要求词汇组成的数组,返回 false。返回的词汇包含的键值参见 scws_get_result

  15. bool scws_has_words(resource scws_handle, string attr)
    mixed SimpleCWS::has_words(string attr) 根据 send_text 设定的文本内容,返回系统中是否包括符合词性要求的关键词。

    参数 attr 是一系列词性组成的字符串,各词性之间以半角的逗号隔开,
    这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,若为空则返回全部词。
    返回值 如果有则返回 true,没有就返回 false。

  16. string scws_version(void)
    string SimpleCWS::version(void) 返回 scws 版本号名称信息(字符串)。