Growth hacking 实战 Day5,分词系统寻找热门词汇

和Easy一起学GH :tophat:

是什么

通过关键词广告平台进行投放时,需要提供目标用户的关键词。将目标人群产生的内容进行分词后统计词频是一个简单快速的办法。

为什么

词频可以很好的描述一群人到底在关心什么事情,除了可以用于分词,也可以帮你更好的了解客户群体,从而完善其角色画像。

如何做

首先要定义好目标人群,以JobDeer为例,它是一个人才拍卖网站,投放广告的目标人群是候选人。为了了解招聘方对于候选人的要求,我们收集了一个月时间内,所有招聘方的招聘启事对其进行分词统计,从而寻找最被招聘方看好的候选人应该具备如何的素质。

技术细节

新浪云提供了现成的分词接口,可以很好的对常规文本进行分词。

在新浪云上创建完应用,进入应用管理面板,在左侧下方有一个处于alpha版本的分词服务。

点击并开启应用的分词功能。

Screen Shot 2014-09-02 at 16.11.59.png

然后我们就可以很简单的通过PHP来进行分词了:

<?php
    $str = "明天星期天";
    $seg = new SaeSegment();
    $ret = $seg->segment($str, 1);

    print_r($ret); //输出

    // 失败时输出错误码和错误信息
    if ($ret === false)
    var_dump($seg->errno(), $seg->errmsg());
?>

由于我们要对上千份内容进行分词,在SQL插入时,最好用一条SQL插入多条数据,同时对已有词条进行计数自增。细节不多讲,上代码:

<?php
$seg = new SaeSegment();
$ret = $seg->segment($text, 1);
if( $ret === false )
{
    var_dump($seg->errno(), $seg->errmsg());
}
else
{
    foreach( $ret as $ritem )
    {
        if( mb_strlen($ritem['word'],'UTF-8') > 1 )
        {
            $words[] = $ritem['word']; 
            $wsql[] = " ('" . s( $ritem['word'] ) . "') ";
        }
        else
        {
            echo ".";
        }   
    }

    if( isset( $wsql ) )
    {
        $sql = "INSERT INTO `word2` ( `word` ) VALUES " . join( ' , ' , $wsql ) . " ON DUPLICATE KEY UPDATE `count`=`count`+1 ";
        
        run_sql( $sql );
        echo db_error();
    }
}
?>

最终效果

Screen Shot 2014-09-02 at 16.21.14.png

SAE的分词还支持词性判断,所以还可以只保留名词,甚至英文名词,这样可以很快寻找出一个人群中的热门关键字。

通过上述结果,我很快按热门程度整理了约500个关键词列表,扔到了Google Adwords里边。

关键词投放是个很大的话题,以后有机会单独拿出来讨论(等我先学会,咔咔)。

更多「和Easy学GH」系列文章 → http://get.jobdeer.com/450.get

本文由 Easy 发表于GET

「GetParty」

关注微信号,推送好文章

微信中长按图片即可关注

更多精选文章

评论
微博一键登入