• 笔记
  • 自然语言处理

Engineer Note

通过history日志做用户行为分析

在 2016年1月22日 上公布 作者为 bcz

现在几乎所有的互联网公司,都在通过日志,分析用户的各种行为,比如百度的搜索关键字,网页点击日志,淘宝的购买记录,浏览历史等等,通过分析这些数据,来挖掘潜在的购买行为,潜在的购买用户。 linux下的history是最简单的用户行为日志,试着分析下这个日志,看是不是也能得出一些结论。 0. 获取history日志 history是linux系统的内置命令,只要把输出重定向到一个文本文件就可以了。 history > history.txt history.txt就是我们想要得到的日志文件。 wc -l history.txt #看下日志行数,最大默认是1000行记录 tail history.txt #看下最后10条记录 下面是输出: 1031 query -k T2停车场 1032 query -k 元村桥 -c 周口市 1033 src 1034 cd dispatcher/ 1035

阅读更多

文章分类 自然语言处理 | 标签: awk, bash, nlp | 发表评论 |

又要抢火车票了

在 2016年1月21日 上公布 作者为 bcz

0. 背景 每年过节回家,都会经历一次抢火车票的经历,倒不是自己离家多远,而且身为攻城狮,修电脑,攒机器,抢火车票早在别人眼中成为了必备技能,所以总免不了会在这上面花些时间。 1. 初期 在刚开始网上买票的早期,网络速度快就够了,只要在12306刚放票的那一刻,点点查询按钮,总会买到一两张卧铺车票。 2. 抢票浏览器 接着很多互联网公司掺和进来,以抢票为卖点,大肆宣传自己的抢票浏览器,这个时候网速快已经不够了,去年我也用数字公司的浏览器抢到过两张。 3. 12306升级 随着12306的网站升级,加上变态验证码,现在买票越发的困难。用数字公司的浏览器去抢,没过几分钟就会被退出来,接着显示重试次数过多,不让继续登录。不知道是12306对数字公司做了限制还是数字公司为了推自家的手机浏览器做的限制,数字公司又开始胁迫用户了。 4. 携程在手,想走走不了 公司同事lx推荐我用携程试试,完全离线抢票

阅读更多

文章分类 笔记 | 标签: chrome, python, selenium, 抢票 | 发表评论 |

搭建属于自己的服务器

在 2016年1月19日 上公布 作者为 bcz

搭建一个自己的服务器,用处真是太多了。 可以用来做邮件服务器,文件分享服务器,博客,代码托管服务器,VPN,IRC服务器,游戏服务器等。 对一个没有经验的来说,到处查资料摸索,必然会花费不少的时间,这篇文章,主要是介绍一些流程和注意事项。 废话不多说了,下面是干货。 1. 域名的选择 关于顶级域名,最好不要选择cn域名,各种备案,还不会隐藏个人信息。推荐com, net, org,知名度高,也可以尝试一些别的域名。 具体域名的话,只要自己喜欢,没有被注册的就行,也可以去pool.com关注一些快要到期被删除的域名,每天都会更新一个text文档,还是很方便的。 供应商的话,我选择的是万网,现在被阿里收购了,技术还是可以的,用着没出过什么问题。 2. 服务供应商的选择 服务商最好是选择香港节点或者日本节点,这两个地区的线路都在亚洲,延时都很低。 推荐linode和vultr,linode口碑一

阅读更多

文章分类 笔记 | 标签: https, linode, vpn, vultr | 发表评论 |

bash shell中模拟实现多进程

在 2016年1月18日 上公布 作者为 bcz

1. 单进程情况 在bash shell中,单进程任务是顺序执行的,总的执行时间为各个任务执行时间的总和 #!/bin/sh for ((i=0; i

文章分类 笔记 | 标签: bash, linux, multi-thread | 发表评论 |

如何抓取微博用户数据

在 2014年11月24日 上公布 作者为 bcz

最近由于工作需要,需要抓取某个用户几个月的微博数据进行分析。 之后发现了两个难点: 1是微博防止大量的爬虫进行微博抓取,内容都进行了加密处理,很难看到微博正文。 2是查看微博需要授权或者说是需要登陆。 我们来一个一个的看。 一开始我决定用微博官方的方式,也就是先进行OAuth2.0授权,然后通过SDK进行API调用访问。用代码进行授权过程总是不成功,花费不少时间。 后来惊讶的发现从新浪提供的手机端入口weibo.cn登陆,能看到weibo的正文,大喜。 微博登陆的问题,换句话说,也就是我们必须有登陆后的Cookie数据,最起码要有验证Cookie,最后找到是Cookies中weibo.cn对应的gsid_CTandWM键值对。我们只需要在支持Cookie的代码中指定自己的gsid_CTandWM值即可。 解析html用到了HtmlAgilityPack库(改天写篇详细的介绍文档),很好用,

阅读更多

文章分类 自然语言处理 | 标签: crawler, spider, 微博, 网络爬虫 | 发表评论 |

近期文章

  • 通过history日志做用户行为分析
  • 又要抢火车票了
  • 搭建属于自己的服务器
  • bash shell中模拟实现多进程
  • 如何抓取微博用户数据

标签

awk bash chrome crawler https linode linux multi-thread nlp python selenium spider vpn vultr 微博 抢票 网络爬虫

近期评论

    文章归档

    • 2016年一月
    • 2014年十一月

    CyberChimps WordPress Themes

    © The blog of Jianpo Li