python正则表达式

常用模式

模式 含义
^ Matches the beginning of a line
$ Matches the end of the line
. Matches any character
\d Match one digit
\D Matches any non-digit character
\w Match one number or one digit
\s Matches whitespace
\S Matches any non-whitespace character
? Repeats a character zero or one times
* Repeats a character zero or more times
+ Repeats a character one or more times
[aeiou] Matches a single character in the listed set
[^XYZ] Matches a single character not in the listed set
[a-z0-9] The set of characters can include a range
() Indicates where string extraction is to start and to end

more >>

预测模型结果校准

Introduction

由于模型预测时采样不均,或者算法本身的特性(比如SVM和boosting会使结果趋向于呈sigmoid形状的分布;使用独立假设的Naive Bayes会使结果拉向0或1;而NN和bagged tree的bias相对小一些。详见refer#5),模型预测值与真实观察值之间往往存在很大的gap。大多数的分类模型,得到的预测结果仅有定序意义,而不能够定量。很多情况下,仅仅得到一个好的AUC值是远远不够的,我们需要得到一个准确的概率值。例如,在优化最大收益的场景下,优化目标是最大化CTR*CVR*Price,通过模型分别学到的CTR和CVR的预测值不仅要保序,还要使预测值逼近真是分布才能获得准确的排序结果。

more >>

Offline Evaluation in Recommendation System调研

推荐系统中的评测大致分为三类:离线评测、在线评测、用户调研。在线评测通常将流量随机分配到不同策略下下比较不同策略的优劣(又称A/B test或bucket test),操作简单,效果准确直观,但代价昂贵,可能伤害部分用户的体验;离线评测使用模拟器模拟线上环境获取结果,对线上几乎没有影响,因此一些重要系统通常要先通过离线评测确保算法效果再上线进行对比,但由于离线评测经常引入model bias及partial label(新算法产生的结果在线上真实环境下未被展示)等问题,使得线下评估结果与线上不一致;用户调研代价昂贵切过于主观,个人认为比较适用于产品调研,不适用于算法效果评估。这其中离线评测一直是推荐系统较为关注的话题,如何保持离线评测与在线评测结果的一致性在众多推荐系统中都是亟待解决的问题。

more >>

《从0到1》阅读摘要


《从0到1》可能是迄今为止最好的一本商业书,通过硅谷公司的兴衰史讲述了初创公司的如何发现商机、占据市场、面对竞争。最大的收获是对初创公司面临的挑战有了全面的了解,对垄断和竞争的关系有了重新的认识,同时也看到了作为教父级人物缜密而冷静的思维。

1.未来的挑战

进步可以呈现两种形式。水平进步,也称广泛进步,从1到n的进步,以全球化为代表;垂直进步,也称深入进步,从0到1的进步,以科技为代表。大部分人认为世界的未来由全球化决定,但事实是:科技更有影响力。

more >>

Game Theory on Coursera (2)

The course covers the basics: representing games and strategies, the extensive form (which computer scientists call game trees), repeated and stochastic games, coalitional games, and Bayesian games (modeling things like auctions). This note includes following sections:
5: Repeated Games
6: Bayesian Games
7: Coalitional Games

more >>

Game Theory on Coursera (1)

为了赶上1月开课的Game Theory II: Advanced Applications,最近补习了前序课。本课程主要讲了博弈论中的基础问题和概念,除了对slides做了一些摘要外,还结合了其他资料及自己的心得进行了注释,在后续学习过程中会不断添加延伸资料(如知乎上的相关讨论)。

The course covers the basics: representing games and strategies, the extensive form (which computer scientists call game trees), repeated and stochastic games, coalitional games, and Bayesian games (modeling things like auctions). This note includes following sections:
1: Introduction and Overview
2: Mixed-Strategy Nash Equilibrium
3: Alternate Solution Concepts
4: Extensive-Form Games

more >>