1 笨笨的孩子慢慢学stay hungry stay foolish 2 学习,思考,实践,改变

0%

1 方案学习

1.1 赛题简介

题目:腾讯效果广告采用的是GSP(Generalized Second-Price)竞价机制,广告的实际曝光取决于广告的流量覆盖大小和在竞争广告中的相对竞争力水平

其中广告的流量覆盖取决于广告的人群定向(匹配对应特征的用户数量)、广告素材尺寸(匹配的广告位)以及投放时段、预算等设置项。而影响广告竞争力的主要有出价、广告质量等因素(如pctr/pcvr等), 以及对用户体验的控制策略。

阅读全文 »

1 例子引入

医院A和医院B哪个更好?

医院A最近接收的1000个病人里,有900个活着,100个死了。

医院B最近接收的1000个病人里,有800个活着,200个死了。

粗略的看起来A的存活率更高,也许A更好。但是如果考虑更细致的重症病例存活情况呢?

病情 死亡 存活 总数 存活率
严重 70 30 100 30%
不严重 30 870 900 96.7%
合计 100 900 1000 90%
阅读全文 »

蒙特卡洛法

随机抽样

统计学的目的是基于数据对概率分布的特征进行推断。

蒙特卡洛法要解决的问题:假设概率分布的定义已知,通过抽样获得概率分布的随机样本,通过得到的随机样本对概率分布的特征进行分析。

几种抽样:直接抽样,接受-拒绝抽样(先按照建议分布的概率密度函数 $q(x)$ 抽样,建议分布需要满足对任一$x$ 满足 $cq(x) \geq p(x) $,再按照 $\frac{p(x^{\star})}{cq(x^{\star})}$ 的比例随机决定是否接受 $x^{\star}$),重要性抽样

阅读全文 »

1 点云介绍

点云数据是来自斯坦福大学的HDF5格式数据。HDF5 格式是用于存储和分发科学数据的一种多对象文件格式。可以用 HDFView 打开文件,查看数据。

1
www = 'https://shapenet.cs.stanford.edu/media/modelnet40_ply_hdf5_2048.zip
阅读全文 »

基本二分查找

1
2
3
4
5
6
7
8
9
10
11
12
 // 朴素的二分查找
long int binarySearch_basic(vector<int>& numbers, int target){
if(numbers.size() <= 0) return -1;
long int start = 0, end = numbers.size()-1, mid = 0;
while(start <= end){
mid = start + (end - start) / 2;
if(target == numbers[mid]) return mid;
else if(target < numbers[mid]) end = mid-1;
else start = mid+1;
}
return -1;
}
阅读全文 »

数组中重复的数字

思路1:排序,然后比较当前个与下一个是否相同,相同则为重复元素。

思路2:一遍遍历,hash表将数组元素存起来,每次判断是否在hash里出现过。t:O(n),space: O(n)

思路3:题目限制得比较死,数字在0~n-1的范围。所以可以采取书中的特殊交换解法。交换有限次即可找到,因此time O(n)。

阅读全文 »

目录说明

根目录下:

train.py用于点云分类训练

provider.py 用于点云的数据预处理(旋转,抖动等)

evaluate用于评估训练结果。

其他目录:data目录下存放用于训练的样例文件h5,test_files与train_files中列举的用于训练及测试的文件路径。log 存放的是训练结果,默认情况下只存放最近一次训练结果。models存放的是模型文件,pointnet_cls.py(POINTNET)和pointnet_cls_basic.py(baseline模型)中的MLP是分类模型结构。pointnet_seg.py是点云分割模型网络;transform_nets.py为原始点云对称变换以及特征变换,即论文中的T-net网络。

阅读全文 »

1 论文中实验

1.1 点云分类classification

数据集:ModelNet40,12311CAD模型,40个类别,9843个训练,2468测试。

我们根据网格区域对网格表面上的1024个点进行统一采样,并将其标准化为单位球体。

数据增强:1,沿上轴随机旋转对象(随机旋转 or 旋转某一角度)。2,通过具有零均值和0.02标准偏差的高斯噪声使每个点的位置抖动来动态地增加点云。

阅读全文 »

1 Abs & Intro

点云是一种重要的几何数据结构(自动驾驶的数据),由于不规则性许多研究者之前用3D体素网络 voxel grids(体积CNN:[28、17、18]是在体素化形状上应用3D卷积神经网络的先驱。由于数据稀疏性和3D卷积的计算成本,体积表示受到其分辨率的限制。)或图片集合(将点云数据投影到二维平面,扩展性以及提取特征的表示能力的限制。)来进行识别,但这使得数据变庞大,引入了量化伪像,这些伪像会掩盖数据的自然不变性。

阅读全文 »

1 摘要简介

1.1 简介

GBDT的实现有XGBoost,pGBRT等。但当特征维度高,数据集size大的时候有效性还不够。主要原因在于对每一个特征,都要扫描所有实例并估计所有可能的划分节点的信息增益。

LightGBM提出的方法是:Gradient-based one-side sampling (GOSS) ,Exclusive feature bundling (EFB)。

阅读全文 »