python中的编码问题

在写python程序的时候常常会因为字符编码问题而出错,尤其是在读取文件的时候,一般需要按照文件本身的编码来读取,否则非常容易出错,一般我们在python代码的第一行都声明编码方式为utf-8,

1
# _*_ coding:utf-8_*_

阅读更多

kaggle经验

最近参加了kaggle的一个比赛,看了好多关于数据处理,特征分析以及集成学习的一些内容,这些都是数据挖掘大神总结出来的经验,在这里总结一下我的收获,以及谈一下我自己的一些想法。

参加数据挖掘比赛一般要从以下几个方面着手:

数据探索与预处理

所谓数据探索就是利用各种图表直观地观察各种分布情况,从而为接下来的数据预处理提供一个预处理的方向。

阅读更多

Cython简单介绍

简介

前一段时间想自己实现并改造因子分解机,libfm的源码是用C++写的,虽然高效但是代码的可读性较差,而python虽然有较好的可读性,而且python有方便的科学计算工具包,但是python本身的运行效率不太高。幸运的是,由于python的胶水语言的特点,有很多将python与C等相对效率高的语言结合起来的方法,由python做前端计算,而C等做后台计算。既实现了提升速度的目的,写起来又简单。

阅读更多

kaggle 入门

这里以Kaggle上的一个入门竞赛House Prices 为例

阅读更多

xgboost 常用参数

XGBoost 的参数

一般参数

    阅读更多