编写机器学习的训练程序时,怎样处理10万个以上的样本?

有个Online Passive Learning适合高维的训练。Online的训练是流处理,每次处理一个,对内存要求很低
■网友
32位的Windows程序可用内存默认情况下为2G,实际可用堆空间最大约1.9G左右。1.25G的数据如果你的程序没有其他地方大量使用内存是可以读进去的。可以分段读取文件,用一段读一段。不要一次性全部载入内存。如果觉得硬盘IO速度慢,可以使用内存文件映射。将整个文件放入内存,需要用哪一段就将这部分映射到程序的地址空间中。总之,对于大型数据处理的话,最好是组织好数据,然后分段读取。或者干脆换64位系统,多装几条内存。
■网友
《Matlab N个使用技巧》这本书的第12页有很多内存的优化配置,题主可以试试。


    推荐阅读