在机器学习项目实践中工程师需要花费大量的时间进行数据的预处理,但是这些工作在不同项目之间又有很多共同的内容,因此把这些内容提炼出来形成通用的方法就能节省大量的时间。另一个问题是无标签聚类能否像分类和回归那样有一整套成熟的方法来规范我们的分析呢?sci-kit learn没有有效地解决这个问题。如何一次绘出多个图形又能最大限度地减少参数设置呢?图形参数调整需要一次次的试。mltools工具包把工程师每天都遇到的这些问题都解决了。跟着文档和例子一步步地学习,我相信,你的分析能力一定会上一个台阶。
之前写过一篇 使用 jsDelivr 免费加速 GitHub Pages 博客的静态资源,在那之后,又陆续想到并实施了几点利用 jsDelivr 进一步加速静态资源加载的措施,新起一篇作为记录和分享。
我们可能都听过一句话:
挺久以前就有网友给我的 GitHub Pages 博客模板提 Issue,说希望能增加 CDN 用于加速静态资源的加载,由于懒,一直没有动。
Tapd 是腾讯提供的越来越完善的项目管理工具,Gitee 是国内相对比较稳的代码托管平台。本文记录了让 Tapd 的源码关联功能支持 Gitee 平台的方法,及摸索过程中遇到的问题的解决步骤。
拉格朗日插值
为部门内知识分享准备的素材,记录了 Markdown 的优点、应用场景和编辑工具,介绍了标准语法与扩展语法,以及一些应用 Markdown 的奇技淫巧。个人使用 Markdown 的经验持续补充中,最新完整版请参见
从业以来主要在做客户端,用到的数据库都是表结构比较简单的 SQLite,以我那还给老师一大半的 SQL 水平倒也能对付。现在偶尔需要到后台的 SQL Server 里追查一些数据问题,就显得有点捉襟见肘了,特别是各种 JOIN,有时候傻傻分不清楚,于是索性弄明白并做个记录。
自从几年前开始在 GitHub 玩耍,接触到 Markdown 之后,就一发不可收拾,在各种文档编辑上,有条件用 Markdown 的尽量用,不能用的创造条件也要用——README、博客、公众号、接口文档等等全都是,比如当前这篇文章就是用 Markdown 编辑而成。
Update 2018/05/01: GitHub 官方已经支持自定义域名启用 HTTPS 了,见 https://blog.github.com/2018-05-01-github-pages-custom-domains-https/
mltools is a set of machine learning toolkits extracted from actual projects. Its main goal is to speed up data exploration, data extraction, data cleaning conversion, and model training, allowing machine learning engineers to focus on data analysis and model selection and evaluation.
温州大学《机器学习》课程资料(代码、课件等)
UnsupervisedSpectralClustering and FeatureSelection. Handle the orginal data and feature select by LS and SPEC, meanwhile, generate the cluster heatmap, feature score heatmap and cluster plot and so on.
UFS is an unsupervised feature selection algorithm.
A Python Automated Machine Learning tool that optimizes machine learning pipelines using genetic programming.