Jib初识

原创 2018-07-10 18:34 阅读(232)次
什么是Jib 今天收到一条推送-----Google开源其Java容器化工具Jib,简化镜像构建全流程。出于对此好奇,我上github学习一下这新东西(之所以是新东西主要是我没听说过,当然搜索发现也鲜有资料) JAVA自出现以来最大的优点就是 "write once, run anywhere"。 主要就是因为他的字节码是运行在有统一标准的JVM上。JVM虽然不同(多种JVM可以看一下我之前的文章 JVM的种类 ),但他们都遵循相同的标准和约定对字节码进行执行,同时又根据所在操作系统和硬件环境,透明化的进行了底层调用。JVM  就是J...

K-means算法的优化目标和初始化要点

原创 2018-07-08 23:23 阅读(188)次
K-means算法的优化目标 K-means算法的原来我在上一篇 K-means算法原理 提到了。但具体实现还有几个要点需要注意。 K-means算法的结果很依赖于一开始初始化类别点,不同初始化点会得到不同的聚类结果,但全局最优解往往只有一个,其他的结果只能是局部最优解。 如何分辨全局最优解还是局部最优解? 这就需要一个判定的方法。这和分类,回归问题一样(最小化代价函数),需要找到K-means算法的最优化目标。 运行K-means算法中有两组重要的变量将会随着算法运行而不断改变,第1个就是每个数据点在每轮循环的时候所属于的类别,也就是每个类别暂时包含的数据点集合。第2个即...

K-means算法原理

原创 2018-07-06 21:31 阅读(114)次
  想到聚类算法,最出名的应该就是K-means算法了。本文从数学的角度来介绍K-means算法的原理 不过我上几周跟一位程序员朋友聊天,提到聚类,他不经意的回了一句,就是分类是吧。这不禁让我想起我初学机器学习的时候也是没搞清楚分类和聚类的区别。这里我们先明确一下两者的不同。 分类是监督学习的一种,也就是训练数据含有label,且label的名称(或者叫类别)和总数量是固定的,算法通过训练数据后得到模型,对新的未知label数据(预测数据)进行label的预测。 聚类是非监督学习的一种,训练数据不含有label,算法直接作用于预测数据,将其分为指定数量的类别,这里的类别没有已知名称,...

iptables概念(转自朱双印博客)

转载 2018-07-05 11:43 阅读(363)次
最近在学习LVS,找了这位朋友的博客,仔细阅读后发现文章很详细,图文并茂,是入门和复习的好材料,转载一篇过来,记忆模糊的时候温习之用。以下内容转载自:朱双印博客 | iptables详解系列:iptables概念 原文地址:http://www.zsythink.net/archives/1199 这篇文章会尽量以通俗易懂的方式描述iptables的相关概念,请耐心的读完它。防火墙相关概念 此处先描述一些相关概念。从逻辑上讲。防火墙可以大体分为主机防火墙和网络防火墙。主机防火墙:针对于单个主机进行防护。网络防火墙:往往处于网络入口或边缘,针对于网络入口进行防护,服务于防火...

JVM的种类

转载 2018-06-30 14:46 阅读(146)次
    JVM的种类 转自 CSDN, https://blog.csdn.net/lxlmycsdnfree/article/details/69286099 作者:lxlmycsdnfree 如有不妥,请联系我删除,我删除掉了一些太冷门的内容,补了我的一些废话,见谅。 JVM是JAVA虚拟机,有固定的标准规范,各家厂商只要遵循这个标准,是可以实现自己的JVM。 HotSpot VM 现在常见的都是HotSpot VM,因为他是最常见的JDK(Oracle / Sun JDK、OpenJDK)都使用的VM。而绝大多数java coder都使用这两种JD...

hadoop3 新功能yarn service初探

原创 2018-06-29 11:26 阅读(220)次
最近浏览最新版的hadoop 3.1.0,发现一个有趣的东西,YARN service。看来hadoop的团队也意识到mapreduce的没落,转而发展自己的强项了,甚至还结合了docker。 YARN service 由几个重要的部分组成 Service Framework (ApplicationMaster) on YARN 本质上这是一个ApplicationMaster,他负责根据用户提供的服务定义,从ResourceManager请求containers,并根据placement 策略启动容器。另外他需要做繁重的任务: 1. 解析并执行服务定义和配置 2. 管理容器的生命周期,如自...

FastDFS的原理和应用场景

原创 2018-06-28 11:25 阅读(129)次
FastDFS的原理和应用场景 FastDFS 是一个 C 语言实现的开源轻量级分布式文件系统,作者余庆(happyfish100),支持 Linux、FreeBSD、AID 等 Unix 系统,解决了大数据存储和读写负载均衡等问题,适合存储 4KB~500MB 之间的小文件,如图片网站、短视频网站、文档、app 下载站等,UC、京东、支付宝、迅雷、酷狗等都有使用,其中 UC 基于 FastDFS 向用户提供网盘、广告和应用下载的业务的存储服务 FastDFS 与 MogileFS、HDFS、TFS 等都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 应用场景:HDFS可能大家更...

从架构特点到功能缺陷,重新认识分析型分布式数据库(转)

转载 2018-06-26 18:16 阅读(113)次
最近阅读了   海边的Ivan   在  架构文摘   公众号上对几种分布式数据库的研究,结合我以前用elasticsearch时候遇到的并发问题,有种茅塞顿开的感觉。文章结构清晰,这边转载过来作为自己个人学习,原文地址   https://mp.weixin.qq.com/s?__biz=MzIyNjE4NjI2Nw==&mid=2652560761&idx=1&sn=6347d8e4f10d49c93aa589429e9fc9b6,如有不妥,请联系我删除。首先还是感谢作者lva...

linux一次性删除过多文件的方法

原创 2018-06-25 16:56 阅读(135)次
linux 要用命令行一次性删除某个目录下的文件,一般是用rm -rf ,如文件太多,会报参数过多无法执行。 这里提供一个小技巧。 可以用find通过找出早于多少天前的文件删除。如下13天前修改的文件删除 find ./ -mtime +13 -print|xargs rm -vf 这样做就能避免文件过多报错的问题。 如果只是要删除13天前那一天的文件,去掉+号。 特别注意:这个13天前会精确到时分秒,也就是执行是2月15日 18:05,则2月12号的18:05前的文件被会被删除。18点06分以后的还存在。 本文我原来写在csdn,现在搬到自己的空间来。

SMP、NUMA、MPP的区别

原创 2018-06-25 16:00 阅读(128)次
在计算机技术发展上,从系统架构上可以分为3种, 1.   对称多处理器结构 (SMP : Symmetric Multi-Processor)  2.   非一致存储访问结构 (NUMA : Non-Uniform Memory Access)  3.   海量并行处理结构 (MPP : Massive Parallel Processing) 这里参考 cnblogs的一篇文章来对这3种架构做出区分。原地址:https://www.cnblogs.com/nucdy/p/6011103.html 同时我通过对此博...
MPP

OLTP和OLAP

转载 2018-06-25 01:48 阅读(106)次
联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)是常见的数据库分类。实际上就是对应了传统关系型数据库和数据仓库。 OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易,也是传统意义上的数据库的增删改查。 联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。  这里参考了 https://blo...

概率和贝叶斯公式推导

原创 2018-06-14 17:18 阅读(139)次
概率和贝叶斯公式的推导 其中一部分来自知乎猴子的文章 https://www.zhihu.com/question/26895086/answer/224503078 https://www.zhihu.com/question/27462939 和  http://blog.chinaunix.net/uid-26548237-id-3853399.html   这个也是转载的,不过原地址文章图片有部分无法显示了,所以我还是注明是chinaunix这个地址吧。 我们经常会在生活中听到这句话:选择比努力更重要相信。你也无数次听过这句话,但是有没有想过:这句话背后的...

Flink基本概念

原创 2018-06-09 10:51 阅读(136)次
Flink基本介绍 Flink官网入口在介绍flink前,先介绍了数据集模型和执行模型。我想这里主要是为了跟spark做对比。 数据集类型有两种 有界,不变的数据集。 无限,持续追加的数据集。很多时候认为是有界的数据其实是无界的,比如服务器上的日志,每天变动的股票市场交易,用户对互联网的访问,正在来临的物联网时代的传感器信息。 执行模型也分为两种: streaming:流式处理,连续的,一条条的处理到来的数据 batch:处理有限的时间段内数据,完成后然后释放资源 这两种执行模式都可以应用在有界或者无界的数据集上,虽然未必是最好的选择。现在大名鼎鼎的spark streaming就是使用bat...

hadoop2 yarn的流程(转)

转载 2018-06-08 00:53 阅读(115)次
最近复习hadoop,在CSDN上看了一篇介绍yarn的,很清晰,转载过来自己留着复习看 原地址:https://blog.csdn.net/zmx729618/article/details/73321316 .1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1.2 Y...

传统程序员要不要转行到AI?(转载AI研习社)

原创 2018-06-07 16:40 阅读(130)次
最近看CSDN的AI公众号阅读了这篇文章,感同身受啊,去年我在学习机器学习算法时候遇到的数学困难,同事建议的直接从编码上手放弃原理研究等等的纠结。这些问题仁者见仁智者见智,我个人还是喜欢从原理研究器,磨刀不误砍柴工。 我转载过来,如果不合适,请联系我删除。 本文作者章华燕, 金桥智慧科技算法工程师 原地址   https://717210.kuaizhan.com/48/55/p4466785381a7fd 前言近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。所有的互联网公司,尤其是 Google...

(转自CSDN)深度学习入门必须理解这25个概念

转载 2018-06-06 21:34 阅读(101)次
最近在一个公众号看到推送了这篇文章,写得还是通俗易懂的,如果有基础的小伙伴看起来应该很不错,我觉得用来复习巩固知识非常合适 我联系博主,还没回复,容我转载过来自己时常复习。如有不妥,请联系我删除。 原文地址:https://blog.csdn.net/pangjiuzala/article/details/72630166    作者 Star先生神经网络基础1)神经元(Neuron)——就像形成我们大脑基本元素的神经元一样,神经元形成神经网络的基本结构。想象一下,当我们得到新信息时我们该怎么做。当我们获取信息时,我们一般会处理它,然后生成一个输出。类似地,在神经网络的情况...

eclipse远程调试jetty

原创 2018-06-06 21:30 阅读(99)次
把多年前CSDN的文章搬过来。这是我原创的网上找了很多,发现有的人写几句就完事了。自己操作的时候一直不通。今天花了大半天,从无到有确认通了,决定把他记下来。我用的是 eclipse luna +  jetty 9.远程调试主要是解决本体DEBUG正确,远程缺出BUG的情况。还有一种情况是作为接收端,因为在内网,无法调试接口而需要将接收端部署到外网服务器上这种情况。首先是在jetty下加入启动远程调试的参数 -Xdebug -Xrunjdwp:transport=dt_socket,address=10000,server=y,suspend=n。这句很多帖子都写了。问题是加...

最优化方法入门(一)

原创 2018-05-30 00:36 阅读(123)次
一直很不明白为什么招机器学习岗位都要求研究生以上的学历。笔者面试过很多人,也遇到过一些名牌大学高材生和研究生,发现在软件开发方面其实这些人并未必比一些培训机构出来的小伙子更适合。因为他们中的本科生很可能也是在大学中虚度光阴(基本都是哈,因为重点大学牛逼的都去考研考博了),而研究生为了考研确实在数学上下了一些功夫,但或许因为为了考得上,还要把很多精力放在政治,英语等科目上,在软件开发方面说实话并没有什么实战经验,甚至存在浑水摸鱼的情况,要价还很高。不过直到我在学习机器学习的时候,发现数学的重要性后,认为研究生(我指确实认真读书的那些研究生)确实有一定优势,基本就是数学和英语方面。而最优化理论又是...

一致性问题和共识算法

原创 2018-05-24 10:50 阅读(119)次
随着单机(单服务器),分布式已经是现在的主流。但分布式一定会遇到一致性问题。 所谓一致性就是分布式环境中的各个节点在一段操作后,使得他们对处理结果都保持一定程度的一致。这里的一致性分为不同级别,但总之只有满足一致性,对外才能呈现为一个功能正常的,且性能和稳定性都要好很多的“虚处理节点”。 对于访问分布式系统的用户来说,他一般是无法选择具体访问某个节点,当然他也不应该关心需要访问哪个节点,他看到的一个服务,而这个服务具体背后的结构对用户是透明的。所以如果分布式系统没有一致性,用户多次访问被分配到不同的节点,得到了不同的响应,怕是没人敢用这个服务了吧,比如售票服务。 注意:一致性并不代表结果正确与...

CAP 的理解

原创 2018-05-22 18:23 阅读(147)次
brewer在2000年提出了CAP定理。这是关于如何构建高伸缩性系统(highly scalable system)时所做出的各种折衷方案的讨论。 我从我的理解角度去解释这个事情: 首先,最早的软件服务都是在同一台(只有一台)服务器上运营,包括服务和数据,这可能在十几年前还是常见的。但随着业务发展,越来越多的请求集中到了这台服务器上,服务器性能总是有瓶颈,而且单机存储已经被证明数据是不安全的。这时候人们只能用分布式的方式来扩展这个服务。 人们开始把程序和数据分开到不同的服务器上,就减少了单台服务器宕机带来的影响,也就是提高了可用性Availability。可用性可以无限接近100%,但无法达...
CAP

bias和variance 偏差和方差 的理解(转载知乎)

转载 2018-05-16 02:08 阅读(504)次
关于偏差和方差我看过很多的文章,大同小异,都是那4幅图(靶心),不过我在知乎上看到如下的解释到是挺形象的。我截取了一段,他其他部分分析的是具体机器学习算法如KNN,随机森林,初学者可以先忽略。作者:milter链接:https://www.zhihu.com/question/20448464/answer/339471179来源:知乎 1、引子假设我们有一个回归问题,我们搞到一批训练数据D,然后选择了一个模型M,并用数据D将M训练出来,记作Mt,这里我们故意把模型M与训练出的模型Mt区分开,是为了后面叙述时概念上的清晰。 现在,我们怎么评价这个模型的好坏呢?你可能会不屑地说,这么简单的问题还...

交叉熵(转载知乎)

转载 2018-05-14 17:07 阅读(171)次
我看了很多关于交叉熵和相对熵的帖子,大同小异,没有太多考虑入门水平的人的理解力。难得在知乎上看到这个回答,我觉得很棒,进行了转载。知乎关于交叉熵的回答有很多,我只转载的CyberRep答案。如果不能转载,还烦请联系我。 如果不知道什么是熵,要可以看看我这篇 信息量和信息熵作者:CyberRep链接:https://www.zhihu.com/question/41252833/answer/195901726来源:知乎讨论这个问题需要从香农的信息熵开始。小明在学校玩王者荣耀被发现了,爸爸被叫去开家长会,心里悲屈的很,就想法子惩罚小明。到家后,爸爸跟小明说:既然你犯错了,就要接受惩罚,...

信息量和信息熵

原创 2018-05-13 19:07 阅读(158)次
介绍信息量是为了介绍信息熵,而介绍信息熵是为了机器学习中常用到的一个概念,交叉熵。 先解释一下信息:信息是用来消除不确定性的消息。 信息量:顾名思义,表示信息多少,是一种量化方式,但信息是用概率来量化的。 一个消息中包含了几个事件,x表示其中一个事件,p(x)表示x这个事件发生的概率,这个概率一般是先验概率。 比如公司抽奖,将全体员工的工号写在乒乓球上,放入抽奖箱,老板抽取,公司员工共50人,那这时候抽中我的概率就是1/50。抽中任何人的概率都是1/50。 而信息量的公式       代入p=1/50 等于 5.6439 这时候有个同事偷放入了写有他...

tensorflow主要函数用法(持续更新)

原创 2018-05-13 02:20 阅读(103)次
tensorflow有很多函数便于神经网络的计算。本文将持续更新。 tf.clip_by_value tf.clip_by_value(    t,    clip_value_min,    clip_value_max,    name=None) 将tensor限制在最小值和最大值之间。修建了tensor 参数t ,主要用来避免数学上一些不应该出现的计算,比如分母是0,log0等这类计算出现 常见用法如下。v = tf.constant([[l.O, 2.0, 3.0], (4.0,5.0,6.0]]) ...

常见但不要滥用的优化机器学习结果的方式

原创 2018-05-10 11:50 阅读(104)次
机器学习的结果就是预测函数,或者叫做model(mahout里面是称之为model)。 当我们使用这个预测函数,不论是回归还是分类或者聚类,我们把新的数据传入到预测函数,多少还是需要人工判断一下预测结果的准确度的。当发现结果不理想的时候,一般可以从以下几个方面考虑。 首先,在极少的情况下,你可以把这个预测函数可视化,也就是画图展示出来。这有个苛刻的条件,你的特征项不能超过3个,否则3维以上的图形是很难画出来的。如果你有幸特征项是在3个以下,请尝试画出函数图,看看是否过拟合训练数据。 抛弃理想情况,更多的我们是要观察一下机器学习算法的训练数据是否合适。 首先看看训练样本数量是否足够,特别是多分...

监督学习的数据集的划分和模型的选择

原创 2018-05-09 17:41 阅读(134)次
对于监督学习中的训练样本数据,划分技巧是很重要的。 往往我们的划分是七三分,70%训练集,30%测试集。 但这并不是最好的。 因为不管是回归还是分类问题,在多次项 polynomial 的选择上有很多。在讨论过拟合问题中我们提到过,高次项过多是过拟合的一种表征,而都是1次项组成又容易发生欠拟合。 多次项如何选择呢。就需要数据集的划分出验证集来做验证。 数据集首先应该打乱顺序,因为一些数据可能存在递增递减,或者按时间段起伏的特点,如果在划分数据的时候是按顺序划分,很可能让每份数据差别很大。所以需要随机并按比例分。 其次数据集应该分为三分,60%训练集,20%验证集,20%测试集。 为什么会多出了...

docker 国内下载image很慢或者经常失败的问题(win10)

原创 2018-04-24 11:50 阅读(118)次
在国内连接docker外国的仓库经常会失败,遇到如下的错误 这种情况需要修改成国内的镜像仓库 win10下如下操作 右键选择docker for windows   -> settings  -> Daemon   将开关打开到Advanced 修改 registry-mirrors ,将国内仓库加入到数组中,注意每一个地址需要用双引号包含。 再次运行docker run程序,发现image pull 成功了。 本文完。

docker 后台 windows版和linux版

原创 2018-04-23 17:27 阅读(143)次
docker运行起来后是有个后台程序,win10下就是docker for windows.exe。 C:\ProgramData\Docker  是win10下的docker deamon的默认持久化配置的地方。 启动一些参数可以通过配置文件修改 在 C:\ProgramData\docker\config\daemon.json 内容参考如下,{ "tls": true, "tlscert": "/var/docker/server.pem", "tlskey": "/va...

windows 10 下安装docker

原创 2018-04-22 17:31 阅读(141)次
Docker for Windows 是一个windows上的应用程序,和Hyper-V虚拟化,网络和文件系统深度集成了。 在windows上运行docker就是要安装Docker for Windows。不过目前官方要求是win10 64位的专业版或者企业版。Docker CE for Windows(CE 是Community Edition) 可以运行在linux和mac上面的容器。 如果是其他系统要看Docker toolbox。我应该不会写关于win10外的安装方式,因为我是一个windows 10和linux(centos)用户。 我选择的是stable版本。 下载地址 ...

tensorflow安装

原创 2018-04-22 01:34 阅读(288)次
TensorFlow 是目前最好的深度学习框架吧,是开源的人工智能框架。 谷歌开源的。好吧,这个名气够大了。 有两种安装方式:从源码安装和基于python包管理器的各种安装方式。 tensorflow主要依赖是两个包,Protocol Buffer 和  Bazel。  Protocol Buffer 是用来序列化和反序列化的,主要是数据传递用。他序列化后得到的是二进制,反序列化的时候需要用描述数据格式的schema,好处是数据序列化后非常小,而且反序列化很快速,比 xml和json要高效很多。 Bazel是一个构建工具,类似ant,maven。tens...