During Investigating an Interaction, I Monitor a Motion;

While I Monitor a Motion, I try to Deduct a Direction;

After I Deduct a Direction, I may Conclude a Connection;

From the Concluded Connection, I can Accumulate a series of Actions;

for English version click here

for most updated version visit:

(最 近更新在这里)

(Cannot find download files? Try this.)

www.staroceans.net

www.staroceans.org
(amazon S3 permenant address: http://www.staroceans.org.s3-website-us-east-1.amazonaws.com/)


 

我有经三藏,

一藏谈天, 天上神物,只可意会,不可言传,故不立文字,闻道者,参心见性,久 而久之,必有应验。

一藏谈地, 地阔天方,岁去月来,于平淡无奇的琐碎之中领悟征途的艰辛,在浩瀚无 垠的星辰大海中有一颗没有留下轨迹的流星。

一藏谈人, 人海茫茫,心路点点,凡人凡事,见智见仁,于无 常的变化中见证 一丝若隐若现的永恒。

我的projects下载

上一个世纪的最后的日子 里。。。无痕的岁月。。。    

以前的杂记

 二 零零二
 二零零
 
二 零零
  二 零零
 
二零零
 二零零七

暗黑杂谈

杂 谈匝坛,杂弹砸坛,别家灌水,咱这砸坛。

wpeA.jpg (5636 bytes)

我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...

(日记太长了,我就把它们另 存在这里了)★★

视频在线  
这里是所有文件的下载列表

可能是世界上最优秀的政治讽刺电视连续剧 <Yes, Prime Minister> <Yes, Minister>

二零零八
二零零九
二零壹零

二零一一




十二月日  San Jose,冬天的晚上有时候很冷
生病了,美国不象加拿大细菌全部都会被冻死,所以,这里你会感冒,更主要是太累了,这几天太忙了,为了赶进度累坏了。
我希望达到的是这样自的:1。新加入的训练sample能够和之前的sample有同样的效果,adaboost给sample不同的weight破坏了这个可能性。2。新加入的classifier虽然没有之前的sample的训练要不受歧视。
adaboost达不到,训练的时候大家要一起作,历史数据不能保留下来的,所以不行。
所以,这两天我在设计自己的算法,不知道有没有效果,大概是脑子有受到了生病的干扰才开始有这个荒谬的想法,等到病好了就不会这样响了。
十二月日  San Jose,冬天的晚上有时候很冷
买了一个所谓的中国似的网络电视机顶盒tvpad,看一些中央电视台之类的电视直播和一些盗版电影库。看凤凰卫视让人非常的不舒服,它已经彻底的被中共收买为了共党喉舌,主持人说的话非常的让人不快,虽然我本人
也很讨厌奥巴马,但是他们讨论奥巴马的种种负面的时候让我更加愤怒,奥巴马成为美国总统只能归因于美国的自由民主制度之下人人都有出头的机会,而不是什么其他原因。
十二月日  San Jose,冬天的晚上有时候很冷
练习AdaBoost的模拟实现来帮助理解,计划作一些测试。
十二月日  San Jose,冬天的晚上有时候很冷
公司开圣诞酒会,很简朴的那种party,在美国你才知道中国的公司为了这些自事情花了多少冤枉钱。突然想起了我平常的心得,就是那种在走路上班路上的胡思乱想。人类的基本需求就是中国人口中的“衣食住行”,不过
中文很不准确,顺序高错了,应该是“食衣行住”。小时候,在毛爷爷的“仁慈的统治下”,总是吃不饱的,我记得我父母说我那个时候告诉别的叔叔阿姨我觉得最好吃的东西就是大米稀饭,的确,一个月一个南方籍贯只有三
斤的定量,所以,我的爸爸妈妈把六斤的大米熬成了稀饭给我吃,我和我妈妈一样讨厌吃面食,不像我爸爸他却因为小时候吃地瓜长大的总吃不饱所以反而喜欢面食能够填铇肚子。所以,我的童年时代就是人类社会的初级
阶段--“食”。后来开始上小学初中高中,遇到了改革开放,那个年代赚大钱的人听说都是倒腾服装,逢年过节,父母亲都要给买新衣服,因为每个人的财富似乎就是穿在身上的,每次买了一件新衣服总有人要羡慕嫉妒一
下,问一下多少钱在那个地摊上买的,那个年代卖衣服的小贩都很神气的,因为他们似乎是掌握的社会的财富,走南闯北,开口讨价还价之余还不忘了奚落一下你,为了害怕被小贩们嘲笑你的贫穷,你还要咬着牙掏出省吃
俭用的积蓄买衣服,现在的人们很难想象那个年代中国社会的富裕阶层都在大街上摆地摊的“个体户”?这个共产党统治下的畸形社会在某个时期就是这样的奇怪。这个时代就是所谓的--“衣”的阶段。一晃一晃又不知道多
少年过去了,我逃脱了共产党的统治来到了自由的土地上享受一个无产者应有的快乐。偶然间回到中国看了一下发现中国社会进入了--“行”的阶段,忽然一下子周围的人都有了汽车,人们整天谈论的就是房子,请注意,
这里要强调一下,中国社会现在仅仅到达人类社会的“行”的阶段,还远远没有接近“住”的阶段,因为大多数人根本买不起房子,买的起的人是很少数的,不要告诉我很多人都买了房子,因为那个靠“三代人”积蓄买房子不算
是你买的起,首先,是父母一代的积蓄给子女加上子女自己的积蓄再加上子女将来预期收入,也就是贷款的总和不代表社会收入达到了“住”的阶段,之能说明现在中国人的平均收入进入了“行”的阶段,能够买的起汽车了,
大概就是将近一百年前美国产业工人的收入水平,能够买一辆汽车而已。中国什么时候能够到达“住”的阶段呢?大概再过五十年赶上美国现在的水平吧。为什么说五十年而不是更少?简单的数学计算就知道了,现在的平均
贫困线下的美国人在中国都是中产偏上了,按照每年追赶十个百分点也要五十年,而且是保证美国不增长,中国不减速,没有捷径可言。其实,美国社会也大概就是人类社会的“住”的阶段,大多数人一辈子也只能买一栋房
子,一辈子的积蓄。那么你能够希望中国社会人人有房子买来住岂不是说明了“社会主义能够战胜资本主义这样的神话不是神话而是真话”?你不觉得很傻吗?如果你相信中国政府的“解困房”,“廉价房”,“廉租房”政策能够
实现岂不是说明中国的几十年前的“社会主义伟大实践是成功的”?那么当初为什么要“改革开放”?如果社会主义那一套鬼话能够当真我小的时候为什么缺衣少食?没有经历过共产党残酷的人都会天真的相信那些谎言。
听说周立波有一个关于“和谐”社会的拆文解字的说法,“和”字是一张嘴的”口“与一个粮食的”禾“,”谐“是一个每个人都能讲话的”皆“与”言“,意思当然很明显,无非就是人人都有饭吃,人人都有言论自由,多么朴素的”普世
价值“,但在中国现在的社会根本做不到。为了说明这个问题不如让我们仿照清朝的文人们出一个哑谜来让大家猜:”禾皆“。有了以上周立波的文字拆解你就很容易明白当今的中国社会统治阶级是怎么想的:第一个”禾“字是
”和谐社会“的”和“字的一半,只有”禾“没有”口“,统治者希望你既然都有了饭吃就不要再张嘴说话了;第二个”皆“字是”谐“字去掉”言“字的一半,意思也很明白,大家都能讲话是不可能的,人人最好都不吭声。这就是和谐
社会的真相。
十二月十日  San Jose,冬天的晚上有时候很冷
最近没有怎么写代码,结果导致智力下降,身体虚弱,失眠健忘,感冒喷嚏,等等症状不一而足。这个500分的题目居然做了一整天,感觉还是很沮丧的。
If each classifier is accurate and yet the various classifiers disagree with each other, then the uncorrelated errors of the different classifiers will be removed
by the voting process.
说的多好阿!订了去拉思维加斯度假的机票旅馆,难道不能够利用这个时间来读一些paper吗?
今天去修牙,因为没有保险花了150块钱,哎,美国的医疗真的是太贵了,穷人就穷在保险上。越来越觉得自己就是农民工进城,三无刃员。不过,我们是有理想的农明工。
wiki真的是一个好东西,所有的数学概念我都是在这里学习的。需要学习decision tree的原理。
十二月十三日  San Jose,冬天的晚上有时候很冷
logit function的确是很有用的数学工具,概率领域很多时候都是一个Model的猜测,世界是否是按照这个数学公式运转的有时候也不是很清楚,因为有太多噪音,有太多测量误差,无从判断,但是只要他有自我调节的
途径总能够是我们最大限度调整接近实验数据。所以,现在回过头来看adaboost选择指数误差就明白这是大家公认的常例了。
民间传说凤凰卫视的“阮次山”是这样自的:看长相是日本人,看护照是美国人,看名字是越南人,听说话才知道是党的人。此人逻辑混乱,条理不清,说话颠三倒四,翻来覆去,但是有一点很好,就是替党说话,拿人钱财,
于人消灾。
十二月十六日  San Jose,冬天的晚上有时候很冷
如果感觉incremental adaboost实在是太困难了,不妨缓一缓,从更简单的feature部分开始,也许到时候会有新的途径就自己显现了。那么回头看代码吧。
makefile里面的wildcard是dependency使用%,但是在执行的部分使用$*。
十二月十七日  San Jose,冬天的晚上有时候很冷
我觉得wiki的确是人类最伟大的互联网创举之一,另一个就是像google这样自的免费的搜索引擎,他是知识自由免费或者说低廉成本传播的媒介,这就是互联网的力量。我的数学基础的薄弱始终是我的困扰,但是经常可以
在wiki里面找到答案,这个odds ratio就是我之前想要表达的,我本来是想计算这个来测量两个随机变量的相关度的程度,因为adaboost里面的classifier我认为应该是完全独立才比较的有价值,意思就是说如果一个
委员会里面的成员都是维某个成员马首是瞻的话,纵然他们的weight很大也是没有价值的,因为之所以需要委员会而不是独断专行的目的在于主要决策者犯错误的时候能够依靠其他成员纠正,这个需要其他成员“独立”,也
就是说他们不会和主要决策者“同时”犯错,所以,测试他们之间的“独立性”应该是很必要的,但是好像没有人提过这个?应该是大家把这个当作了常识留给实现者自己判断,毕竟不是什么高深的理论,不明白这个道理的人也
就是我这个业余爱好者,也许在论文里面提一提不是显得掉价就是偏题,难为我们这些后进。
十二月二十二日  San Jose,冬天的晚上有时候很冷
在没有战争的岁月里,生命的意义变成了交配与繁殖。于是我们只能依靠战争的回忆来思索人生的价值。
在西北角是总部,三个无意义的首领在这里招募各自种族的战士通过传送门可以选择投入到东北,西南与东南的战区。东北是一望无际的大平原原本就是人族骑兵的好战场,西南是丛林与山壑是精灵族战士的天地,东南遍布
湖泊与沼泽是龙族驰骋的疆域。在各个战区淋淋散散的到处是我军与敌军的士兵,海陆空三军都有,成犬牙交错之态。
1.我一直听说思科对头华为的员工在公司打地铺睡觉,我现在觉得没有什么奇怪的,我现在就晚上赖在公司办公室。
2.你知道为什么中国很少拍科幻片吗?首先是科技的难度,科幻片肯定比古装片来的复杂。其次,是因为中国人不相信还有未来,没有人敢想象未来是什么样子,也不想去幻想。
3. 我在黑暗中摸索,毫无方向,突然发现了一个途径,adaboost最让人气恼的就是重新赋予sample不同的weight,这个使得你必须保持大量的sample,那么怎样避免呢?我觉得一个简单的办法不知道行不行,那就是
instead赋予weight不如减少hit的sample的数量,这样就实现了相对的权值的提升,明显的就是去除重复的sample,这个也符合人类的特点,我们并不是忘记一切的sample,一些经典的例子我们都记得,但是随着时
间的推移,我们只记住那些重要的,“重要的”的定义可以理解为“独特的”,“有代表性的”,也就是要Prune掉重复的例子,当然这个是针对“We”就是那个错误集合的。(我没办法写那个数学符号。)
4.金正日这个魔头死了,我也许是西半球最先知道的一批人,因为我的“stream TV”一直开着,我从半睡半醒中醒过来应该是半夜两三点钟听到凤凰资讯里说道这个混蛋死了,我当时也反映不出到底是金正日还是金日成,
反正都是混蛋。更加混蛋的是中国政府和世界上的仅存的几个混蛋国家总是混在一起证明了自己就是一个混蛋国家。
5.在洛杉矶的旅馆里等待航班能够上网其实还是不错的。看了一些金融时报中文网的文章还是觉得欣慰的,我觉得中国的问题实际上是有解决的办法的,就是人民已经觉醒了,一切都是有办法的,正如牛顿所无法解释的第一
推动一样,一旦跨越的一个临界点,不停前进是不可阻挡的。我们只需要作为观众观看人类发展史上的一个规模宏大的社会变革过程就可以了。
一月一日  San Jose,冬天的晚上有时候很冷
经过千辛万苦终于在新年到来之前回到了家,途中飞机延误滞留在洛杉矶一天,好热,昨晚等bus快一个小时,因为只有去oakland的飞机,第一次坐bart觉得挺方便的,其实就是城际火车,如果按照计划修到milpitas
那么去旧金山就方便了。这个是我这一段的想法的一个总结
我刚此在想既然adaboost本质上要求justifier尽可能要独立,(虽然算法本身能够用权值来剔除非独立的justifier)假如我们能够在新的训练数据到来的时候仅仅校验justifier的独立性不知道有没有用?或者校验
新的justifier的独立性?我的想法是,假如根本就没有完美的Incremental adaboost,只能是近似的,那么用独立性作为一个指标来决定权值也许是一个不错的想法,因为每个justifier的总的准确率是可以简单
记录下来的。反之对于已知的独立的justifiers我们可以反过来校验新数据的独立性,这个有点无厘头,我想说的数据本身的权值实际上反映了各个justifier的独立性,才暴露出了某些justifier的错误,体现了某些
justifier的正确等等。这些数据往往很有价值,我当初的想法是一个折衷,也是工程师的解决办法就是保留有价值的训练数据,这样新旧数据混合再提炼有价值的训练数据,视系统存储容量保存一个最低的训练数据以便
达到一个重新训练的incremental adaboost,这个想法从理论上来说不值一提,肯定被所有的研究者嗤之以鼻,但是也许是一个实用的解决办法,也很好实现,唯一需要考虑的是究竟什么是有价值的数据?也许我直接把
现有的adaboost里面数据权值高的保留下来,(把他们的权值当作概率分布来按比例提取?刚才写这句话就是不经过大脑的完全荒谬!)我想检验的标准就是保留的数据重新训练的结果不会改变之前训练得到的
justifier的权值就说明系统稳定了?就照着这个思路想吧。现在去排泄吧。
一月七日  San Jose,冬天的晚上有时候很冷
朝鲜在继续造神,伊朗继续研发毁灭以色列的核武器,欧盟继续研究怎样印钞票,美国继续研究怎样维持世界霸主,中国继续研究怎样维持现政权并同时继续享受维持现政权的快乐,我继续活着。
1。在与邪恶轴心作战的尝试中不断失败,因为在第8回合AI获得的200g是一个很大的冲击,本身我方三个统帅部的收入就是敌人的一半,在前面八个回合还勉强可以依靠兵力的调动在局部占到某些优势,当这一波潮水般的
敌人杀出来的时候对我方是一个迎头痛击,因为敌人在随后的几个回合里会获得8个超级骷髅大骑士,这是一种可怕的武器单位,可以在瞬间将我方的二级单位就消灭,因为他就是相当于我方的二级圣战骑士,强大的冲击力
完全没有抵抗的可能,当时在西线我军已经打到了运河边上,并且眼看着要取得阶段性的胜利了,但就在全歼敌人的那一刻仿佛Lords of Rings的The Return of King的围城之战中眼看Rohan的骑兵冲击的敌人七零
八落之际突然发现了天边令人毛骨悚然的巨象兵威风凛凛地杀过来一般,这是一个毁灭性的打击,我方身经百战的将士无一生还。东线的战况更加惨烈,由于指挥上的失误,原本认为东线我军尚有优势,因此迟迟不发救兵,
导致已经升级为二级的多个战将在敌人城堡前的某村庄被敌人包围,在与数倍与我的敌人作殊死的战斗后全部壮烈牺牲。统帅部对此要付全部责任,首先,孤军深入期望一举攻入敌人城堡必须要得到后方的援兵,否则就不
应当冒险离开根据地进攻。其次,当被敌方包围之初冒死突围尚可拯救若干主力,固守待援然援兵迟迟不发统统被调往西线抵抗,但是西线依然全军覆没,东线也因无援兵而本来可以打赢的胜利丢掉了。痛心疾首,痛何如
哉!
2。关于AdaBoost有如下看法:首先,从本质上看他是利用了各个classifier的相对独立性寻找一种线性组合来达到最大化,实质仿佛是类似于线性规划的解决线性方程组的办法。其次,从另一个角度来看,训练数据
可以看作是一系列的pattern,应该是代表了一个线性组合的概率分配,结合信息熵的概念就是如果所有的可能的组合都是平均分布的话,也就是熵最小的话是不可能找到任何结果的,就是因为现实的classifier肯定
是有比随机要好的结果才行的。再次,原算法把样本的概率分布加以改变来计算新的classifier的人选是一种寻找的方法,并不是目的,如果你能够解决线性方程组当然可以不需要,问题是解决这样的矩阵几乎是不可能
的,只有逼近,这是AI的传统办法,只要逼近的时候不会overfitting就可以了,不必太快。如果跳出原来的思维框框,假如你从样本里已经知道了概率分布,你能否找到一个最大值的线性组合?这就是一个一般性的问
题了,可能吗?并且样本的排列顺序应该对于结果没有影响,检验一下看AdaBoost是否如此?观察一下每个classifier在新的加入过程中的准确率的变化?
一月十日  San Jose,冬天的晚上有时候很冷
山中无日月。
其实,如果要减少存储就只能依靠计算来时时获得结果,这个还是计算机里面的时间换空间而已。比如我们不想存储所有的训练材料,那么我们就存储训练结果的概率分布,(但这一点本身就是很困难的,现实中的很多
classifier无法“认出”曾经出现国的样本,因为太多了,或者样本数目是近乎无限?)假如我们有一个理想化的样本空间,那么classifier的投票结果不过是一组向量,(只有非随机的向量才是真正的classifier)
那么使用向量在排列组合的序列号来记录,同时记录他的概率分布。(这个都是实现的参考选项,真正的难点还是实际使用过程中对象不可能是真正随机样本给我们的,实际中根本没有样本的概率分布这个概念?!!除非
你的问题是真正的一个随机过程,这不大可能吧?)用中文来说就是样本训练过程的样本的概率分布和实际检验过程中样本出现概率完全无关,我们是训练classifier不是简单的概率统计,所以,这个方法是行不同的。
保存投票的结果根本不是问题,因为无非就是一个bool的向量,我们说的是训练的sample,那个是实际的数据,可能非常大,可以是任何东西,我又犯了白吃错误了。不过也不能说我的想法一无是处,我们首先肯定投票
结果不可能是完全随机,一定有某种pattern,训练样本应该保证穷尽所有的可能组合,而且我们知道我们的算法不可能针对完全随机分布的结果或者完全相关的classifier,前者是瞎猜,后者是跟屁虫完全无帮助,
所以,投票结果肯定不可能是所有的排列组合都有,但是也可能很多,甚至这个假设是针对所有的Positive的sample,那么negative的sample是不可预测的分布,怎么办?
一月十一日  San Jose,冬天的晚上有时候很冷
究竟让一个logger工作有多么的困难?我花了整整一个晚上在debug这还是在之前已经对其有了很多了解的基础上的。第一次这么密集的使用gdb,发现其实挺好用的,前提就是你要对于代码有了相当的熟悉程度,否则
真的有些会迷失的。首先是logger有好几个不同的实现,大概是经年的累计和不同的目的,我一开始跟着sourceinsight走入了误区,又由于入口是一系列的macro让我迷惑了很久,只有结合看makefile才理解到底
是那个source在使用,其次,makefile里面既有动态库也有静态库,究竟使用的是哪一个呢?这个也是头疼的,只有看了真正的logger使用的macro才知道是用了静态库的那个logger的lib,同时系统正常运行的
时候的logger的server端应该是一个独立的进程,而你现在要作的是所谓的unit test,那么显然我们需要的不是另外独立进程的server的那个方式,实际的代码非常的灵活和多样,所以,我们需要logger的writer
和reader都运行在我们的进程里面的独立线程就行了。此外,logger可以使用pipe,fifo,socket,msgQ等等的渠道来书写给reader,不同的配置和代码操作有不同的选择,而最直接的需求是我们需要logger输出
在我们指定的位置,因为cisco的系统运行期写在系统目录下,在build server上每个人都只有有限的权限无法写,也不应该彼此覆盖,配置的方法又有环境变量和logger配置文件的选择。这一切都在这灵玲总总的代
码里,而且这个logger是一个多层次的oop架构,一个基础的抽象类(logbase)里面定义了基本的接口,并包含一个私有的线程类的基础类,在子类(logReader/logWriter)里面定义了基本的client/server
或者叫reader/writer类的基本接口定义和一些实现,在实际的孙子类(logReaderFifo/logWriterFifo)是一个使用fifo并用socket监听的实现类。我之前一直卡壳的就在这里,fifo是由reader来创建,并
监听writer的写入,可是如果你运行的时候让writer先开始因为打开fifo是同步的(o_sync)的结果就死等下去,要知道虽然reader/writer都是线程照例不会阻滞主程序,可是打开fifo却是在其线程运行之前,
这个我是gdb跟踪了好几遍才意识到的,原本以为是打开fifo之前的同步的semaphore没有初始化正确造成的死等,却没有意识到同步打开的阻塞。真是累人啊。而我都是参照系统原本代码的main里面的初始化过程来
的,可是令人疑惑的是ctms并没有去首先运行reader,后来我猜想肯定是因为logger在实际系统中是独立进程,这个多个进程的运行是在起始脚本里面设定的运行顺序。我都快绝望的时候才成功了。
只能说cisco里面能人很多,也许曾经很多,想法不可为不好,但是很多时候一个完美的软件不能有任何短板,框架再好使用框架的人也要有相应的水平才行,否则还是一样的糟糕。ctms是这一个群组的project里面
最简单的一个了,因为其他几个一起运行的项目比如cts/ctsman等等在我看来复杂的多,不论是网络协议上还是多媒体流的处理上本身就有很多困难的东西,但是就是这个最小最简单的ctms也有六七个独立进程,每个
进程里面有多到上百个线程,使用message queue/share memeory/socket/xmlrpc(类似从gsoap的简化而来的)等等多种进程间通信,我自认为对于这些还算有些熟悉却也发现闹了一个小笑话就是居然不知道
pthread里面的lock有一种允许recursive进入的,概念上还是window的mutex的,在函数套函数的调用下不停地上锁难道不会自锁吗?这就是威力的地方,我却没有意识到,看来很多高级的东西你没有到一定程度
你没有可能理解需要的。这样一个最小的工程需要至少四个人来维护conferenceManager,switching,media, callControl是四个独立的进程,还有若干额外的进程来辅助,我到现在其实对于sip的基本的
protocol都不很理解,因为这其实都还是callControl更多相关的,我负责的conferenceManager大概是最浅显的因为不需要多少的pre-request,大部分是逻辑,但是却也是四个中间最乱最复杂的,因为比如
callcontrol甚至主要就是一个statemachine,应该更容易维护,测试也可以系统化,switching据说主要的一个topology的解决都已经使用了大量的自动测试,media也使用了一个模拟器来自动测试,唯独
这个feature不断添加的manager是太多的人为的东西,非常的不规范,代码其实有乱有低级错误,大家都懒得修定,统统是有漏补漏,惜字如金,我也经常尝试怎样让code diff最小化,这简直是rediculous!
一月十五日  San Jose,冬天的晚上有时候很冷
世界上更加痛苦的是之后的两天里我居然无法再正确产生Logger使用gdb跟踪到半夜十二点也不知道为什么,过了两天实在是无法解释,只能怀疑有编译的问题,让我捶胸顿足的是当初没有及时备份!这个是让我多少次
悔恨的事情了!
昨天骑自行车到旧金山,其实是骑自行车去火车站搭乘caltrain,来回共计火车3个多小时,自行车两个小时,总共在旧金山火车站附近呆了一个多小时在wholefoods吃了一个$7.99/lb的健康buffet,这一顿晚餐
可真不容易,事实上是我当天唯一的一顿饭,晚上在路上火车被大群的足球迷劫持了,耽误了半个多小时,车厢里人都挤满了,我在的是bike car本来下层就是放自行车的,结果全都挤满了人。到了santa claura
还真是冷啊,因为我只穿了一件自行车套装,上衣薄如蝉翼,自然冷的够呛,回到家喝了好多的sake才觉得比较诗意。
1。adaboost的确是一个linear programming的问题。早在二次大战我们伟大的先驱,包括冯诺伊曼,就奠定了他的基础。(佩服的五体投地,涕流满面!在听算法课的时候就听说过这个,再次表达无比的敬意!)
2。所谓训练的真正目的是获得以上linear programming的matrix,本质是取得两个东西:a.各个classifier的可能的结果的排列组合。b.以及这些组合的相应的概率分布。
3。世界上没有什么真正的所谓的unsupervised learning,本质上都是要有supervisor来校验之后才能用于training。
4。Incremental learning应该分为两类:a.new classifier。 b. new training sample。前者其实有些复杂,我觉得只能是假设之前的训练的sample和当前new classifier兼容,包括数据一致,并
且其概率分布也要一致。在这个前提下把新的classifier的训练结果和旧的训练结果进行合并。后者也是如此,我们是否可以假设新的训练sample的数据和之前的一致?如果是,其概率分布是否也是一致?
但是从实用的角度看问题,所谓概率分布本身就是一个假设,存在就是合理的,既然发生了就代表了它的概率。你不能因为铁道部的报告说高铁技术可靠发生追尾事故的可能性非常非常的低以至于实际不可能就相信这
个只存在于铁道部报告里的概率就是实际发生的概率,当事故发生了你再去想象看是否证明了概率错了还是事故发生本身错了,是人为的还是天灾?
一月二十日  San Jose,冬天的晚上有时候很冷
有几点要修正呢?首先,概率分布不代表线性方程组的右边,我有一个错误的离谱的认识,以为权值可以在线性方程组的右边可以体现出classifier的一些特性,我觉得权值更好像是要体现出当前委员会的vote的
confidence而已,这样自,就和原来的adaboost没有什么区别了。只不过我允许合并同样的方程为一个而已。
我打算放弃使用linear programming的解线性方程组的工具,因为实际问题是一个优化的问题,很可能没有解,我怎么能够期待委员会永远都有正确的选择呢?adaboost似乎是一个万能的类似fitting的工具
算法,总是在接近完美的解决,所以,这才是他的价值所在,否则早就有了那些解线性方程组的算法为真么不用呢?当然是不能用了。
转了一圈又回到了起点,难道都是白费时间吗?当然不是,我认为对于adaboost的本质有了自认为是深刻的认识,明白了他的强大与限度,这难道不是可以安慰的吗?同时我以为对于incremental的方向也有了更
明确的理解,抽象的看待一切classifier其结果都是一样的,就是一个抽象的矩阵,所谓Positive和negative只能是相对的,就是说从抽象的结果来看只有那些完全不同于positive的矩阵的才能被否定,否则
只能期待新的classifier的加盟,(当然如果我们把每个classifier也引入信心指数会有些帮助吧。)我们不愿意全部储存的是sample本身而不是sample的结果,因为一个矩阵毕竟没有多么的大。
一月二十四日  San Jose,冬天的晚上有时候很冷
有些事情是只有一个人衰老之后才能开始明白,比如《魔戒》的含义,一个强大的戒指代表着权力与财富,可以使得拥有者所向披靡却又在铸造的开始就被它的铸造者蕴含了毁灭佩戴者的阴谋,这是多么大的讽刺,而
佩戴者不论是人类,精灵,矮人还是邪恶的本原Modur都会导致自我毁灭,唯独在渺小的软弱的horbit族手中权力欲望被harness了,被束缚了,一个weak body but strong mind的组合,没有野心,没有贪欲
从而不被魔戒所驱使,并不是说佩戴者本身不受诱惑不受煎熬,而是佩戴者的弱小与无辜导致了他不会参与到权力与财富的角逐,这是一个自然界奇妙的平衡与对称,人类社会在某些最强大的社会里也有这种体现,强
大好似美国最高权力却往往掌握在一些与世无干的最高法院大法官与夸夸其谈的参议员手里,这如果不是高等级智慧设计的体现整个社会早就分崩离析了。
我觉得我经过两个月时间已经理解了adaboost的本质,所以,可以回到feature来了,相比较adaboost的单纯,这个feature部分往往是一个系统的核心,因为他决定了整个系统的成败,仿佛adaboost是领导
者而feature是其属下,再智慧的领导者遇到了一群无能的部署也是无能为力的,当年诸葛孔明不也是慨叹回天无力吗?
feature是一个非常大的topic,怎么定义,怎么发现,怎么识别?这些问题合在一起笼统称为feature实在是太泛泛了。也许需要一个月不到的时间,为什么?难道比adaboost还要少时间?因为这个问题是很具体
的方法,很多时候是代码级别的工作,数学不够,难道看代码还会有困难吗?(这本身听上去就可笑,但事实也许就是这样自的。再怎么高深的数学问题的计算机实现还不是变量循环?)

知道蒙特利尔的天气吗?看这 里。  

   

mymail.gif (26956 bytes)给坛主写信