Technique

推墙的多赢局面

March 15, 2011

今天上课的时候提到一篇Twitter论文,讲如何从tweets上迅速监测到地震的发生,考虑到网络传播之迅速以及六度空间的影响,通过网络来监测实时新闻是非常有效的。后来突然想到这其实就是一种网络监管,只是比关键词过滤要高级很多。听说今年维稳运算超过了军费,但显然有比网管等人力性价比更高的方法,那就是机器学习和数据挖掘。我希望接下来不会写成技术文,争取妈妈能看懂。

首先关键词过滤解决的是一个风马牛不相及的问题。以前有过一篇新闻,讲以色列机场的安检并非一个个人和包过扫描仪,而是通过机器学习来挑出潜在的危险分子(Human Factor)进小黑屋单聊。这样才对,用刀杀人找的应该是人,不应该是刀。建立和谐社会重点是找出那些潜在的不稳分子,该喝茶喝茶,该宅就宅,而不是大家都不要用某个词不要上某个网站了。这样最直接的后果就是新的词被发明出来,新的网站建立,墙越来越高,以至于高到飞檐走壁的人明显变多了。最近一篇Bloomberg新闻,大意是尽管墙越砌越高,facebook大陆注册人数却翻了一番。所以我们可以做如下图的假设,横轴是墙高,纵轴是跳出去的狗们,那么墙在高到某一个程度的时候,即使小博美也会急着跳了。因此在大约k的位置就不能再砌墙了,但随着飞檐走壁装备的普及,我们可以预测k还会一直变小,整个函数会往左移动。

GFW

所以,是时候运用现代科技了。在一个机器人都能答智力题的年代,用单纯的词汇表实在是笑死人了。发展科技不是嘴上说说,圈块地攒攒电脑,或是山寨一下别人的东西,是要靠自己的科研力量,况且我们的科研力量又不差,需要建立的系统又可以回归到近些年研究过的问题里。连肯尼亚都可以用手机付出租车钱,所以发展中国家不是借口,我们也应该在监管的同时让别人wow一下。

墙要推,词汇表要撕,接下来讲孟姜女哭完以后可以挖掘的两个方向。

一是预测,往简单说就是二分类,一个人稳还是不稳可以用各种模型来学习。好处有很多,快就不用说了,肯定比你管事的快,准确性也会好过单纯的词汇过滤。因为人能判断的很有限,很多时候都是表面现象,但模型却可以抓取潜在的因素(latent factor),包括文字内容呀,网络活动呀,各种链接啊等等,不仅如此,还可以随着时间进化。人可以很轻易地改动少量内容绕过词汇表,但想绕过一个机器学习的模型就需要改动很多东西,有些得不偿失了。但最主要的一点,有墙在哪来的数据?!要想钓鱼,总要先下饵,你都不让人说出来东西,那机器怎么学,人更学不了,所有人表面上都很稳。所以应该开放国外那些成熟的博客系统和社交网络,让大家多写多聊,写得越多分享得越多,测得越准,挑出来好去做思想工作。国内的各种山寨做得还是不行(尤其是博客),正好可以促进网络的整合,数据也更好爬。

二就是危机处理。遇上一个活动,大家想说你不让说,于是看起来天下太平。这跟那篇预测地震的论文一个意思,就是实时信息的捕捉,通过社交网络,我们可以很快地监控到某个活动发生了,然后找到有影响力的人去喝茶,做到扼杀在摇篮里。况且只要是活动就不能秘密搞,总有见天日的一天,而在见天日之前人一定多不起来,不然秘密绝对守不住。而见了天日以后我们通过网络结构,可以获取比一般情况下更多的信息,更快解决问题,平息事态。

为什么说这是一个多赢的局面。首先前面说的两个应用都是有助于建设和谐社会的。而对于搞这方面科研的人来说也是好消息,比军费还多,那得多少钱啊,给学校研究所们一点就感恩戴德了(因为不了解,就不评论学术腐败了)。况且这类研究并不是完全靠钱来刺激,我们写paper的目的就是不断找好的模型,打败以前的模型,于是政府会得到越来越好的系统,而我们也可以抱着中国网民巨大的数据嘿嘿傻笑了。

对于普通民众来说,说话不用整天想着换词,也不会页面永远无法显示。我当然赞同某种练功网站的屏蔽(不稳和傻是两个概念,实在不行可以多分类呗),但搜索历史事件就无所谓了,因为稳的人随便搜搜也是稳的,八卦一下或者发发牢骚还有利于身心健康,重点是当他进化成不稳的人以后就会迅速被挑出来小黑屋了。而且我们还可以跟外国友人联络,建立国民间友好关系,这同时也可以作为机器学习的数据来提高分类的准确率,多好。

当然也总是有人欢喜有人愁,网警要失业了,不过本来就不应该有这业,什么年代了。不稳的人也要愁了,因为会被挑出来,但没办法,本来你们就是目标,以前拉了全民给你们垫背,总不能一直垫下去。

政治之类的问题不在本文讨论范围之类。综上所述,我们可以得出结论,推墙且撕掉词汇表以后可以得到非常好的数据用来挖掘,不仅更加有利于建立和谐社会,还会让大众都有好处。

You Might Also Like

  • Fred March 16, 2011 at 12:49 pm

    这个还得考虑硬件设备的开销。虽说计算成本越来越低,可是网民人数众多呀,恐怕你得考虑把cisco收购了。

    • Si March 16, 2011 at 2:48 pm

      这个开销对于一个政府来说还是很小的

  • Aaron April 8, 2011 at 11:13 am

    我觉得privacy是个大问题啊, 这样做就是要把所有网民的活动全部抓取下啦咯.