当前位置: 过滤机 >> 过滤机介绍 >> 一览群智胡健先成为头牌,再造AI软件生态
文
李夜
人工智能技术怎么解决问题,怎么落地行业,如何实现商业化?
每一个AI公司都无法回避这三个问题,尤其在资本寒冬的背景下。私募通数据统计显示,上半年共有支基金完成募集,同比下降47.2%,新募.56亿元,同比下降19.4%。上半年,中国股权投资市场投资案例数为起,投资金额为.91亿元,分别同比下降39.1%和58.5%。同时,平均投资额下降至0.94亿元,同比下跌25.4%。新冠疫情之下,若年的数据公布,只会更惨。
“在整个资本寒冬的情况下,大家更看重你是否有这样的能力去赚到钱,去商业化。
这就倒逼AI公司的短期目标和长期目标必须统一兼容。尽量把产品商业化到客户那里去,以客户为导向。”一览群智CEO胡健告诉i黑马黑智,“有技术同时又有商业化落地能力的公司,能够活下来。这种公司最终将得到资本青睐。瑞雪兆丰年,活下来的、熬过这个冬天的公司会得到更多资源,而且发展得更好。”
但落到每一个具体决策上,如何实现短期目标和长期目标的统一和兼容?如何在限制之下做决策?
胡健认为要从公司本身出发,不同阶段的公司优先级是不一样的。几年前,AI公司融资很容易,“资金很充裕”,应该跑马圈地。现在,AI公司被呼唤回归理性和商业本质。这意味着,商业公司要做出选择,第一选择一个有痛点、有钱且有成长空间的市场。“市场选错了,就像男怕入错行,入错行,再怎么挣扎,你也不会是一条大鱼。永远是条小鱼。”
其次,找到市场切入点,把事情做完。把事情做完之后,再考虑人效和标准化程度,看看能否复制。回归商业本质,核心问题是“你要有收入和利润。”“不同阶段,优先级不一样。可能在某一阶段,你可以先做收入,但长期来看,还要做利润。”而持续的利润和更高的收入需要决策者做出截然不同的决策。比如一个年营收10亿元的公司做一两个行业或许就可以了,若要做成百亿营收,则需布局更多的行业。另外,高利润对于核心竞争力提出更高的要求。
“创业是一个非常动态的过程。”胡健说,“不同阶段,侧重点或者调整参数是不一样的。”
(一览群智CEO胡健)
产品设计与认知智能
年11月,一览群智成立。创始团队在微软亚洲研究院有着深厚的技术实力积累以及场景挖掘能力。首席科学家文继荣在一次在采访中表示,“我自己一直在做互联网大数据,有时候觉得干嘛自己不做一个公司。不去试一试太可惜了。所以和朋友创立一览群智,对我来说,还是比较自然的。”
有媒体将一览群智比作“中国版Palantir”。文继荣认可这一说法,但强调一览群智更看重技术,有更为深厚的AI基因。一览群智用智语、智慧、智图和智策,构建了从感知、理解到分析到决策的闭环。一览群智为什么打造这四大产品?背后的逻辑是什么?
有一点可以肯定的是,这四大产品不是一览群智团队拍脑袋拍出来的,而是他们在解决问题的过程中,发现这几个产品是必须要有的。比如数据,一览群智做银行场景、政府场景的时候,发现最大问题是数据的信息化程度有限,“70%以上的数据都是非结构数据。”解决问题,先过非结构数据这道关,否则分析和决策就无从谈起。
如何处理非结构数据?在公安场景,一览群智如何从一堆文档里抽取出人、地、事物、组织、机构、案件等最重要的信息?这需要先定义,再构建不同的信息抽取工具,才能从大量的非结构化数据中抽取所需要的信息。其次,抽取的信息还需与已有的结构化数据融合在一起。因为两数据的信息密度是不一样的。非结构化数据,准确度低,需要被清洗。
这个过程,会碰到消歧问题。还会遇到图数据库的问题。比如大学毕业生小陈将户口从A市迁到B市,数据库里需要加一条新的籍贯信息。但是传统数据库无法支持新字段随时加进来的情况。但图数据库可以,图数据库还可以做关系性推导,推导出不同的人之间的关系。“我们发现,某种程度上,它跟知识图谱的概念、推理关系是一致的。我们需要一个知识图谱的构建工具,所以有了智图。”胡健说,“解决了抽取问题,把非结构化数据结构化。图数据库加上知识图谱解决了构建问题,然后人机协同,帮助决策。”
总的来看,一览群智,基于自然语言处理的知识挖掘、文本挖掘平台,将大量非结构化数据转化为结构化数据,基于结构化的数据,构建人、地、事物、组织之间的关系知识图谱,提供人机交互的可视化分析引擎,让知识与人直接衔接,最终与行业场景衔接,打造行业决策引擎。
而这背后更大的技术逻辑是人工智能即将迈入认知智能技术时代。一览群智团队认为,未来是增强人工智能,是人与机器协作。“利用机器超强计算能力、存储能力、加上分析推理能力,与专家经验衔接来创造价值。”胡健说。
动态变化的产品化率
目前,一览群智的产品化率约为70%。这意味着一览群智需要针对不同场景下的不同企业做定制化的调整。“,初期,我们跟用户A共创,A提了十个方向,根据通用性与痛点,我们选择几个方向,把产品做好,然后拿着这个产品从A卖到B、C、D,这个过程中,定制不断减少,定制化程度不断降低。”
比如在银行场景,一览群智找到的一个大的、通用需求是审单。审单产品可以用于国际结算审单,外汇审单,票据审核等。随着审单产品落地越来越多的场景,该过程是一个不断完善的过程,“越到上面越贴近用户,越丰富,越往下走,不断地抽象。”
胡健提到,一览群智聚焦在某些行业的、具体的产品和解决方案里,其目的是尽量减少客户的定制化需求。这是从落地可行性的角度去考虑的。“每次去用户那里都要定制30%。其实,难度很大。为什么?这不是30%的难度问题,而是对于行业的理解问题,我们要花很长的时间去理解客户的行业,要花很长的时间去帮客户出一个解决方案,要花很长时间,把解决方案变成一个能够Work的产品。甚至,我们还要去验证产品是不是有效。整个周期会变得非常长。”
据了解,一览群智的组织结构中,有基础研发部,负责技术组件的研发和维护。在技术组件的上层,是针对行业场景,利用技术组件打造的产品解决方案,因此也有政企事业部和金融事业部,“在具体的行业,业务部门用组件做产品,用户可能无法感知你的技术组件,但他必然关心你是否帮我解决了问题。”
但以上仍有两个重要问题没有被回答。第一,70%的产品化率是如何形成的?第二,一览群智落地的场景愈加丰富,产品化率又将面临什么样的变化?
70%的产品化率是动态形成的。在做同一场景的不同客户时,在修改;在做不同场景的时候,也在修改。这是一个渐进过程。“70%也许永远停留在70%。这是因为不同行业的差异还是很大的。你做得行业越多,就会发现越往下,底层的东西,甚至不是四层,会变成五层、八层,而越往上,则不断细分。直到哪一天,你做了十个行业,发现万事万物皆出于这几个组件,但这个时候,标准化层次可能就不是70%了,可能变成50%,甚至比50%更低。”胡健提到。
“70%不是一个绝对数字。”现阶段,一览群智主要落地两大场景:金融和政府,胡健认为“70%是能够解决的。”但当一览群智做得行业越来越多,产品化率可能无法达到70%。“越来越多东西是没法通用,可能还要往下沉。最后的产品化率可能只有50%,但这个50%是完全不一样的。应用层以下,分层会越来越多,而现在只有三层。”
写过程序的胡健用“面向过程”这个概念解释这一产品化率的变化过程。公开资料显示,胡健先后在微软亚洲研究院、雅虎北京研发中心、腾讯从事搜索和广告核心算法研究和研发管理。接任一览群智CEO之前,胡健是36氪的联合创始人,先后担当36氪CTO、鲸准总裁等职务。
何为“面向过程”?据了解,一般的面向过程是从上往下步步求精,所以面向过程最重要的是模块化的思想方法。“写程序就是,我看到一个问题,从头写到尾,写到一个函数里面。写出来之后,发现在多场景之下,有些功能可以封装成一个类……
问题在于这个函数或者组件被人使用的次数,被人使用得越多,大家对你的要求越来越高。你不断地把它做得更通用。如果只有一个客户,不用分层,一层就够了。但当你有一万个客户的时候,产品会因不同用户的需求变得越来越复杂,层越分越多,越分越细。”胡健强调,这个过程,越分越细并不意味着降低标准化,相反地,标准化程度越来越高。“
落地场景与完全信息
采访中,胡健向i黑马黑智讲了一个场景落地的故事。这个场景是金融行业中的国际结算业务。
国际结算业务不是银行的最核心的业务,但是业务量大,每年有几百亿元的收入,而且痛点足够痛,该业务要求审核人员看得懂英文,看得懂合同,是相关专业的硕士。银行一年需要付给一位审核员20、30万的工资,而且还不一定可以留得住人。
于是,一览群智便和某银行一起打造该业务的解决方案。期间遇到了很多困难,比如几万种不同格式的票据,甚至还一些票据有遮挡,怎么样将票据变成文本结构化信息?这就牵涉到识别OCR、识别票据等。这需要对不同非结构化数据做OCR。其次,识别完之后,需要抽取信息、分词等。这个阶段,一览群智要给出各种字段,识别合同内涵,比如这份合同讲的是一件什么样的事情?通过报关单上的“无破损”描述判定物品“外观完好”等;第三,一览群智还需要解决语义理解的问题。其中还会牵涉到知识图谱。别无捷径,通过大量的数据让机器学会具体的审核逻辑。
“逻辑很简单,像人做一些脑力劳动的工作一样,首先能够看得懂是什么,将图片变成文字,并将文字变成结构化信息,再把结构化信息跟专家业务产品衔接,这就是知识图谱,最终去做决策,这是标准的认知过程。”这个过程中,胡健提到针对不同行业,构建一个类似于专家的规则系统,有一个与或非的逻辑。“这个规则系统要被抽象得非常灵活。规则系统与知识图谱结合的过程中,渐渐地被抽象成一套模具工厂;原来的知识图谱只适用于单一的业务场景,当它应用于不同类型的场景,就被进一步抽象。每抽象一下,能解决面临的多场景或者多业务的问题。但突然又来了十几个不同场景,就会发现原来的知识图谱或者规则系统还是有问题,那就需要再次抽象。这就跟达尔文的进化论一样。适者生存,不断进化,满足不同需求。如此,产品越来越好用。”
如何沉淀专家经验?如何构建规则系统?以公安领域的反洗钱为例,一览群智有着类似的实践。一般反洗钱侦查中,警察会查一查大的进出口资金的流向,设置一些规则,筛选出现金流出的TOP10的帐户,并过滤掉正常帐户,剩下几个只进不出的黑洞帐户,或者进出一致的通道帐户。顺藤摸瓜,就能找到背后的主使者。一览群智将这些专家经验配置到模型工厂里,把所有数据变成因子,变成与或非,或者决策分析的因子,然后拼出一个决策树。一个决策树就是一个经验。规则系统的建立加上专家经验辅助决策,才能够产生化学反应,让普通民警具备经侦专家的能力。
据公开资料介绍,一览群智落地的领域除了金融行业,还有公共安全和媒体情报。在这些领域,一览群智有专门的专家团队解决行业know-how问题。一览群智的商业化战略一直在碰撞中,“为什么人工智能落地难?因为要不断碰撞。首先先用逻辑筛选一遍,这个逻辑是技术的逻辑,是商业的逻辑,也是与客户业务相关的逻辑;其次,这些逻辑都符合,才有可能产生10个商业可能性。拿给客户,被毙掉9个,只剩下1个,那就先做。”
上述案例,有一个不可回避的前提是:目前人工智能的技术限制。现阶段,人工智能只能解决一些偏重复式的工作。前面提到的国际结算业务便是偏重复式的、相对闭环的场景。在闭环场景里,一览群智可以知道所有可能的情况。这和张钹院士提到的人工智能落地的几个经济中的完全性经济有相似之处。
而在公共安全领域落地的案例,与国际结算业务相比,与人机协同相关,更加复杂。在一个大的任务里人的脑子有限、计算能力有限、存储能力有限、加工处理能力有限,而机器可以做这些工作。胡健指出,所谓“机器”指的是“把一些大容量的数据全部整干净”。机器弱点也是明显的,它无法做出判断。机器只能对一些已经出现过的,并生成技能树的相关情况,做出判断。比如找出涉嫌洗钱的嫌疑人,但这不是最终判断。人会看一下为什么会认为他有嫌疑?机器的建议再加上人的经验和知觉,做出最终的判断。人是有常识的,但机器不知道这些。这些常识需要长年累月的积累。
“我们必须遵从人工智能现阶段的技术发展特征,找到最适合的方式去落地。”这是一览群智的落地思路。“我们尽量做一些确定性的、相对封闭的、完全信息的场景。而且这个场景的数据又是准备好的,且解决完之后,又能够产生商业价值,有诸多前提。层层限制之下,真正适合AI落地的领域并不多。没办法,圈了一下,就这么多。这也是AI公司扎堆落地的原因。”
要做AI时代的软件“特斯拉”
“本质上,一览群智也是一家软件服务公司。”胡健说。
“为什么说是一家软件公司,就要像微软一样,给客户一张光盘,客户直接装就得了。Office办公软件可以适配不同种类的机型。这样,毛利率才能巨高无比。才是一门好的生意。”而一家好的企业服务软件公司的标准是较低的客户定制化比率、较高的毛利率。“我们希望通过尽量提高标准化的比率,降低客户化实施的成本,提升业务率。这是2B公司的商业逻辑。”
在AI时代,这个逻辑没有变化。在整个软件产品上,AI可能只占到20%。大量工作是数据治理、数据融合以及数据通路的打通和反馈。这些都是工程。AI只是其中的20%,是蛋糕上最漂亮那一块。虽然AI是核心,但整个软件产品还是要帮客户解决问题。“不管怎么强调AI,还是要帮客户解决问题,要么帮客户有大的提升,要么帮客户多赚钱,否则为什么要买你的产品。”
在AI时代,胡健认为,AI是思想,是方法论。
“我们做AI的东西,本质上是给别人做信息化软件。帮助客户提升运营效率。客户不关心我们做的到底是AI还是其它。但AI可以改变用户的整个体验,可以解决非AI技术无法解决的问题。”为了说明AI的革命性,胡健举了特斯拉的例子。他认为燃油车做不出特斯拉,因为传统车商的底层逻辑与特斯拉截然不同,一个是电和数字化,一个是油和机械化,中间横贯着跨时代的差异。“和传统软件公司,我们正在做的是AI时代的软件‘特斯拉’。”
不过,AI时代的软件服务商和传统软件公司的关系不是替代关系,而是合作关系。
胡健又举了云计算公司和传统软件公司的例子。“上云是大趋势。企业要上云,传统软件公司没有能力做这一块业务,于是,云计算公司告诉传统软件公司你应该用我的能力,我是不抢你的饭碗,而是我们俩联合起来服务客户。为什么?因为云计算公司不懂客户需求,但传统软件公司天天和客户在一起,知道客户的需求,可以提供的一堆上云的组件,服务客户上云,但云计算公司归根结底是卖服务器的。”
未来,按照胡健的设想,一览群智将变成一个AI赋能公司,并搭建自己的AI的软件生态。届时,一览群智将和不同领域的传统软件公司合作,传统软件公司做交互软件,一览群智做AI层和接口。“因为应用我做过,我直接跟你对上去就行了。这个是我认为是最合理的逻辑。”据悉,去年6月,一览群智与浪潮集团、天阳科技、中信网科签订战略合作协议。在搭建自己的AI的软件生态之前,一览群智先嵌入别人的生态,并努力成为其中的头牌。