数云原力大会 | Bill Inmon：数据湖仓，能更好地开展业务，让客户更满意

2023-05-09

5月6日，由国家金融与发展实验室金融科技研究中心学术指导，北京立言金融与发展研究院、神州控股、神州信息、神州数码集团共同主办的2023数云原力大会“数据资产•金融核心竞争力”主题论坛在京盛大举办。

作为全球金融科技大会系列论坛之一，本次活动大咖云集。数据仓库之父、Databricks独立董事Bill Inmon线上带来主旨演讲：《Lakehouse技术展望》。

公司的数据一般有三种类型：结构化数据、文本数据和模拟/物联网数据。这些都是可用于做出商业决策的数据。

结构化数据大多数是业务运营的基础数据。文本数据则贯穿于公司的方方面面，可惜的是，几乎没人会利用它们。首先，文本数据可能以多种语言的书面或口头形式存在，像英语、西班牙语、中文、葡萄牙语等等。其次，文本数据有不同的形式：有正式用语，还有俚语、缩略词以及其他形式的语言。此外，文本数据可能出现在很多场景，例如录音中，书本上，还可以在互联网和视频中。各种地方都可以找到文本数据。文本 ETL技术能够读取文本数据后转化为数据库可识别的格式。不利用文本 ETL 技术，就没法对文本数据进行分析。第三种类型的数据就是机器生成的数据。

你会发现，只有一部分数据有意义。过去，把数据扔进数据湖就好，结果它变成了沼泽。怎样把沼泽变成有用的东西呢？我们首先需要具备分析型的基础架构，其次需要给数据湖加载集成整合后的数据。为了帮助数据科学家产出效益，我们需要将数据湖转换成数据湖仓。

分析型基础架构有很多组件，比如元数据，对结构化数据很有用；对于文本数据，有本体论和分类法；对于模拟/物联网数据，有提炼算法等等。这些组件会使数据湖仓的管理运营工作更加高效。

文本 ETL 能够将文本转换成能够分析的格式，然后放入数据湖仓；模拟/物联网数据通过提炼，从中挑出有用的也放进数据湖仓；原始格式的文本无法进行分析，必须将文本转换为标准数据库的格式；再把机器生成的数据分离成访问概率高的数据和访问概率低的数据，这样整个分析过程就不会被没必要的数据所淹没。

一般来说，文本数据的数据量远远多于结构化数据，而机器生成的数据又远远多过文本数据。它们的商业价值也不相同，结构化数据大多有较高的商业价值，文本数据有一部分会有较高商业价值，而机器生成的数据只有极少数有商业价值。

将具有高可用性和访问概率高的数据存放到高性能存储，而将访问概率不高的数据存放到大容量存储。当发现大容量存储中有想要用于分析处理的数据，只需要从大容量存储中把数据取出存放到高性能存储，以便分析。归档信息也是一样，将这些数据从高性能系统环境中移出，存放到大容量存储系统以便于归档。这样也方便数据科学家访问、使用高性能存储中的数据。

数据仓库和数据湖仓不是一回事，就基础架构而言，数据仓库和数据湖仓有关系，但并非同一种东西。而有了数据湖仓，就能更好地开展业务，让客户更加满意。

5月11日

“2023数云原力大会

——数字金融新征程论坛”

扫码预约注册