前言
流向数据作为药企营销管理的核心,在提高盈利水平、决策生产上有着重要的地位。在“新基建”的大背景下,数据准确性,匹配高效性,信息及时性这三大特性也成为行业竞争中的重要指标。本文主要分享未名企鹅在行业库系统和清洗匹配系统中如何做到准确、高效。
1
行业库:准确性
行业库,也叫标准库。是指在医药行业范围内对所有具备医药销售资格机构的基础数据进行管理的数据库产品。在其具备数据存储、校验、去重能力的同时,也为后续清洗匹配系统提供标准数据查询、同步更新等高效处理能力。
行业库数据来源
对于医药行业主数据,为保证数据的准确性、真实性,其采用数据的信息核实来源应具备行业可靠性和较高的公信力。
相似性检查
对于行业库数据来说,严格的相似性检查机制能够有效的保证通过任何途径进入系统的数据与已入库的数据不存在重复关系。
1)统一社会信用代码:由于统一社会信用代码作为企业的“身份证”具有高度唯一性,需要全字对比,若重复则具有高度存疑性。
2)名称、曾用名、别名:企业频繁改名可能存在名称、曾用名重复或相似的情况,需要交叉对比相同或相似,若重复则具有高度存疑性。
3)地址、省市区、经纬度:全字对比,但存在同楼办公的情况,需要提示,但应通过其他方式确认,具有一般存疑性。
2
清洗匹配系统:高效性
清洗匹配系统是指将原始流向数据规范化后,依赖行业库系统形成原始数据与标准数据的匹配关系并能够生成可用的标准流向报告的系统。
流向清洗匹配过程
在完整的数据清洗链条中,流向清洗匹配系统需要具备承接上游系统生成的清洗任务,同时也要做到实时调用下游系统为其提供标准数据信息,从而输出完整可用的标准流向报告,形成清洗匹配业务的完整闭环。
机器智能分类
在原始流向进入到系统后,系统会根据终端名称中的词汇进行分词,语法、语义、成分分析等一系列机器学习的算法将数据分为四大类:
1)一类数据:行业库中存在与原始终端名称相同或极为相似的数据,由机器自动匹配,待人工进一步审核;
2)二类数据:行业库中存在与原始终端名称较为相似的数据,需要人工介入处理;
3)三类数据:行业库存在与原始终端名称相似部分较少的数据,需要人工介入处理;
4)四类数据:行业库不存在与原始终端名称相似的数据,需要人工介入对原始数据进行增减后搜索,或从外部寻找与原始终端名称相匹配的数据。
智能分类算法能够有效的弥补了人工处理流向时应对不同类型名称处理方案不足的问题,使得操作人员更加集中精力于复杂难找的数据,从而提高交付效率。
同时,机器处理还具有一定的深度学习能力,在面对大量流向数据时系统会根据人工审核通过的数据,提取匹配规则进行学习,动态调整匹配算法,从而在应对下一次任务时自动匹配更多的数据。
系统间数据交互
高效的数据处理过程需要清洗匹配系统在以下三个方面和行业库形成深度的耦合关系:
1)向行业库查询标准信息,并将原始数据与标准数据建立匹配关系;
2)对于未能在行业库中查询到,但通过其他渠道找到的数据要能新增进行业库并形成匹配关系;
3)行业库中数据发生的变化,要实时对已经建立匹配关系的数据进行更新信息。
其中,在清洗匹配系统处理外部来源找到的数据时会向行业库系统发送新增消息,行业库系统则会在收到消息后进行审核入库处理,同时形成原始数据与入库数据的匹配关系并向清洗匹配系统反馈,进而形成外部数据“新增-审核-入库-反馈-建立关系”的高效闭环。
总的来说,一次完整的数据任务处理需要依赖多系统间复杂的数据交互。只有系统在各自业务范围内达到最优,才能从整体上提高交付效率。
下期极客为大家分享数据采集系统在整个业务链条上应具备的能力,以及与清洗匹配系统之间的关系,敬请期待。
文/子豪
编辑/Elsie、TiK
关于未名企鹅
未名企鹅以“连接健康”为使命,致力于提供生命健康领域的大数据产品和解决方案,帮助客户实现数据驱动的业务增长。
公司创始人邹晓亮先生是北大博士,前腾讯高管。创始团队主要成员均曾在腾讯、阿里巴巴、网易工作多年,同时结合了来自医药行业经验丰富的人士和业内具有丰富经验的专家顾问团队。公司技术团队中有数十位研发人员均来自腾讯,互联网技术基因和产品文化底蕴深厚。
未名企鹅成立以来获得由经纬中国、成为资本、红石诚金分别领投的三轮累计数亿元融资。