利用模糊匹配和人工智能识别重复客户

时间:2019-03-15 13:16:50 阅读:20次

  当你去星巴克时,他们总是在咖啡杯上写出正确的名字吗?对我来说,星巴克的工作人员经常增加额外的“L”并将我的名字拼写为“Collin”而不是“Colin”(我只是没有心去纠正它们)。

  无论是咖啡店中的拼写错误的名字,还是两个只分享一位数字的电话号码的人,每个地方都有机会犯错误并创建重复的客户信息。像银行和在线零售商这样的大型企业在其客户数据库中面临着成千上万(或数万)这类错误和重复。

   <! - 多 - >

  

  

  不了解您的客户会导致错失销售机会和糟糕的客户服务。

  重复的客户记录会给企业带来很多问题,而且最重要的是定位不佳和浪费的营销工作。例如,如果客户因数据库名称,新地址或错误输入的电话号码的拼写不同而多次列入数据库中的不同购买,则很容易尝试向他们出售他们已经生产的产品有。

  不了解您的客户会导致错失销售机会和糟糕的客户服务。它还会造成效率低下和浪费成本,因为每个重复记录都会产生额外的处理和重复的客户通信。最后,它会导致不准确的报告,从而促进不太明智的决策。对于数据质量问题和数百万客户联系人,我们如何为单个客户视图删除和合并重复的客户记录?

  传统上,修复重复的客户记录是一个耗时且昂贵的手动过程。除非所有细节都相同,否则很难知道不同的记录是否是同一个人。通常情况下,大多数潜在的重复都是误报 - 只是因为两个人共享相同的姓名,地址或出生日期并不意味着他们是同一个人。

  

   81%的营销人员表示他们无法实现单一客户观点,超过一半的企业品牌营销人员将有效联系视为制定真正的跨渠道营销策略的主要障碍。来自Experian的新研究。

  

  重复项的数据库查询不会发现拼写错误,拼写错误,缺失值,地址更改或遗漏中间名的人。例如,我住在新加坡,我的许多中国朋友都有中文名字和西方名字,并且可以互换使用这两个名字。

  这些重复问题的解决方案是使用模糊匹配而不是寻找完全匹配。模糊匹配是一种计算机辅助技术,用于对数据的相似性进行评分。

  考虑“Marcelino Bicho Del Santos”和“Marcelino B. Santos”的重复客户记录(见图1)。模糊匹配将计算每个字母在这两个名称中出现的次数,并得出结论,名称非常相似。在这种情况下,我们将获得0.93的高模糊匹配分数,其中0表示不匹配,1表示完全匹配。

  

  图1:0.93的模糊匹配分数表明重复的可能性很高。

  现在,将Marcelino与另一位客户“John Smith”进行比较(见图2)。再次,模糊匹配计算每个字母在这两个名称中出现的次数,并得出结论,名称非常不同。在这种情况下,我们将获得0.68的低模糊匹配分数,这不是指示匹配。

  

  图2:模糊匹配分数为0.63表示两条记录无关。

  但模糊匹配本身并不足够。如果Marcelino Bicho Del Santos是一名35岁的巴塞罗那人,而Marcelino B. Santos是一名90岁的老人,他们很可能不是同一个人。为了获得更好的准确性,我们需要知道模糊匹配分数的哪些组合(对于每个被比较的数据库字段存在一个模糊匹配分数)表示重复记录。例如,在某些国家/地区,邮政编码唯一标识建筑物,而在其他国家/地区,邮政编码包含数千个住宅。

  这是人工智能AI)介入的地方,找到结合这些分数的最佳方式。仅仅具有模糊匹配分数是不够的,您还需要知道相似数据库字段的组合,以及这些数据库字段的相似程度,以便指示匹配。

  

  您可以使用这些历史标记示例上的模糊匹配分数来训练机器学习算法,以确定哪些记录最有可能重复,哪些记录不重复。

  可用于识别重复项的客户数据类型通常包括姓名,地址,出生日期,电话号码,电子邮件地址和性别。在许多情况下,您可以使用信用卡号,过去的购买偏好和职业来补充这些数据。您应该考虑尽可能多地使用客户数据库中的字段。

  此外,根据您过去手动尝试查找重复的客户记录,您将获得重复的客户记录对的示例,以及一些相似但不是同一个人的对。您可以使用这些历史标记示例上的模糊匹配分数来训练机器学习算法,以识别哪些记录最有可能是重复记录,哪些记录不重复。

  经过培训,您的新AI将预测一对客户记录是否真正重复。只需向模型发送任何新客户记录的模糊匹配分数,它就会告诉您它们确实是重复的概率。

  您是否想要在没有选择和训练算法的麻烦的情况下构建AI?解决方案是自动化机器学习 - 专家软件,可以获取您的数据,训练多种算法,并找到最准确的数据。自动机器学习模型提供了高级可解释性,甚至可以告诉您为什么模型决定“Collin Priest”和“Colin Priest”是同一个人!准备好之后,您可以通过一次单击将算法部署到生产中,通过Rest API将其提供。

   DataRobot是自动化机器学习的先驱,提供最全面,易于使用的解决方案,用于优化和加速AI应用程序的开发和部署。联系我们进行现场演示,了解如何轻松构建识别重复客户记录的AI。

  

利用模糊匹配和人工智能识别重复客户所属专题:人工智能专题 《利用模糊匹配和人工智能识别重复客户》链接:http://www.zhouchuanxiong.net/1254

利用模糊匹配和人工智能识别重复客户相关文章