近年来,数据分析已成为商业成功的关键驱动力。将大型数据集转化为可操作的见解的能力,可能意味着成功与失败之间的差别。然而,数据质量依然是一个主要难题:如果输入模型的数据质量不佳或不一致,其结果也会不尽如人意。这正应了那句流行的话“垃圾进,垃圾出”。
图片来自:Pixabay
尽管人工智能经常成为焦点,但强大的数据基础和有效数据策略的重要性往往被忽视。在本文中,我们将探讨人工智能如何直接改善这些基础,通过以下方式:
- 数据自动整合
- 动态标签和分类
- 生成合成数据
而不是处理有缺陷的数据,我们从一开始就利用生成式AI来提高数据质量。这种方法也为以后更有效的AI应用做好了准备。
人工智能(生成型)的崛起许多行业正因人工智能技术而经历着重大变革。在营销领域,例如,人工智能帮助组织从庞大的数据集中提取出可操作的见解,从而实现针对性的营销活动和更好的客户参与。根据Gartner的技术炒作周期,生成型人工智能正处于顶峰,显示其在数据分析转型中的巨大潜力。
2023年新兴技术技术炒作周期(据Gartner)
尽管人工智能有巨大的潜力,输入数据的质量仍然至关重要。不准确或不完整的数据可能会扭曲结果,削弱人工智能驱动项目的成效。这凸显了干净数据的重要性。对于营销人员和数字创新者来说,处理来自不同来源的数据不一致可能成为解锁人工智能全部潜力的主要障碍。
颠覆范式:运用AI技术提高数据质量如果我们能改变对数据质量的看法,会怎么样?与其将数据质量视为使用AI的前提条件,我们可以利用AI来提高数据质量本身。利用生成AI,我们可以简化并自动化数据清洗过程。
为了使用AI而清理数据吗?只需通过GenAI!
利用GenAI让数据更好的三种方式提高数据质量可以让机器学习和人工智能更轻松地应用于分析项目,从而回答业务问题。以下是使用ChatGPT²增强数据基础的三种方法:
第一位:通过AI让数据更干净在数据分析领域,一个核心的挑战是确保数据质量和完整性。算法可以自动使用异常值检测和异常检测技术来清理和预处理数据。随着技术的发展,生成式AI可以协助直接进行数据映射和清洗,识别并修复不一致。
例如,一个收集来自不同来源的市场数据的医疗组织可能会遇到因为命名规则不一致而导致的问题。
示例 #1 (作者的图)
GenAI 可以自动检测并修正这些差异,产生干净且可靠的映射数据集。这不仅省去了分析师们手动检查数据的时间,也避免了传统方法中复杂正则表达式的麻烦。
GPT-4o迷你应用场景1。作者提供的图片
2 标签:使之前无法利用的数据能够被使用组织常常因为数据质量低或缺乏标注而未能充分利用大量数据。通过自动聚类相似的数据点并从无标注的数据中推断标签,AI从中提取出有价值的见解,从而利用之前无法使用的数据。
自然语言处理(NLP)就是传统方法在处理复杂文本数据时可能遇到麻烦的一个例子。例如,从临床文章中提取数字细节可能会具有误导性,如果这些数字并不代表实际的数值。GenAI提示可以很好地解决这些问题。
示例用例 #2。作者的图
在这种情况下,结果虽然简单但很准确。数字提取只是标签功能强大的一个例子而已。显然,生成式AI是提取文本数据中的精确细节或分类的强大工具。
作者的图片,GPT-4 mini示例第二。
3 生成样本数据:利用大型语言模型生成式AI(GenAI)还可以生成合成数据来训练AI模型。大型语言模型(LLMs)可以产生逼真的样本数据,帮助解决数据稀缺的问题,尤其是在数据获取困难的领域。
例如,一家制药公司开发一种针对小众市场的药物时,可以利用大型语言模型来生成合成的患者档案、医疗历史和治疗效果。这种方法不仅丰富了数据多样性,还缓解了与敏感患者数据相关的隐私担忧。
示例用例 #3。作者提供的图片
这种方法不仅增加了数据的多样性,还解决了与共享敏感患者信息相关的隐私方面的担忧。它还可以扩展到其他应用领域,例如针对营销活动的受众、为欺诈检测提供示例等。
GPT-4o迷你版用例#3。作者提供图片
利用API自动提升数据质量。要充分发挥生成式AI在提高数据质量方面的潜力,关键在于将其技术以自动化和无缝的方式整合。手动将数据集复制到提示中并处理响应并不实用。
使用像ChatGPT这样的API可以让此过程变得更简单,直接将AI驱动的数据质量改进融入工作流。有关如何在Colab或Databricks上使用OpenAI API的指南,可以看看我写的另一篇文章。这些自动请求的结果可以直接写回到您的数据存储里。
示例处理流程图:利用Databricks与API通信来改进数据。图片由作者提供。
自动化协调、自动标注和数据制作组织可以通过建立数据管道来利用新进入系统的数据。例如,当新的数据集进来时,API可以自动应用数据标准化算法或识别模式来自动标注数据。这消除了手动数据清理和预处理的需求,使数据工程师能够专注于更重要的任务。尽管GenAI展现了巨大的潜力,但也要注意公共API中的数据隐私问题。
将 API 集成到您的数据管道中,可以让您直接在训练笔记本里生成多样且逼真的数据。该 API 还可以创建合成数据以填补现有数据集中的空白部分,支持更稳健的 AI 模型开发需求。这种自动化数据生成不仅加快了研究进度,还减少了隐私方面的担忧。
所以,这就是结论。将GenAI API集成到数据质量流程中提供了一种强大的方式来自动化数据清理、标注和生成。这种无缝集成使组织能够充分利用GenAI的能力,无需人工干预,从而让数据管理更加高效,同时提升整体数据质量。
总之,新一代AI与数据质量的结合标志着数据分析领域的重大转折点。新一代AI提升数据质量和提供实用见解的能力,具有改变整个行业的潜力。通过重新思考传统方法并利用AI增强数据,组织可以开启新的创新和增长机会。从现在看未来,很明显,那些拥抱新一代AI力量的人将会引领数据分析领域的发展。
[Jonas Dieckmann - MediumJonas Dieckmann 在 Medium 上的写作文稿。团队领导 @飞利浦公司 | 热爱数据科学、敏捷工作和数字化…medium.com](https://medium.com/@jonas_dieckmann?source=post_page-----d3a8d5cc5ba9--------------------------------)
希望这对你有帮助。请不吝赐教!你也可以在 LinkedIn https://www.linkedin.com/in/jonas-dieckmann/ 上联系我,或在此 Medium 上关注我。
参考文献[1] Gartner (2023): 新兴技术的炒作周期
https://www.gartner.com/en/newsroom/press-releases/2023-08-16-gartner-places-generative-ai-on-the-peak-of-inflated-expectations-on-the-2023-hype-cycle-for-emerging-technologies
Gartner(2023年8月16日):生成AI处于2023年新兴技术炒作周期期望膨胀的顶峰
[2] OpenAI的ChatGPT:https://chatgpt.com/
共同学习,写下你的评论
评论加载中...
作者其他优质文章