为了账号安全,请及时绑定邮箱和手机立即绑定

复杂写作无非就是公式化?

标签:
杂七杂八
文本分析显示了创作大量文字的方法

在最宽泛的意义上,自然语言处理将语言转化为可以有效操作的结构。由于深度学习嵌入已被证明非常强大,它们也已成为了默认的选择:选模型,嵌数据,挑指标,做RAG。为了增加新价值,不同的语言处理方法很有帮助。
今天我要分享的是多年前一本书开启的故事。

《兰花贼》既是非虚构作品,又充满调皮的趣味。我在二十多岁的时候第一次读这本书,跳过了大部分历史逸事急切地想读那些第一人称叙述。当时我读得哈哈大笑,却又气愤地翻页,因为有人能活得那么深刻,写得那么出色。我当时并不确定这两者是否真的有区别。

一年之内我就移居伦敦,开始了新生活。
我进入了金融服务业,这就像一个专为书呆子设计的乐园。接下来的十年里,我只接受需要大量写作的工作。

关键就在于“很多”这一点。

在现代专业服务的外表背后,英国工业仍然保留着其旧工厂和船厂。它让爱丽丝做一件事,然后交给鲍勃;他拧紧一些螺丝,然后就轮到查理了。一个月后,我们又从头来过。作为新人,我发现习惯不是那么容易适应的陷阱,而是需要站稳的根基。

我读了很多。好吧,我在读《纽约客》。我最喜欢的事情是翻开一本新的《纽约客》,从后面打开,然后读安东尼·莱恩写的电影评论。很多年,我一次电影院都没去过,连一场电影都没看。

偶尔,一丝闪现会让我猝不及防。《纽约客》与我的非普利策奖作品之间,存在着一种微妙的联系。每一篇文章都各有特色,但又……有些相似之处。这些相似之处很明显。我知道这些相似性源于我反复的创作过程。

2017年开始,我开始思考那种写作感觉像是套用公式,和可以明确写成公式的写作之间的界限。

这个论点是这样的:重复的次数暗示了一种(通常是隐含的)算法决策形式。但是程序性重复操作会留下线索。追踪这些线索来揭示程序;找出背后的算法;软件几乎可以自己编写了。

我不再写很多代码了,而是我的软件在生成代码了。在上一份工作中,我的软件在生成代码。

公司在理论上可以通过详细了解自身的流程来获得巨大收益,但很少有公司这样做。人们似乎更关心其他人在做什么。

例如,我的老板们,后来我的客户也这样希望,他们总是希望员工能模仿《经济学人》那种风格。但又该如何知道《经济学人》是通过哪些步骤达到这种风格的呢?

作者的图片

文本分析入门

读一篇《经济学人》的文章,感觉轻松自在。读多了就感觉有点千篇一律。杂志每周出一期。没错,我就是看上了这个流程。

为了好玩,我们可以对数百篇《经济学人》的文章进行可读性评估。同样,我们也对数百篇由一位沮丧的欧洲资产管理者发表的文章做同样的测试。

那么,我们做个直方图,看看这些可读性分数是怎么分布的。

仅仅两个功能,看看我们能得出哪些见解!

可读性概况。来源:FinText

看看这些曲线有多不同;这位资产经理不像《经济学人》那样文风。我们可以深入研究一下这种差异背后的原因。(比如说,通常是由于特别长的句子。)

还要注意的是,The Economist 对文章的可读性设定了一个上限。这条曲线显得很突兀,表明他们在编辑中严格检查了文章的可读性。

最后呢——我的很多客户都觉得这很难——《经济学人》承诺会用简单明了的语言,让普通的高中生都能看懂。

我本来预料到这些图表的出现。我在纸上草草记下它们。但当看到第一个图表出现在屏幕上时,感觉就像语言本身也笑了起来。

其实,我不是第一个出现在现场的人。1964年,统计学家弗雷德里克·莫斯特勒和大卫·华莱士登上《时代》杂志的封面,他们通过法医文学分析解决了长达140年的争议,关于十二篇著名匿名文章的作者身份。

但是法医分析总是将单个文本与两个语料库进行对比:一个是由涉嫌作者创作的,另一个是对照文本。比较分析仅仅关注文本间的比较。

作者供图

建立文本分析系统

回顾一下整个过程:首先我们有一个语料库,然后对每个文本应用了可读性评估函数,将文本转换为一系列数字。接着我们对这些数字应用了直方图函数。最后我们对两个不同的语料库重复这一过程并比较了结果以进行分析。

如果你眼睛一眯,你就会发现我说的就是Excel。

这其实是个管道,看起来像一张表格,它先处理每一列的数据,再进行结果的函数运算,最后进行比较分析。

我就想用个处理文本的工具,但我要的是用于文本的工具。

不是字符串——是文本。我想应用诸如计算动词数第一个段落的主体第一句重要的话这样的功能。它必须足够灵活,让我可以问任何问题;谁知道最后会有什么重要呢?

在2020年,这样的解决方案还不存在,所以我创建了它。其实这个软件的实现远没有想象中那么简单!为了使它能够灵活应对各种问题,我在架构决策上最初犯了两次错误,经过多次调整才解决了其中的问题。

最后,函数是通过处理单个输入文本来定义的。然后,你可以选择流水线步骤以及它们将要处理的语料库。

就这样,我创办了一家结合写作和技术咨询的公司,FinText。我打算在与客户合作的同时,边做边看哪些管用。

市场怎么说的

我想到的第一个商业应用场景是[社交聆听](社交聆听是一种监测和分析在线社交媒体上有关品牌、产品或竞争对手的讨论的技术)。市场研究和民意调查是大生意。现在正是疫情最严重的时候,大家都在家里。我认为处理专门在线社区中的活跃讨论可以获取客户想法的新途径。

任何第一个软件客户端都会感到特别,但这个特定的客户端却让我激动不已,因为它实际上帮助了人们解决了他们的问题。

为了一个大型活动,他们计划发布一份重要报告,报告的数据基于一项付费的YouGov调查。但调查结果表现平平。因此,他们用剩下的预算购买了一份FinText研究。他们在最终报告中突出了我们的研究发现。最终报告

2020年在Reddit ‘Investing’ 社区的社交监听。数据来源:FinText

但社交聆听并没有兴起。投资领域有些古怪,因为资金总是需要一个去处;唯一的问题是谁来掌管。我接触到的业内人士大多想知道他们的竞争对手在搞什么。

所以第二个用例——竞品内容分析——得到了更积极的反馈。我卖给了大约六家公司这个解决方案(其中包括Aviva Investors,这是一家保险公司)。

一直以来,我们的引擎都在收集别人没有的数据。客户首先提出要办培训,我才知道公司会购买这种培训。我这么敏锐,连办培训的想法都不是我提的。

否则,我那种蒸汽朋克风格的写作风格很难在市场上推广。它太过于抽象和难以理解。我需要一个仪表盘来展示:漂亮的图表,展示从实时数据中提取的真实数字。数据处理管道负责处理实时数据,我还组建了一个小团队来制作这些漂亮的图表。

文本分析仪表板展示。来自 FinText

在仪表盘中,两个图表展示了主题的细分,其余的则分析了文章的写作风格。我来说说这种选择的理由。

大家都觉得自己的话挺重要的。如果别人不关心,这其实是他们的一个道德问题,就是形式重于内容。这有点像那种认为品味差的人总是别人的感觉。

科学家们记录点击次数,追踪视线移动,监控滚动行为,测量注意力持续的时间。我们知道读者会在一瞬间决定某件东西是否“适合他们”,他们将新信息与已有的喜好进行模糊对比来做这个决定。风格是进入门槛。

仪表盘显示了什么

以前,我并没有关注过收集的数据,但现在我有了那些漂亮的图表,看起来真是赏心悦目。这些图表显示我之前既是对的,也是非常非常错的,错得离谱。

最初,我只直接接触了几家大型投资机构的内部资金流量,并怀疑其他竞争对手的内部资金流量也相同。事实证明我的猜想没错。

但我还以为稍微小一点的公司产出也不会少太多。但这其实并不完全正确。

如果一家公司已经有写作生产的能力,文本分析会非常有用。否则,他们需要的是一间正常运作的工厂。属于第一类别的公司很少,而大部分公司都挤在了第二个类别。

结语

作为产品,文本分析的表现参差不齐。它赚了一定的钱,本可以赚得更多,但不太可能成为大热产品。

我对《纽约客》也不感兴趣了,到了某个时候,一切都变得太套路了,那种魔力就没有了。

如今文字仿佛进入了批量生产的时代,有了像ChatGPT这样的大型语言模型后。早期我就考虑过用管道来判断文本是否由机器生成,但这有什么意义呢?

相反,2023年末我开始帮助公司提升为专家客户撰写内容的能力。这是一条全新的旅程,现在仍处于初期阶段。

最后,我把文本分析当作额外的一双眼睛。它有时候能把模糊的东西变得清晰起来,偶尔还能把模糊的东西变得清晰。我总是把它放在口袋里,以防万一。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消