凸显时间序列和自然语言处理之间的相似之处
像时间序列和自然语言这样的顺序数据需要能够捕捉顺序和上下文的模型。虽然时间序列分析主要关注基于时间模式的预测,自然语言处理旨在从词序列中提取语义意义。
虽然任务不同,但这两种数据类型都具有远距离依赖性,即远处的元素会影响预测结果。随着深度学习的不断发展,最初针对一种领域开发的模型架构已被应用到另一种领域。
顺序数据
时间序列和自然语言都具有序列结构,观察值在序列中的位置非常重要。
时间序列是一组随时间有序并以固定时间间隔采样的观察结果。一些例子包括:
- 每天的股票价格
- 每小时的服务器指标
- 每秒钟的温度读数
时间序列数据的关键属性是观察值的顺序具有意义。时间上相邻的值通常高度相关-了解最近的值有助于预测下一个值。时间序列分析的目标是建立这些时间依赖关系的模型,以了解模式并进行预测。
文本数据也是有序的-单词的顺序传达了意义和上下文。例如:
- John 扔了球
- 球扔了 John
虽然两个句子包含相同的单词,但其意义完全取决于单词的顺序。这些时间关系在语言模型中表示,并且是自然语言任务(如翻译和摘要)的关键。
时间序列和文本都展现出长期依赖性,即序列中距离较远的值仍会相互影响。此外,局部模式会在不同位置重复出现。