Press "Enter" to skip to content

Tag: sexual harassment

分类和定位各种形式的性骚扰

介绍 您知道性骚扰普遍性的不可避免事实是由于低报告率吗?如果受害者不报告他们经历的骚扰,那么当局如何指导人们避免受到骚扰,罪犯的行为如何改变?分类和定位各种形式的性骚扰案例研究有助于受害者以匿名方式表达自己的经历,并有助于分类受害者经历的各种类型的性骚扰,以便快速评估分类以进行证言文件的归档,并且这也有助于通过考虑已经提交的论坛的分析来提供安全预防措施。 这些安全预防措施通过提供已在该地区提交的大多数类型的性骚扰的普遍位置和罪犯的行为来为个人提供头绪。从上述预测中,个人将受益匪浅,因为它们提供见解并创造有关事件情况的意识。 学习目标 预测社会上各种骚扰的多标签分类 在数据集上使用自然语言处理技术 迭代传统的机器学习算法 实施卷积神经网络 本博客讨论了应用这些方法来解决与骚扰相关的问题 本文是数据科学博客马拉松的一部分。 业务问题 这里将受害者的故事分成三种性骚扰类型,即我们将其转换为多标签分类,因为受害者可能同时面临一种或多种性骚扰。 业务限制 由于我的案例研究是多标签分类,因此误分类不再是一个严格的对错。包含实际类别子集的预测应该被视为比不包含任何类别的预测更好,即正确预测三个标签中的两个比完全没有预测更好。我们没有任何严格的延迟问题。解释性非常重要,因为它有助于找到为什么将故事分类为一种骚扰类型。 数据集描述 数据收集自safecity在线论坛和WIN World Survey(WWS)市场研究和民意调查调查,用于收集性骚扰流行国家的数据。数据集包含两个特征。特征1-包含受害者的故事(说明),特征2包含事件发生的地理位置(位置)。 我们的类标签是多标签分类,其中包含受害者经历的三种性骚扰类型(评论、注视和触摸)。 性能度量 对于多标签分类,实例的预测是一组标签,因此,我们的预测可以完全正确、部分正确或完全不正确。这使得多标签分类器的评估比单标签分类器的评估更具挑战性。但是,对于部分正确性的评估,我们可以使用以下指标进行评估。 准确率-这里,一个实例的准确率被计算为预测正确标签与标签的总数(预测和实际)的比例。可以通过所有实例的平均值来获得整体准确性。 这些指标可以在各个类标签上计算,然后平均所有类别。这称为宏平均。或者,我们可以在所有实例和所有类标签上全局计算这些指标。这称为微平均。 我们使用宏F1分数和微F1分数作为多标签分类的指标。 汉明损失用作多标签分类的度量,该度量计算不正确预测的标签与标签的总数的比例。…

Leave a Comment