自定义数据集OCEMOTION–中文情感分类-人工智能-PHP中文网

该内容为基于PaddleNLP和Paddle框架的OCEMOTION中文情感分类任务实现。先切分数据集为训练、测试、评估集，转换标签格式；定义数据集类处理数据，经 Jieba 切词、映射词id等处理；构建含嵌入层、LSTM编码器等的模型，配置优化器等训练模型，最终对测试集预测，输出情感分类结果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

自定义数据集ocemotion–中文情感分类 - php中文网

情感分类

情感分类简单的正负，但是细分就太多了太多了。。。

sadness
happiness
disgust
like
anger
surprise
fear

结果如下：

Data: 【旅游】美食:滇南地区建水的蕈芽、石屏的豆腐、蒙自的过桥米线。滇东北地区菜豆花、连渣搞、酸辣鸡等。滇西地区的大理沙锅鱼、酸辣鱼。丽江粑粑、八大碗。弥渡的卷蹄、风吹肝、腾冲的大救驾,各种凉拌野菜、松尖等。关注【游遍云南】公众微信,让您畅游云南,游遍云南公众微信号:y4000119001 Label: happiness
Data: 想哭, Label: sadness
Data: 自己打的赌,赌的很大,不知道自己到底战绩怎样 Label: disgust
Data: 4...这都不是偶然的事情,这是他明白这个事实真相,对生死看得很淡薄,知道要认真努力修行,所以死了之后,自己可以作主,自己可以选择到哪一道去。如果在临终时,一慌一乱,你对身体很留恋,对家亲眷属很留恋,那你往往就到三途去了! Label: happiness
Data: 干了这碗香菜我们是好朋友 Label: disgust
Data: 韩国沉船遇难者'不愿分离'。一男生一女生害怕被水冲开分离紧捆绑在一起。[蜡烛][蜡烛][蜡烛] Label: happiness
Data: 那一年,cang井空还是处女,冠希还没有相机,李刚还没有儿子,菊花只是一种花,企鹅不是qq,2b我只知道是铅笔,买方便面还有调料,杯具只是用来刷牙,楼房是用来住的,黄瓜香蕉只是用来吃的,教授还不是叫兽,太阳还不叫日,领导不会写日记,鸭梨还没有这么大,肚子大了也知道是谁的我们还相信真情 Label: sadness
Data: 小孩子会说谎,大孩子也会说谎,不过,美名其曰为“借口”,不努力,是因为没了目标,没了动力,习惯了堕落。。。 Label: sadness
Data: 特困户的春天[拜拜] Label: sadness
Data: 找院长写推荐信之前把自我介绍想过很多遍,结果院长大人没有赴约;从早到晚在实验室忙碌只为了按时完成实验,结果教授将实验计划改变;纠结了好久今天终于鼓起勇气再加一次某人的微信,结果我貌似在黑名单里面......总以为解决了自己就解决了一切,但是没想到,事情总是有想不懂到的一面。 Label: disgust

OCEMOTION：是包含7个分类的细粒度情感性分析数据集，如下所示：

0 你知道多伦多附近有什么吗?哈哈有破布耶...真的书上写的你听哦...你家那块破布是世界上最大的破布,哈哈,骗你的啦它是说尼加拉瓜瀑布是世界上最大的瀑布啦...哈哈哈''爸爸,她的头发耶!我们大扫除椅子都要翻上来我看到木头缝里有头发...一定是xx以前夹到的,你说是不是?[生病] sadness
1 平安夜,圣诞节,都过了,我很难过,和妈妈吵了两天,以死相逼才终止战争,现在还处于冷战中。sadness
2 我只是自私了一点,做自己想做的事情! sadness
3 让感动的不仅仅是雨过天晴,还有泪水流下来的迷人眼神。happiness
4 好日子 happiness

（注：id 句子标签）

In [ ]

<br/>

登录后复制

评测方案

参赛选手仅可使用单模型，先求出每个任务的macro f1，然后在三个任务上取平均值，具体计算公式如下：

##计算公式：

名称说明 TP(True Positive) 真阳性：预测为正，实际也为正 FP(False Positive) 假阳性：预测为正，实际为负 FN(False Negative) 假阴性：预测与负、实际为正 TN(True Negative) 真阴性：预测为负、实际也为负 P(Precision) 精确率 P = TP/(TP+FP) R(Recall) 召回率 R = TP/(TP+FN) F(f1-score) F-值 F = 2PR/(P+R) macro f1 需要先计算出每一个类别的准召及其f1 score，然后通过求均值得到在整个样本上的f1 score。

https://tianchi.aliyun.com/competition/entrance/531841/information

OCEMOTION–中文情感分类

此次跟着陈硕老师走，先跑一圈

情感分析是自然语言处理领域一个老生常谈的任务。句子情感分析目的是为了判别说者的情感倾向，比如在某些话题上给出的的态度明确的观点，或者反映的情绪状态等。情感分析有着广泛应用，比如电商评论分析、舆情分析等。

自定义数据集OCEMOTION–中文情感分类 - php中文网

label_map={"sadness":'0', "happiness":'1',"disgust":'2',"like":'3',"anger":'4',"surprise":'5',"fear":'6'}

登录后复制

In [ ]

# 下载paddlenlp!pip install --upgrade paddlenlp==2.0.0b4

登录后复制

数据集

OCEMOTION–数据集介绍

0 你知道多伦多附近有什么吗?哈哈有破布耶...真的书上写的你听哦...你家那块破布是世界上最大的破布,哈哈,骗你的啦它是说尼加拉瓜瀑布是世界上最大的瀑布啦...哈哈哈''爸爸,她的头发耶!我们大扫除椅子都要翻上来我看到木头缝里有头发...一定是xx以前夹到的,你说是不是?[生病] sadness
1 平安夜,圣诞节,都过了,我很难过,和妈妈吵了两天,以死相逼才终止战争,现在还处于冷战中。sadness
2 我只是自私了一点,做自己想做的事情! sadness
3 让感动的不仅仅是雨过天晴,还有泪水流下来的迷人眼神。happiness
4 好日子 happiness

自定义数据集OCEMOTION–中文情感分类 https://aistudio.baidu.com/aistudio/projectdetail/1416938

PaddleNLP和Paddle框架是什么关系？

自定义数据集OCEMOTION–中文情感分类 - php中文网

Paddle框架是基础底座，提供深度学习任务全流程API。PaddleNLP基于Paddle框架开发，适用于NLP任务。

PaddleNLP中数据处理、数据集、组网单元等API未来会沉淀到框架paddle.text中。

代码中继承 class TSVDataset(paddle.io.Dataset)

使用飞桨完成深度学习任务的通用流程

数据集和数据处理
paddle.io.Dataset
paddle.io.DataLoader
paddlenlp.data
组网和网络配置

paddle.nn.Embedding
paddlenlp.seq2vec paddle.nn.Linear
paddle.tanh

paddle.nn.CrossEntropyLoss
paddle.metric.Accuracy
paddle.optimizer

model.prepare

网络训练和评估
model.fit
model.evaluate

百度文心百中
百度大模型语义搜索体验中心

22

查看详情
预测 model.predict

注意：建议在GPU下运行。

In [ ]

# 解压数据%cd ~
!unzip data/data66630/NLP中文预训练模型泛化能力挑战赛.zip -d dataset

登录后复制

/home/aistudio
Archive:  data/data66630/NLP中文预训练模型泛化能力挑战赛.zip
  inflating: dataset/OCEMOTION_a.csv  
  inflating: dataset/OCEMOTION_train1128.csv  
  inflating: dataset/OCNLI_a.csv     
  inflating: dataset/OCNLI_train1128.csv  
  inflating: dataset/TNEWS_a.csv     
  inflating: dataset/TNEWS_train1128.csv

登录后复制

In [ ]

import paddleimport paddlenlpprint(paddle.__version__, paddlenlp.__version__)

登录后复制

2.0.0 2.0.0b4

登录后复制

1.3 数据集切分

In [ ]

import osfrom sklearn.model_selection import train_test_splitimport pandas as pdimport numpy as np

登录后复制

In [ ]

def break_data(target, rate=0.2):
    origin_dataset = pd.read_csv("dataset/OCEMOTION_train1128.csv", delimiter="\t", header=None)  # 加入参数
    train_data, test_data = train_test_split(origin_dataset, test_size=rate)
    train_data,eval_data=train_test_split(train_data, test_size=rate)
    train_filename = os.path.join(target, 'train.txt')
    test_filename = os.path.join(target, 'test.txt')
    eval_filename = os.path.join(target, 'eval.txt')

    train_data.to_csv(train_filename, index=False, sep="\t", header=None)
    test_data.to_csv(test_filename, index=False, sep="\t", header=None)
    eval_data.to_csv(eval_filename, index=False, sep="\t", header=None)if __name__ == '__main__':
    break_data(target='dataset', rate=0.2)

登录后复制

In [ ]

%cd ~/dataset/

登录后复制

/home/aistudio/dataset

登录后复制

In [ ]

label_map={"sadness":'0', "happiness":'1',"disgust":'2',"like":'3',"anger":'4',"surprise":'5',"fear":'6'}

登录后复制

In [ ]

import pandas as pddef modify_data(target='.'):
    for name in ['train','test','eval']:
        source_file=os.path.join(target, name + '.txt')
        target_file=os.path.join(target, name + '.csv')
        data=pd.read_csv(source_file, delimiter="\t", header=None) 
        new_data=data[[1,2]]
        new_data.replace(label_map, inplace=True)
        new_data.to_csv(target_file, index=False, sep="\t", header=None)
        new_data=None
        data=Noneif __name__ == '__main__':
    modify_data()

登录后复制

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/pandas/core/frame.py:3798: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  method=method)

登录后复制

In [ ]

!head train.csv

登录后复制

以前的一位同事和女朋友在一起了很多年,马上就结婚了!今天看到他上传的结婚照,新娘竟然不是她,而是公司的另一同事......现在的情感到底都是闹那样???	5
那种感觉真美好如果你也对我那样就好了♥	3
在元旦放假的前一天我们进行考试,远旦放假回来的头一天我们又要考试...每天考考考,做为高三的学生我们容易嘛。『明天的考试只能尽力了』	0
其实不幸福,只是一比较就幸福了	1
觉得自己太聪明也就会变傻噜。	1
我非常讨厌加工作q但是不知道怎么拒绝,毕竟已经拒绝了微信	4
非诚勿扰告诉我们:身为一个中国女性,无论你再怎么学历牛x、工作拼命、容颜姣好,到了年龄嫁不出去,就不得不穿的像驻马店洗浴中心的工作人员一样,站成一排会见各种奇葩,然后在三分钟的速食相亲之后假装找到真爱。。。	2
为了塞spn的con还有早餐会删掉了一堆喜欢的剧集存档......波吉亚家族嘤嘤嘤嘤嘤......【看起了蓝光碟【够。	0
希望每天	1
要是我没记错的话,我qian包里好像多了两百[挖鼻]	5

登录后复制

In [ ]

!head test.csv

登录后复制

【旅游】美食:滇南地区建水的蕈芽、石屏的豆腐、蒙自的过桥米线。滇东北地区菜豆花、连渣搞、酸辣鸡等。滇西地区的大理沙锅鱼、酸辣鱼。丽江粑粑、八大碗。弥渡的卷蹄、风吹肝、腾冲的大救驾,各种凉拌野菜、松尖等。关注【游遍云南】公众微信,让您畅游云南,游遍云南公众微信号:y4000119001	1
想哭,	0
自己打的赌,赌的很大,不知道自己到底战绩怎样	0
4...这都不是偶然的事情,这是他明白这个事实真相,对生死看得很淡薄,知道要认真努力修行,所以死了之后,自己可以作主,自己可以选择到哪一道去。如果在临终时,一慌一乱,你对身体很留恋,对家亲眷属很留恋,那你往往就到三途去了!	6
干了这碗香菜我们是好朋友	1
韩国沉船遇难者'不愿分离'。一男生一女生害怕被水冲开分离紧捆绑在一起。[蜡烛][蜡烛][蜡烛]	1
那一年,cang井空还是处女,冠希还没有相机,李刚还没有儿子,菊花只是一种花,企鹅不是qq,2b我只知道是铅笔,买方便面还有调料,杯具只是用来刷牙,楼房是用来住的,黄瓜香蕉只是用来吃的,教授还不是叫兽,太阳还不叫日,领导不会写日记,鸭梨还没有这么大,肚子大了也知道是谁的我们还相信真情	1
小孩子会说谎,大孩子也会说谎,不过,美名其曰为“借口”,不努力,是因为没了目标,没了动力,习惯了堕落。。。	3
特困户的春天[拜拜]	1
找院长写推荐信之前把自我介绍想过很多遍,结果院长大人没有赴约;从早到晚在实验室忙碌只为了按时完成实验,结果教授将实验计划改变;纠结了好久今天终于鼓起勇气再加一次某人的微信,结果我貌似在黑名单里面......总以为解决了自己就解决了一切,但是没想到,事情总是有想不懂到的一面。	2

登录后复制

In [ ]

!head eval.csv

登录后复制

我告诉自己,要独立,要坚强,要勇敢,要活的漂亮,要让自己永远善良。	1
人的自信无缘就是来自二种情况一是有钱二是有本事你们说是吗?????????????	2
18.粗一我们是一个学校同宿舍你是我上铺哟老是欺负我!!!是同胞啊嘿嘿内涵你懂。是品味不错的妹子还是大富逼!!总是给我礼物小惊喜啊啥的比如好吃的还有轻松熊本子还有美国带回来的杂志,射射你噜。看样子大学你是要粗国念噜别忘了我啊有空寄明信片啊好吃的好玩的给我不谢!!有缘再见咯高中加油!!	3
这说什么好呢?学校终于给放假啦!!开心死我了!!哈哈	1
愿沐儿天天开心~	1
如果你给不了幸福她,就请你不要伤害她,这样对彼此的伤害会更大。	0
前排的电车单车都倒地,纠结很久还是决定一辆辆扶起。一电车突然亮灯,一男生走过来,我赶紧解释不是我弄的!男生我知道。心里有点好奇,这哥们太善解人意了,抬头一看那男生,原来刚才走在后面的人不就是他么。倒车的时候,路太窄,我不小心又撞到后面的车,那哥们看了我一眼,继续心疼他的车...	0
我说那样的话真该死。	0
害怕失败,容易恐惧,逃避竞争。	0
当发现一些不该发现的事的时候,她就会下楼,说,还是睡觉吧。	5

登录后复制

In [ ]

train_data=pd.read_csv("train.csv", delimiter="\t", header=None) 
print("train_data length: ",train_data.size)
test_data=pd.read_csv("test.csv", delimiter="\t", header=None)  
print("test_data length: ",test_data.size)
eval_data=pd.read_csv("eval.csv", delimiter="\t", header=None)  
print("eval_data length: ",eval_data.size)
df1=train_data[1].value_counts()print(df1)

登录后复制

train_data length:  45196
test_data length:  14126
eval_data length:  11300
0    7887
1    5776
2    2750
3    2642
4    2640
5     544
6     359
Name: 1, dtype: int64

登录后复制

In [ ]

%cd ~/dataset/

登录后复制

/home/aistudio/dataset

登录后复制

In [1]

print(label_map)

登录后复制