Presentation is loading. Please wait.

Presentation is loading. Please wait.

نظر کاوی مبتنی بر سطح سند

Similar presentations


Presentation on theme: "نظر کاوی مبتنی بر سطح سند"— Presentation transcript:

1 نظر کاوی مبتنی بر سطح سند
به نام خدا نظر کاوی مبتنی بر سطح سند استاد راهنما: دکتر محسن کاهانی ارائه دهنده: سید محمد اصغری (استاد دانشگاه فردوسی مشهد) )دانشجوی کارشناسی ارشد دانشگاه فردوسی مشهد( 18 اسفند 1392

2 فهرست مطالب مقدمه هدف فرایند انواع نظرکاوی کاربردها سطوح نظرکاوی
مشکلات مرور کارها مقایسه و نتیجه گیری

3 مقدمه هدف نظرکاوی[11]: استخراج خودکار احساسات و نظرات جمعی انسانها از نوشتارها

4 فرایند نظرکاوی[19]

5 انواع نظرکاوی از منظر دسته بندی از منظر الگوریتمها
اعتبار مطلق (مثبت- منفی) اعتبار عددی از منظر الگوریتمها مبتنی بر قاعده مبتنی بر یادگیری

6 کاربرد نظرکاوی[16] درباره بازار و محصولات تجاری
از دیدگاه مشتریان: بررسی کیفیت محصول، معایب و مزایا کالا، استفاده از تجربیات دیگران، مقایسه محصولات و ... از دیدگاه تولیدکنندگان : کشف نقاط ضعف محصول خود از دیدگاه مشتریان، نقطه نظرات و انتظارات مشتریان، درک بهتر از نیاز مشتریان خود، مقایسه و رقابت با سایر شرکت‌های رقیب در بازار و ... از دیدگاه فروشندگان : بازاریابی، تبلیغات مناسب با سلیقه مشتریان، پیشنهاد محصول مناسب به خریداران و ...

7 کاربرد نظرکاوی (ادامه)
علوم اجتماعی و روان‌شناسی (تحلیل مسائل اجتماعی و فرهنگی، تاثیر اتفاقات مختلف در رفتار مردم و ...) سیاست (انتخابات، پیشبینی تحولات و انقلاب‌ها، میزان اتحاد مردم و نظر مردم درباره ...) مدیریت (کمک در تصمیم‌گیری، آگاهی از میزان رضایت و طرز تفکر افراد، جمع آوری اطلاعات نرم درون یا فرا سازمانی و ...) بازار بورس و پیشبینی سهام (اخبار خوب و بد اقتصادی و سیاسی، و ...) پزشکی ؟

8 + + + - + سطوح نظرکاوی[11,19,13] نظرکاوی سطح سند: طبقه بندی اسناد
نقد فیلم، نقد نشریات + + + - +

9 سطوح نظرکاوی )ادامه( نظرکاوی سطح سند: نظرکاوی سطح جمله:
طبقه بندی اسناد نقد فیلم، نقد نشریات نظرکاوی سطح جمله: طبقه بندی جملات Twit ها، نظرات کوتاه نظرکاوی سطح ویژگی: امتیاز دادن به خصوصیات مختلف

10 فرایند نظرکاوی مبتنی بر سند[13]
مبتنی بر دیکشنری ایجاد بانک لغات حسی پیدا کردن لغات حسی و امتیاز دهی محاسبه مجموع امتیازات سند + - خوب + شاد + خوشحال + لذتبخش + . خسته کننده _ کند _ طولانی _ نه نا غیر بی +

11 فرایند نظرکاوی مبتنی بر سند
مبتنی بر یادگیری ایجاد بانک نظرات برچسب خورده (مدل باناظر) ایجاد بانک لغات حسی انتخاب ویژگیهای مناسب استفاده از الگوریتم های دسته بندی محاسبه مجموع امتیاز سند

12 مشکلات نظرکاوی[17] وابستگی گرایش کلمات به موجودیت نظرات و جملات هرز
مثال «غیرقابل پیشبینی» در فیلم و نرم افزار نظرات و جملات هرز وابستگی به دامنه کنایه ها، ضرب المثلها ، جملات عامیانه و ... اطلاعات وابسته به قراین کمبود ابزارهای پردازش زبان فارسی ربط موضوعی مجموعه داده شدت گرایش کشف ضمیر

13 دیکشنری عبارات حسی[22,20] لغات حسی مثبت و منفی عبارات و جملات حسی
خوب، عجیب، شگفت انگیز ، کارامد و ... عبارات و جملات حسی «مثل سنگ ماندن» سه گانه های عبارت حسی:منفی کننده، شدت دهنده، کلمه حسی «نه + خیلی + بد» الگوهای حسی N + JJ + V (N اسم ، JJ صفت ساده ، V فعل)

14 الگوریتمهای نظرکاوی[11]
یادگیری با نظارت یادگیری بدون نظارت شبه ناظر

15 طبقه بندی نظرات به روش با ناظر[34]
الگوریتمها ماشین پشتیبان بردار (SVM) بیزین ساده ( Naïve Bayes) Maximum Entropy Decision Tree

16 طبقه بندی نظرات به روش با ناظر(ادامه)
انتخاب ویژگی (feature) مناسب: نرخ رخداد عبارت برچسب گذار اجزای کلام صفت عبارات حسی تغییر دهنده معنا وابستگی نحوی

17 طبقه بندی به روش بدون ناظر[13]
semantic orientation applied to unsupervised classification of reviews (turney 2002) گام اول: پیدا کردن الگوی محتمل نظر “This piano produces beautiful sounds”

18 طبقه بندی نظرات به روش بدون ناظر
گام دوم: گام سوم: محاسبه میانگین SO تمام عبارات

19 روش شبه ناظر برای رتبه دهی[33]
graph-based semi-supervised learning … Goldberg2012 تشکیل گراف شباهت اسناد با برچسب و بدون برچسب رتبه دهی با SVM Pang and Lee , (2005) اصلاح رتبه سند 9 7 2 1 3 8 5

20 روش شبه ناظر برای رتبه دهی
graph-based semi-supervised learning … Goldberg2012 تشکیل گراف شباهت اسناد با برچسب و بدون برچسب رتبه دهی با SVM Pang and Lee , (2005) اصلاح رتبه سند 9 7 2 1 3 8 5

21 روش شبه ناظر برای رتبه دهی
graph-based semi-supervised learning … Goldberg2012 تشکیل گراف شباهت اسناد با برچسب و بدون برچسب رتبه دهی با SVM Pang and Lee , (2005) اصلاح رتبه سند 9 7 2 1 3 8 5

22 مقایسه کارها رویکرد نام الگوریتم­ها سال ارائه دامنه زبان خلاصه روش
ویژگی یادگیری با ناظر ECS&A [19] NB SVM ANN 2013 Movie reviews Product reviews EN مقایسه و ارزیابی کارایی الگوریتمهای شبکه عصبی و ماشین بردار در نظر کاوی سطح سند مثبت: توجه دقیق به ویژگیهای محاسباتی منفی: عدم شرح ویژگیها 68<Accuracy<90 (محصولات) 80<Accuracy<86(فیلم) TSA [1] SVMs 2011 Microblogging Twitter تاثیر پیکره‌ها و انتخاب ویژگیهای متناسب با حوزه میکرو بلاگها در افزایش کارایی مثبت: نشان دادن تاثیر انتخاب ویژگی مناسب منفی: عدم بحث از الگوریتم طبقه ­ بند Accuracy=75% F-measure=0.68 SAUS [30] minimum cut Naive Bayes 2004 En استفاده از الگوریتم برش کمینه و حذف جملات عینی از سند قبل از پردازش توسط الگوریتمهای طبقه بند مثبت: تاثیر زیاد آنالیز ذهنیت بر کارایی طبقه بند سطح سند Accuracy= 86% SACVS [31] 2006 کاربرد تغییردهنده‌های معنای وابسته به متن نظیر منفی­کننده و شدت دهنده برای طبقه­بندی بهتر نظرات مثبت: سادگی روش به کار گرفته شده منفی: ویژگیهای کم برای الگوریتمهای یادگیر Accuracy= 85%

23 مقایسه کارها (ادامه) رویکرد نام الگوریتم­ها سال ارائه دامنه زبان
خلاصه روش ویژگی یادگیری با ناظر SAML EWGA with SVM 2011 Web forum En Ar شناخت ویژگیهای مشترک نحوی و ادبی از دو زبان و استخراج آنها توسط الگوریتم ژنتیک Accuracy= 86% LWVSA [32] LDA LSA Consumer reviews for movies استفاده از برداری از لغات در فضای روابط چند بعدی برای غلبه بر ارتباط نحوی و معنایی به صورت همزمان مثبت: دقت بالای گزارش شده منفی: عدم تشریح ساده بردار در ابتدا یا انتهای مقاله بصورت BlackBox Accuracy= 88.5% یادگیری بدون ناظر SOU [13] Lexicon-base 2002 Automobile Banks Movies Travel Destinations استفاده از الگوه‌های نحوی برای استخراج عبارات حسی و تعیین گرایش سند مثبت: سادگی روش منفی: دقت پایین و عدم تمرکز بر روی حوزه­ موضوعی خاص 65<Accuracy<84 یادگیری شبه ناظر GBSS [33] SVM k-nearest neighbor 2012 Movie reviews روشی مبتنی بر گراف برای بهبود عملکرد برچسب گذار اسناد مثبت: نوآوری کار و استفاده از چهار دسته منفی: دقت پایین Accuracy=59.8%

24 نظرکاوی در زبانهای مختلف
زبان مقاله 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 مجموع چینی 19 23 9 10 5 6 1 2 _ 76 عربی 20 اسپانیایی 7 15 آلمانی 3 ایتالیایی فارسی مستقل از زبان 542 467 303 228 163 87 49 36 11 1900 تعداد مقالات یافت شده از پایگاه Google Scholar بر اساس کلید واژه Opinion mining و Sentiment analysis

25 نتیجه گیری کارهای انجام شده در زبانهای مختلف به غیر از انگلیسی اکثراً در سالهای اخیر صورت گرفته است. تعداد این کارها در زبانهای غیر از انگلیسی (بخصوص فارسی) نسبت به زبان انگلیسی بسیار ناچیز است. دقت کارهای انجام شده تا کنون در حد نسبتاً قابل قبولی است اما با افزایش آن میتوان به مطلوبیت بیشتری دست پیدا کرد. نیاز به ایجاد ابزارهای مناسب پردازش زبان فارسی برای حصول به کارایی مناسب میباشد. دقت ارائه شده در مقالات این حوزه وابستگی تنگاتنگی به دامنه دارند. لزوم ایجاد مجموع داده استاندارد برای نظرکاوی زبان فارسی احساس میشود.

26 مراجع [1] E. Kouloumpis, T. Wilson, and J. Moore, "Twitter sentiment analysis: The Good the Bad and the OMG!," in ICWSM, 2011. [2] A. Lentz, P. Zaitsev, V. Tkachenko, J. Zawodny, D. Balling, and B. Schwartz, High Performance MySQL: Optimization, Backups, Replication, and More: O'Reilly Media, Incorporated, 2008. [3] H. David, M. Heikki, and S. Padhraic, "Principles of data mining," MIT Press, MA, vol. 189, 2001. [4] Z. Hanki, Introduction Data Mining and Data Warehouse: Wiley Press. [5] B. Max, "Principles of Data Mining," ed: Springer London Ltd, Published, 2007. [6] J. Han, M. Kamber, and J. Pei, Data mining: concepts and techniques: Morgan kaufmann, 2006. [7] B. Pang and L. Lee, "Opinion mining and sentiment analysis," Foundations and trends in information retrieval, vol. 2, pp , 2008. [8] A. K. Sehgal, "Text mining: The search for novelty in text," A report submitted in partial fulfillment of the requirements of the Ph. D Comprehensive Examination in the Department of Computer Science, pp. 1-26, 2004. [9] U. Y. Nahm, Text mining with information extraction: The University of Texas at Austin, 2004. [10] R. Sharma, S. Nigam, and R. Jain, "Supervised Opinion Mining Techniques: A Survey," 2013. [11] B. Liu, "Sentiment analysis and opinion mining," Synthesis Lectures on Human Language Technologies, vol. 5, pp , 2012. [12] B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up?: sentiment classification using machine learning techniques," in Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10, 2002, pp [13] P. D. Turney, "Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews," in Proceedings of the 40th annual meeting on association for computational linguistics, 2002, pp [14] S. Bethard, H. Yu, A. Thornton, V. Hatzivassiloglou, and D. Jurafsky, "Automatic extraction of opinion propositions and their holders," 2004 AAAI Spring Symposium on Exploring Attitude and Affect in Text, p. 2224, 2004. [15] S. Padmaja and S. S. Fatima, "Opinion Mining and Sentiment Analysis–An Assessment of Peoples’ Belief: A Survey," International Journal, 2013. [16] V. Y. Karkare and S. R. Gupta, "A Survey on Product Evaluation using Opinion Mining," International Journal Of Computer Science And Applications, vol. 6, 2013. .

27 مراجع (ادامه) [17] P. Sharma and K. Srivastava, "OPINIONS ON OPINION MINING: A SURVEY," International Journal of Advanced Research in Computer Science and Electronics Engineering (IJARCSEE), vol. 2, pp. pp: , 2013. [18] A. Buche, D. Chandak, and A. Zadgaonkar, "Opinion Mining and Analysis: A survey," arXiv preprint arXiv: , 2013. [19] R. Moraes, J. F. Valiati, and W. P. GaviãO Neto, "Document-level sentiment classification: An empirical comparison between SVM and ANN," Expert Systems with Applications, vol. 40, pp , 2013. [20] B. Liu, "Sentiment analysis and subjectivity," Handbook of natural language processing, vol. 2, p. 568, 2010. [21] A. Rashid, N. Anwer, M. Iqbal, and M. Sher, "A Survey Paper: Areas, Techniques and Challenges of Opinion Mining," 2013. [22] S. Gerani, M. J. Carman, and F. Crestani, "Investigating learning approaches for blog post opinion retrieval," in Advances in Information Retrieval, ed: Springer, 2009, pp [23] B. He, C. Macdonald, J. He, and I. Ounis, "An effective statistical approach to blog post opinion retrieval," in Proceedings of the 17th ACM conference on Information and knowledge management, 2008, pp [24] H. Yang, J. Callan, and L. Si, "Knowledge Transfer and Opinion Detection in the TREC 2006 Blog Track," in TREC, 2006. [25] K. Seki, Y. Kino, S. Sato, and K. Uehara, "TREC 2007 Blog Track Experiments at Kobe University," in TREC, 2007, p. 21. [26] M. M. S. Missen and M. Boughanem, "Sentence-level opinion-topic association for opinion detection in blogs," in Advanced Information Networking and Applications Workshops, WAINA'09. International Conference on, 2009, pp [27] E. Zhang and Y. Zhang, "UCSC on TREC 2006 blog opinion mining," in Text Retrieval Conference, 2006. [28] H. Zhao, Z. Luo, and W. Lu, "WHU at Blog Track 2007," in TREC, 2007. [29] R. Feldman, "Techniques and applications for sentiment analysis," Communications of the ACM, vol. 56, pp , 2013. [30] B. Pang and L. Lee, "A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts," in Proceedings of the 42nd annual meeting on Association for Computational Linguistics, 2004, p. 271. [31] A. Kennedy and D. Inkpen, "Sentiment classification of movie reviews using contextual valence shifters," Computational Intelligence, vol. 22, pp , 2006. [32] A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng, and C. Potts, "Learning word vectors for sentiment analysis," in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, 2011, pp [33] A. B. Goldberg and X. Zhu, "Seeing stars when there aren't many stars: graph-based semi-supervised learning for sentiment categorization," in Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing, 2006, pp

28 با تشکر از توجه شما خیلی عالی بود. آفرین میشد خیلی بهتر ازین ارائه بدی
همکلاسی

29 مقایسه کارها رویکرد نام الگوریتم­ها سال ارائه دامنه زبان خلاصه روش
ویژگی یادگیری با ناظر ECS&A NB SVM ANN 2013 Movie reviews Product reviews EN مقایسه و ارزیابی کارایی الگوریتمهای شبکه عصبی و ماشین بردار در نظر کاوی سطح سند مثبت: توجه دقیق به ویژگیهای محاسباتی منفی: عدم شرح ویژگیها 68<Accuracy<90 (محصولات) 80<Accuracy<86(فیلم) 13 TSA SVMs 2011 Microblogging Twitter تاثیر پیکره‌ها و انتخاب ویژگیهای متناسب با حوزه میکرو بلاگها در افزایش کارایی مثبت: نشان دادن تاثیر انتخاب ویژگی مناسب منفی: عدم بحث از الگوریتم طبقه ­بند Accuracy=75% F-measure=0.68 114 SAUS minimum cut Naive Bayes 2004 En استفاده از الگوریتم برش کمینه و حذف جملات عینی از سند قبل از پردازش توسط الگوریتمهای طبقه بند مثبت: تاثیر زیاد آنالیز ذهنیت بر کارایی طبقه بند سطح سند Accuracy= 86% 1255 SACVS 2006 کاربرد تغییردهنده‌های معنای وابسته به متن نظیر منفی­کننده و شدت دهنده برای طبقه­بندی بهتر نظرات مثبت: سادگی روش به کار گرفته شده منفی: ویژگیهای کم برای الگوریتمهای یادگیر Accuracy= 85% 319

30 مقایسه کارها (ادامه) 54 85 2409 171 رویکرد نام الگوریتم­ها سال ارائه
دامنه زبان خلاصه روش ویژگی یادگیری با ناظر SAML EWGA with SVM 2011 Web forum En Ar شناخت ویژگیهای مشترک نحوی و ادبی از دو زبان و استخراج آنها توسط الگوریتم ژنتیک Accuracy= 86% 54 LWVSA LDA LSA Consumer reviews for movies استفاده از برداری از لغات در فضای روابط چند بعدی برای غلبه بر ارتباط نحوی و معنایی به صورت همزمان مثبت: دقت بالای گزارش شده منفی: عدم تشریح ساده بردار در ابتدا یا انتهای مقاله بصورت BlackBox Accuracy= 88.5% 85 یادگیری بدون ناظر SOU Lexicon-base 2002 Automobile Banks Movies Travel Destinations استفاده از الگوه‌های نحوی برای استخراج عبارات حسی و تعیین گرایش سند مثبت: سادگی روش منفی: دقت پایین و عدم تمرکز بر روی حوزه­ موضوعی خاص 65<Accuracy<84 2409 یادگیری شبه ناظر GBSS SVM k-nearest neighbor 2012 Movie reviews روشی مبتنی بر گراف برای بهبود عملکرد برچسب گذار اسناد مثبت: نوآوری کار و استفاده از چهار دسته منفی: دقت پایین Accuracy=59.8% 171


Download ppt "نظر کاوی مبتنی بر سطح سند"

Similar presentations


Ads by Google