1,995,000 تومان Original price was: 1,995,000 تومان.299,250 تومانCurrent price is: 299,250 تومان.
ویژگی های دوره
متن کاوی با پایتون Python یکی از روش های رایج برای استخراج داده ها از متون مختلف می باشد. متن کاوی به معنای استخراج داده ها از دل متن هاست که می توان به کمک آن ها اطلاعات مفید و کاربردی را در مورد آنها برای مقاصد مختلف بدست آورد.
امروزه علوم داده به یکی از جذاب ترین و پرطرفدارین تخصص ها و مشاغل در ایران و دنیا تبدیل شده است. اما برای تبدیل شدن به یک متخصص علوم داده، تسلط بر مفاهیم و تکنیک های داده کاوی های معمول و شناخته شده (یا همان کاوش دیتای ساختار یافته (Structured Data) کافی نیست و تسلط به تحلیل داده های بدون ساختار (Unstructured Data) امری ضروری محسوب میشود که منظور از داده های بدون ساختار، همان داده های متن (Text) و تصویر می باشد.
طبق آمار، بیش از 80% دیتای تولید شده در دنیا در دسته بدون ساختار قرار میگیرند و این میزان به صورت نمادی در حال افزایش است. جالب است بدانید که 40% از مدیران کسب و کارها در کشورهای پیشرفته از داشتن حجم بسیار زیاد دیتای متن آنالیز نشده شکایت دارند اما با پیشرفت تکنولوژی و توسعه هوش مصنوعی، بسترهای تجزیه و تحلیل دیتای متن و تصویر نیز شکل گرفتند و از دل متون سنگین و نامنظم به کمک یادگیری ماشین (Machine learning)، می توان الگوهای پنهان را کشف کرد و به مدیران در تصمیم گیری، طراحی راهبرد و پیاده سازی آن، کمک فراوانی کرد.
با کمک متن کاوی با پایتون و پردازش زبان طبیعی میتوان :
- از انواع منابع متن (کتاب، روزنامه، فایل pdf، فایل word، صفحات وب و …) اطلاعات کلیدی و مهم استخراج کرد.
- نظرات، کامنت ها و گفته های مردم را تحلیل کرد.
- گزارشات و اسناد را طبقه بندی نمود.
- گزارشات و اسناد را خوشه بندی نمود.
- از دل منبع اطلاعات متنی، ابر واژگان ساخت.
- یک سیستم ترجمه (برای تمام زبانهای دنیا) ساخت.
- صوت را به متن تبدیل کرد.
- متن را به یک فایل صوتی (با فرمت .mp3) تبدیل کرد.
- متن را به ویژگی تبدیل کرد (برا خوشه بندی و طبقه بندی متن مورد استفاده قرار میگیرد.)
- و …
در این دوره چه مباحثی آموزش داده شده است؟
ما در این دوره به طور جامع به آموزش متن کاوی با پایتون Python خواهیم پرداخت. با اطمینان میتوان گفت که در اکثر فرصت های شغلی علوم داده (Data science) در تمام دنیا، تسلط به داده کاوی و متن کاوی با پایتون امری ضروری می باشد و امتیاز بسیار زیادی در جذب و استخدام افراد دارد.
سرفصل های دوره آموزش متن کاوی با پایتون
فصل 1- معرفی و مرور مبانی داده کاوی با پایتون
- معرفی دوره
- دانلود و نصب Jupyter notebook + نصب ابزار متن کاوی
- مبانی برنامه نویسی پایتون با تمرکز بر داده کاوی
- کار با کتابخانه Numpy
- کار با کتابخانه Pandas
فصل 2- استخراج متن از منابع مختلف
- استخراج متن از کتاب
- استراج متن از فایل word
- استخراج متن از فایل PDF
- استخراج متن از صفحه وب
- استخراج شناسه ایمیل از متن
- جایگزین کردن شناسههای ایمیل در متن
- مدیریت دیتای رشته در متن
- استخراج متن ازفایل Json
فصل 3- پیش پردازش متن
- تبدیل متن به Lowercase (کوچک کردن حروف واژه)
- Tokenization (جداسازی واژگان و جملات در متن)
- حذف Punctuation (نقطه گذاری)
- حذف Stop word ها (واژگان پر تکرار و بیاهمیت)
- استاندارد سازی متن (Text standardization)
- Stemming (حذف صرف فعل)
- Lemmatizing (تبدیل جمع به مفرد)
- تصحیح غلط نوشتاری
- محاسبه فراوانی لغات
- ساخت ابر واژگان
فصل 4- تبدیل متن به ویژگی
- تبدیل متن به ویژگی با استفاده کد گذاری (Encoding)
- تبدیل متن به ویژگی با استفاده بردار شمارش (Count Vectorizing)
- تبدیل متن به ویژگی با استفاده از N-Grams
- ویژگیهای مبتنی بر بایگرام یک فایل متن
- مهندسی ویژگی با TF-IDF
فصل 5- پردازش زبان طبیعی پیشرفته
- استخراج عبارت اسمی از متن
- شباهت سنجی میان متنها (Text similarity)
- برچسب گذاری نقش گرامری واژه (اسم، فعل، صفت و …) با POS Tagging
- استخراج اسامی خاص از متن (دانشگاه، استان، شخص و …)
- تحلیل احساسات + مثال (Sentiment Analysis)
- تشخیص معنی واژه در جملات مختلف
- ساخت سیستم ترجمه
- تبدیل صوت به متن
- تبدل متن به صوت (یک فایل MP3)
فصل 6- پروژههای کسب و کار
- طبقه بندی متن پیامکها و شناسایی علل اسپم بودن آنها
- ساخت سیستم طبقه بندی شکایات مصرف کنندگان
- پروژه تحلیل احساسات مشتریان یک شرکت بزرگ
- خلاصه سازی متن یک صفحه وب
- خلاصه سازی متن یک کتاب
- پروژه خوشه بندی متن اسناد (Document Clustering)
لینک دوره های دیگر
- آموزش داده کاوی و یادگیری ماشینی با IBM SPSS modeler
- آموزش جامع مبانی و مفاهیم داده کاوی و یادگیری ماشین
- آموزش داده کاوی و یادگیری ماشینی با پایتون
- آموزش یادگیری عمیق با پایتون
- پکیج آموزش جامع علم داده با پایتون
- آموزش داده کاوی با رپیدماینر
- آموزش تصویر کاوی با رپیدماینر
- آموزش متن کاوی و وب کاوی با رپیدماینر
- پکیج آموزش جامع علم داده با رپیدماینر RapidMiner
- آموزش جامع هوش تجاری BI و تحلیل داده با تبلو Tableau
حاصل دوره
- در صورت تسلط به داده کاوی با پایتون و یادگیری مفاهیم این دوره، میتوایند به عنوان یک متخصص علوم داده در شرکت های مشغول به کار شوید.
- داده های کیفی را با کمک یادگیری ماشین تحلیل کنید.
- از کاربردهای پردازش زبان طبیعی در تسهیل پروژههای خود استفاده کنید.
- تسلط به متن کاوی و پردازش زبان طبیعی با پایتون در مهاجرت تحصیلی و کاری شما می تواند بسیار مؤثر باشد.
توجه : با هدف یادگیری کامل و تسلط به مباحث دوره، در صورت داشتن هر گونه سؤال، راهنمایی و نیاز به توضیحات بیشتر در خصوص فرآیندها و عملگرهای آموزش، دانشجویان محترم می توانند با ارسال تیکت از طریق بخش حساب کاربری و تیکت پشتیبانی با بنده در ارتباط باشند.
فصل اول
معرفی دوره ویدئو
16:27
دانلود و نصب Jupyter notebook + نصب ابزار متن کاوی ویدئو
05:40
مبانی برنامه نویسی پایتون با تمرکز بر داده کاوی ویدئو
01:02:36
کار با کتابخانه Numpy ویدئو
29:49
کار با کتابخانه Pandas ویدئو
22:01
فصل دوم
استخراج داده از کتاب الکترونیک ویدئو
10:46
استخراج داده از فایل ورد (Word) ویدئو
06:19
استخراج داده از فایل PDF ویدئو
06:51
استخراج داده از صفحه وب ویدئو
13:17
استخراج شناسه ایمیل (Email ID) از متن ویدئو
02:25
جایگزین کردن شناسههای ایمیل (Email ID) در متن ویدئو
02:19
مدیریت دیتای رشته در متن ویدئو
02:29
استخراج دیتا از فایل Json ویدئو
04:30
فصل سوم
تبدیل متن به Lowercase (کوچک کردن حروف واژه) ویدئو
05:19
Tokenization (جداسازی واژگان و جملات در متن) ویدئو
10:21
حذف Punctuation (نقطه گذاری) ویدئو
04:05
حذف Stop word ها (واژگان پر تکرار و بیاهمیت) ویدئو
05:28
استاندارد سازی متن (Text standardization) ویدئو
10:15
Stemming (حذف صرف فعل) ویدئو
05:07
Lemmatizing (تبدیل جمع به مفرد) ویدئو
03:04
تصحیح غلط نوشتاری ویدئو
08:11
محاسبه فراوانی لغات ویدئو
13:28
ساخت ابر واژگان ویدئو
05:31
فصل چهارم
تبدیل متن به ویژگی با استفاده کد گذاری (Encoding) ویدئو
07:14
تبدیل متن به ویژگی با استفاده بردار شمارش (Count Vectorizing) ویدئو
04:49
تبدیل متن به ویژگی با استفاده از N-Grams ویدئو
05:24
ویژگیهای مبتنی بر بایگرام یک فایل متن ویدئو
02:36
مهندسی ویژگی با TF-IDF ویدئو
06:07
فصل پنجم
استخراج عبارت اسمی از متن ویدئو
02:12
شباهت سنجی میان متنها (Text similarity) ویدئو
05:53
برچسب گذاری نقش گرامری واژه (اسم، فعل، صفت و ...) با POS Tagging ویدئو
08:47
استخراج اسامی خاص از متن (دانشگاه، استان، شخص و ...) ویدئو
04:13
تحلیل احساسات + مثال (Sentiment Analysis) ویدئو
05:15
تشخیص معنی واژه در جملات مختلف ویدئو
10:24
ساخت سیستم ترجمه ویدئو
02:27
تبدیل صوت به متن ویدئو
09:58
تبدیل متن به صوت ویدئو
08:08
فصل ششم
طبقه بندی متن پیامکها و شناسایی علل اسپم بودن آنها ویدئو
40:22
ساخت سیستم طبقه بندی شکایات مصرف کنندگان ویدئو
45:18
پروژه تحلیل احساسات مشتریان یک شرکت بزرگ ویدئو
56:53
خلاصه سازی متن یک صفحه وب ویدئو
29:48
خلاصه سازی متن یک کتاب ویدئو
15:04
پروژه خوشه بندی متن اسناد (Document Clustering) ویدئو
51:31
دیتاستهای آموزش فایل های ضمیمه
سورس کدهای آموزش فایل های ضمیمه
متخصص علوم داده و فعال در صنعت بانک و بیمه. دارای مدرک کارشناسی آمار از دانشگاه شهید بهشتی و کارشناسی ارشد مدیریت فناوری از دانشگاه تهران
دوره های مرتبط
مهاجرت به لینوکس – آموزش لینوکس مقدماتی
ارائه شده توسط< محمدرضا عسگری
آموزش استفاده از نقشه گوگل در سی شارپ
ارائه شده توسط< کیا حامدی
آموزش جامع برنامه نویسی برد آردوینو
ارائه شده توسط< مجتبی شادریان
آموزش جامع طراحی سایت با وردپرس
ارائه شده توسط< مسعود جواهری
طراحی وب از رویا تا واقعیت (فصل اول)
ارائه شده توسط< محمدرضا عسگری
rate_reviewامتیاز دانشجویان دوره
chat_bubble_outlineنظرات
1,995,000 تومان Original price was: 1,995,000 تومان.299,250 تومانCurrent price is: 299,250 تومان.
فرصت باقیمانده تا پایان جشنواره شب یلدا
متخصص علوم داده و فعال در صنعت بانک و بیمه. دارای مدرک کارشناسی آمار از دانشگاه شهید بهشتی و کارشناسی ارشد مدیریت فناوری از دانشگاه تهران
zahra1375
سلام وقتتون بخیر،من موضوع پایان نامم تشخیص اخبار جعلی دررسانه هاس اجتماعیه، این دوره ب دردم میخوره و برام کارایی داره ؟ ممنون میشم راهنماییم کنید چون اطلاعات زیادی ندارم راجبش
شاهین نوری
سلام؛
لطفاً سوالاتتونو از طریق ایمیل یا تلگرام بپرسید.
شاهین نوری
دیتاست های متن استفاده در فصل “پروژه های کسب و کار” مربوط به مسابقات Kaggle (زیر مجموعه google) و شرکتهای خارجی است.
شاهین نوری
با سلام خدمت کاربران محترم؛
این دوره برای موارد و اهداف زیر مناسب است:
1) کسب و کار و انجام پروژه های بین المللی و کار با شرکتهای خارجی
2) مهاجرت تحصیلی و کاری به عنوان متخصص Text mining و data science
3) شرکت در مسابقات بین المللی data science در حوزه متن کاوی
*******
این دوره برای تحلیل و پردازش متن فارسی مناسب نمیباشد.
با احترام
nafir017( دانشجوی دوره )
عزيز سلام. من ليست واژگان و فراواني لغات يك كتاب فارسي رو لازمه كه براي پروژم انجام بدم و آموزش شمارو تهيه كردم. تا اينجاي آموزش كه ديدم حرفي از متن فارسي نزديد و متون انگليسي هستن. لطفا راهنماييم كنيد من تا همين امشب وقت دارم تا پروژه ام رو تحويل بدم
شاهین نوری
سلام وقت بخیر؛
در ایمیل به شما پاسخ داده شد.
با احترام
[email protected]
سلام استاد
سورس کدها در موقع خرید در اختیار قرار می گیرد ؟
ممنون
شاهین نوری
سلام وقت بخیر؛
بله پس از تهیه دوره میتوانید تمامی فایلهای آموزش، دیتاستها و سورس کدهای دوره را دانلود کنید.
با احترام
IAlirezaI
سلام وقت بخیر پیش نیاز این دوره چی هست؟
شاهین نوری
سلام وقت بخیر؛
پیش نیاز این دوره:
1) دوره مبانی داده کاوی و یادگیری ماشین
2) دوره داده کاوی و یادگیری ماشین با پایتون
با احترام
mr.atom( دانشجوی دوره )
ببخشید من براتون تیکت ارسال کردم ولی مثل اینکه شما مشاهده نفرمودید اگه ممکنه یه بررسی بکنید
با تشکر
شاهین نوری
سلام وقت بخیر؛
تیکت شما ارسال نشده است. لطفاً ایمیل بزنید:
[email protected]
با احترام
mr.aton( دانشجوی دوره )
سلام وقتتون بخیر ببخشید پروژه خوشه بندی اسناد رو میشه برا دیتا ست های فارسی هم انجام داد یا الگوریتم متفاوتی داره
شاهین نوری
سلام وقت بخیر؛
بله این امکان وجود دارد.
جهت راهنمایی و پاسخ دقیقتر، لطفاً از طریق ارسال تیکت در سایت یا آدرس ایمیل زیر در ارتباط باشید:
[email protected]
با احترام
mr.aton( دانشجوی دوره )
سلام
وقتتون بخیر
ببخشید پروژه تبدیل گفتار به متن به چه شکلی عمل میکنه آیا کلمات رو از دیتا بیس میخونه یا هر کلمه ای رو میتونه تبدیل کنه به متن
شاهین نوری
سلام؛
هر کلمهای را میتواند به متن تبدیل کند. فقط توجه داشته باشید در بخش کد نویسی، نوع زبان را مشخص کنید.
مثلاً در اینجا تبدیل گفتار فارسی و گفتار انگلیسی به متن آموزش داده شده است.
با احترام
mdastani( دانشجوی دوره )
سلام استاد نوری
در ادامه آموزش شما در زمینه خوشه بندی من با جستجو در وب خوشه بندی سلسله مراتی و نمودار دندرو گرام به صورت زیر نوشتم، این درسته؟
from scipy.cluster.hierarchy import ward, dendrogram
linkage_matrix = ward(similarity_distance)
fig, ax = plt.subplots(figsize=(15, 20))
ax = dendrogram(linkage_matrix, orientation=”right”);
plt.tick_params(\
axis= ‘x’,
which=’both’,
bottom=’off’,
top=’off’,
labelbottom=’off’)
plt.tight_layout()
در خط چهارم این کد یک آیتمی به نام لیبلز هست داده های این لیبل چی هستش ؟
متشکرم
شاهین نوری
با سلام؛
در ایمیل پاسخ شما داده شد.
لطفاً سؤالات خود را در ایمیل یا بخش ارسال تیکت سایت بپرسید.
mdastani( دانشجوی دوره )
با سلام استاد گرامی
از اینکه وقت می گذارید و پاسخگو هستین سپاسگذارم
ممنون میشم فایلی که گفتین رو برام ارسال کنین
من چند تا از مشکلات و سوالات رو با اجازتون براتون ایمیل می کنم
mdastani( دانشجوی دوره )
با سلام
آیا در TFIDF می توان برای مهمترین کلمات ورد کلود یا نمودارهای خاصی که نشان دهند باشند ایجاد کرد؟
چطور می توان نتایج tfidf را مرتب سازی کرد بر اساس مهمترین کلمات و اینکه مثلا 100 کلمه مهم رو نشون بده؟
چطور می توان در این الگوریتم استاپ وردها را نیز اعمال کنیم و استاپ وردهای جدید به آن نیز اضافه کنیم؟
با تشکر
شاهین نوری
با سلام دوست عزیز
TF-IDF برای تولید واژگان در یک متن استفاده میشود ( یا همان feature generation). همانطور که فایلها توضیح دادم، بیشتر برای پیاده سازی یادگیری ماشین، این کار انجام میشود.
لطفاً پروژه شماره 1 (طبقه بندی پیامکها و شناسایی علل اسپم بودن آنها) و پروژه شماره 3 (تحلیل احساسات مشتریان یک شرکت بزرگ) را به خوبی نگاه کنید و همراه با توضیحات من، کدها را بنویسید و اجرا کنید. پاسخ سؤالات شما در این فایل داده میشود.
همچنین من یک برنامه نوشتم که یک لیست واژگان (مثلاً 100 واژه مهم) به همراه فراوانی آنها با محدودیتهای مورد نظر را از یک متن (مثل فایل word و کتاب الکترونیک) چگونه بسازیم و به یک فایل csv تبدیل کنیم. اگر تمایل دارید، برایتان بفرستم.
با احترام
هما روح الامینی( دانشجوی دوره )
سلام ، وقت بخیر ؛ از اینکه این دوره رو برای آموزش تدوین کردید سپاس گزارم ، من برای پروژه ی دانشگاهیم باید به یک پایگاه مقاله مثل Scopus متصل بشم و از مقاله هاش برای Text mining استفاده کنم ، اتصال به پایگاه داده یا به نوعی استخراج مقاله ها رو چطور می تونم با پایتون انجام بدم ؟ ایا طی این دوره آموزش داده میشه ؟
شاهین نوری
با سلام؛
جهت راهنمایی دقیق در خصوص پروژه شما و مشاهده فایلهای مرتبط در این دوره، جزئیات بیشتری را مطرح فرمایید.
به دلیل اینکه مبحث Text mining از وب گسترده است و در چندین فایل توضیح داده شده است.
لطفاً از طریق آدرس ایمیل زیر و یا ارسال تیکت در سایت، با جزئیات پاسخ دهید و با من در ارتباط باشید:
[email protected]
با احترام فراوان
mdastani( دانشجوی دوره )
با سلام
برای متن کاوی و انجام عملیات بر روی متن بهتره از چه محیطی استفاده کنیم
پایچرم یا آناکوندا؟؟
شاهین نوری
با سلام؛
دوست عزیز، آناکوندا یک distribution (مجموعهای از کتابخانهها) هست ولی Pycharm یک IDE محسوب میشود. شما میتوانید آناکوندا را به Pycharm اضافه کنید و از امکانات آن در Pycharm بهره مند شوید.
در کل، آناکوندا را به شما پیشنهاد میکنم چرا که نصب و بهروز رسانی پکیجهای جدید و رایگان برنامه نویسی و داشتنهای اپلیکیشنهایی از جمله Jupyter notebook، فرآیند متن کاوی را برایتان راحتتر و لذت بخشتر میکند.
با احترام فراوان
mr_ali
سلام
میخواستم بدونم قسمت تبدیل متن به صوت و صوت به متن بر پایه ی چه کتابخونه ای ؟ فارسی؟به طور مثال متن به صوت به هیچ کتابخونه ای مانند gtts ,pytts و … نیاز نداره؟ واینکه در ویندوز هم اجرا میشه ؟
شاهین نوری
سلام دوست عزیز؛
1) قسمت تبدیل صوت به متن از کتابخونههای speech recognition و pyAudio استفاده کردم و از مثال فارسی هم استفاده کردم (تبدیل صوت فارسی به متن فارسی)
2) از gtts برای تبدیل متن به صوت استفاده کردم و برای این بخش، هنوز برای زبان فارسی بروز رسانی و توسعه صورت نگرفته. کل کدهای زبان های قابل استفاده رو آوردم.
3) بله دوست عزیز کل دوره روی ویندوز اجرا شده.
با احترام فراوان و تشکر از کامنت شما